吴洋洋
ChatGPT自去年11月末发布至今已经整整半年,全球有关生成式AI或者大语言模型(Large Language Models, LLMs)的投资仍然持续高涨,不同国家在这个领域的技术发展水平也正在拉开差距。这种差距,既表现在大模型的迭代速度上,更表现在各家大模型在应用场景端的落地速度上。
在美国硅谷,自5月中旬到6月中旬,几乎所有大公司都在忙着召开年度开发者大会,发布他们在AI领域的重要成果。先是Google,5月11日发布其第二代大语言模型PaLM 2,相较于一代模型,它能够理解更多种类的语言,并开始具备写代码的能力。只隔一天,5月13日,OpenAI CEO萨姆·奥特曼(Sam Altman)就在Twitter上宣布,所有ChatGPT Plus付费用户都可以试用“联网”与“插件”功能了,而在此之前,这些功能只有部分开发者才有试用资格。
5月24日微软也召开了开发者大会,宣布Copilot(注:基于GPT的AI助手)登陆Windows 11,用户可以获得操作系统级的AI功能;
Bing将成为ChatGPT的默认搜索引擎插件,开发者为OpenAI开发的插件,也适用于Copilot。通过云计算平台Azure AI Studio,客户还能自定义公司的Copilot。
OpenAI在应用端的进展仍是最为迅猛的。在ChatGPT开放付费用户试用联网与插件两个功能后不到一周,ChatGPT的iOS版发布,最先只在美国地区上线,一周后,能够在苹果应用商店中下载这款应用的国家市场就扩展到了42个。
GPT引发的大模型开发热潮,还将一家芯片公司推向其发展历史上的巅峰—英伟达。尽管2024财年第一财季显示这家企业在总收入和净利润两项指标上出现大幅“双降”,同比分别下滑13%和21%,但由于其AI芯片收入同比增长了14%,财报发布当天,英伟达的股价飙升了近30%,市值凈增长2000亿美元—相当于一个阿里巴巴、两个英特尔(注:阿里巴巴当天市值2099亿美元,英特尔1209亿美元)。
不仅如此,5月29日在台北举办的COMPUTEX大会上,英伟达CEO黄仁勋宣布一款名为“GH200 Grace Hopper”的芯片已经正式投产,这是一个CPU与GPU封装在一起的超级芯片。将256个超级芯片GH200连接在一起,就能组成一个数据中心DGX GH200,4个这样的数据中心,其算力就能够超过天河2号(目前中国最强的超级计算机)。
GPU比CPU更适合AI的并行计算,这个逻辑在黄仁勋口中不断被强调,然后很快就被资本市场接受了。黄仁勋在台北发表演讲的次日,英伟达市值首次超过万亿美元,成为继苹果、微软、亚马逊和Alphabet之后,第5个市值过万亿的公司(Facebook也曾在这个名单上,不过已经滑落很久了)。
自ChatGPT发布,中国公司就处于追赶状态。硅谷公司纷纷展示自己在AI时代的野心并在产品落地方面取得实质进展的时候,中国公司还处于模型开发和产品内测阶段。进入6月以来,双方的差距没有缩小,而是被进一步拉大了:OpenAI的基础模型、微软的操作系统、英伟达的AI芯片和苹果的AIGC设备都亮相了—硅谷公司在AI新纪元的版图已基本构建完成,而中国公司多数还挣扎在基础模型的开发上,加之“如何监管大模型”的问题依旧悬置,各家的应用类产品到底何时可以被许可上市,目前仍没有时间表。
以下是2023年6月全球不同市场在人工智能领域的进展。
全球篇
#OpenAI大幅更新大模型API,绑定更多开发者
6月13日,OpenAI大幅更新了其大语言模型的应用程序接口(API)方案,包括推出新的函数调用(function calling)功能、支持更长token(服务端生成的一串字符串)的API,以及降低使用价格等等。
“函数调用”功能,可以让开发者在调用GPT的API时,通过一个自定义参数,调用外部软件或数据源,从而更精确地控制GPT的回答。像“今天天气怎么样”的提问,开发者可以自定义函数调用的数据来源,比如告诉GPT“被问到天气信息时,可以从‘高德天气这个平台获取数据”。用户一旦能自主控制数据来源,可有效避免GPT在没有数据时编造一个答案来回复。
OpenAI今年3月推出的“插件”(Plugin)功能,也是让GPT能够连接到模型以外的软件或数据,从而在回答特定问题时给出更有针对性的答案。此番推出“调用函数”,二者的区别在于,之前的插件功能只能在ChatGPT里使用,而函数调用可以让开发者对接自己公司的内部API,利用GPT分析内部数据。
OpenAI此前的战略是鼓励开发者更多地为GPT开发公用插件,形成一个“App Store”一样的“插件市场”,让GPT模型和ChatGPT这个智能机器人更好用,而OpenAI将因此成为一个平台型公司。函数调用功能,则会赋予开发者更多权限以利用GPT开发更多本地化的应用,它是OpenAI充分发挥其大模型优势的另一种方向,目标同样是想将更多开发者牢牢绑定在其基础模型上。
此外,OpenAI 6月13日更新的API支持更长token—16k,是原来的4倍,并对所有用户开放。这个长度与其竞争对手Anthropic的大模型Claude相比仍然处于弱势。更长的token意味着模型能够处理的文档长度更长,16k的token使得GPT现在可以一次处理约20页长度的英文文本,但Claude更强大,它一次性处理的文字量已等同于一本《了不起的盖茨比》(约7.2万token)这样的书籍。
不过,OpenAI这一轮降价策略,有助于它在模型竞争中继续保有优势。对于最流行的嵌入模型text-embedding-ada-002,OpenAI直接把价格砍掉了75%,至每1k token的价格为0.0001美元。最流行的聊天模型gpt-3.5-turbo的token输入价格也下调了25%,每1k token的输入价格为0.0015美元。输出价格保持不变,为每1k token 0.002美元。
#微软测试
Copilot版Windows 11
继5月发布Copilot全家桶后,微软在6月上线了Copilot版Windows 11做测试。与ChatGPT、Midjourney等软件级AI工具不同,Windows Copilot是一个操作系统级的AI助手,而且是生成式的。
只要点击图标,它就能在侧边栏出现。你可以向它提出这台电脑系统操作层面的问题,比如当你提问“能否让我的电脑变得更适合工作”,Windows Copilot就会提议你开启专注功能和深色模式。用户点选Yes,它就可以自动调用这些功能。你还可以让它调用你电脑上已安装软件的功能,比如你可以问Windows Copilot“有什么音乐适合工作时候听”,它就会主动打开Spotify并且搜索相关歌单;
你甚至可以让它帮你工作,比如当你面对一篇论文PDF或者一段Word文档里的文字时,可以直接让Windows Copilot帮你总结提 炼。
苹果手机里的Siri也是系统级的AI助手,不过在苹果把其模型从普通深度学习切换为生成式AI之前,Siri还做不了Windows Copilot现在做的事。
苹果在AI领域落后了吗?事实是—
#苹果开辟了新战场
——增强现实(AR)
当所有技术公司开发者大会的关键词都是“AI”的时候,苹果将公众的视线再度拉回到“硬件”。6月5日的苹果开发者大会(WWDC)上,在介绍完新款MacBook Air、新款芯片M2 Ultra和一系列操作系统更新后,苹果CEO蒂姆·库克(Tim Cook)用40分钟—整场发布会近乎一半的时间,发布了号称具有革命性意义的新硬件Apple Vision Pro。
“就像Mac将我们带入了个人计算时代、iPhone引领我们进入移动计算时代一样,”库克说,“Apple Vision Pro将引导我们来到空间计算(spatial computing)时代。”
提出“空间计算”这一概念的同时,Apple Vision Pro也获得了一个新称谓—空间计算机(spatial computer)。
相较于Meta的Quest系列头显设备,苹果的Vision Pro完全抛弃了手柄,让用户通过眼睛注视、手指捏合或者開口说话,就能控制设备。“在系统中导航只需要动动眼睛,每个元素都能回应你的目光,感觉就像在用意念控制一切。”苹果人机交互副总裁艾伦·戴伊(Alan Dye)在产品介绍中说。
通过一项叫作EyeSight的技术,当有其他人出现在附近,Vision Pro就会变得“透明”—通过外部显示屏,实时呈现头显用户的眼睛。反之,当用户完全沉浸于一种虚拟体验—看电影、打游戏或者专注于一次正念训练时,Vision Pro的镜片就会被遮蔽起来,让周围人知道该用户“并不在与外界交流的状 态”。
这款头显定价3499美元,价格相当于高配版MacBook Pro。产品发布后,苹果的股价没有大涨,反而微跌。不过,媒体界对这款产品的态度比投资者乐观很多,《经济学人》称其为“AIGC时代的新iPhone”,言下之意,它可能是最适配AIGC内容的硬件。
一位自称曾负责开发该设备的苹果前员工Sterling Crispin在Twitter上发文,称苹果在这款设备中用到了初级的脑机接口技术,可通过身体和大脑数据来检测用户本人的精神状态:AI模型会尝试通过眼球追踪、大脑的电活动、心跳、肌肉活动、大脑的血密度、血压、皮肤电导等测量数据,来预测头显佩戴者是否处于好奇、注意力分散、害怕、专注、回忆过去等认知状态。
并且,通过监测瞳孔变化,苹果Vision Pro对用户即将要点击什么内容做出预测,因为人的瞳孔在点击之前会有反应—还没点击,人已经在期待点击后会发生的事情。因此,设备通过监测用户的眼动、接收大脑的生物反馈,实时设计用户交互界面,这是通过眼睛实现的一种简单的“脑机接口”。
此外Vision Pro头显设备还在以用户察觉不到的方式,利用快速闪烁视觉或声音监测佩戴者的反应,利用机器学习和来自身体和大脑的信号,预测用户的注意力集中程度、放松程度或学习效果,通过更新虚拟环境来不断优化用户这些状态。
#欧洲议会通过
《人工智能法案》草案
监管层面,6月最重要的新闻是欧洲议会通过了《人工智能法案》(AI Act)草案。
6月14日,欧盟《人工智能法案》有了里程碑式的进展:欧洲议会以499票赞成、28票反对和93票弃权通过了全部草案,为欧洲议会、欧盟成员国和欧盟委员会的“三方”谈判铺平了道路。
该谈判将在2023年6月至12月西班牙担任欧洲理事会轮值主席国期间继续。顺利的话,正式法案预计将在今年年底获批,并在24个月后,也就是2026年开始对相关企业产生实际影响。
该法案重点对两个层面的事务作出了规定:
其一,法案禁止使用实时(real-time)面部识别技术。不过,非实时(post)的识别技术并没有被禁,意味着已存档的监控录像仍可以被用来做面部识别。
其二,法案要求披露生成式AI训练数据的版权。AI Act不会将ChatGPT等生成式AI判定为高风险(这是OpenAI积极游说的结果),但对这些需要大量数据训练的AI新增了透明度和风险评估要求,比如要求彻底记录任何用于训练AI的原始内容,包括文本、图像、视频和音乐。OpenAI、Google和微软等公司都被要求申明,训练AI时所使用的材料不存在版权问题。
如果技术公司的行为违反《人工智能法案》,极端情况下,该公司全球年收入的6%可能会用于缴纳罚款。这项法案标志着AI监管取得里程碑式的进步,但提出的问题可能多于解决的问题。比如,法案提高了训练生成式AI的门槛,初创公司将更难与大公司竞争,投资者也不太乐意将资金投入到在欧盟运营的公司。OpenAI CEO萨姆·奥特曼就曾声称,如果不能满足欧洲的法规,OpenAI可能退出欧洲市场。不过,没过几天他就改口了。
国内篇
#多家AI初創公司新获融资,腾讯频频参投
6月,多家中国AI初创公司获得融资,且其中3家公司背后出现了一个共同投资者—腾讯。这3家企业分别是由美团前联合创始人王慧文创立的光年之外,商汤科技前副总裁、通用智能技术负责人闫俊杰参与创立的Mi n iMa x,以及深言科技—创始人兼CEO岂凡超是清华大学计算机科学与技术系2017级博士毕业生。
腾讯在大语言模型领域的自研进度,慢于老对手百度和阿里巴巴。2022年10月,腾讯才完成首个万亿参数的AI大模型“混元NLP大模型”的训练。作为对照,百度和阿里巴巴都于2021年推出过各自的大模型。今年2月,腾讯曾成立混元助手(HunyuanAide)项目组,计划推出类ChatGPT的对话产品。不过这款产品迄今尚未发布。百度和阿里巴巴则分别于今年3月和4月推出了自己的类ChatGP T产品。
6月19日在腾讯云举办的行业大模型技术峰会上,腾讯直接发布了“行业大模型”,面向十大行业(金融、文旅、政务、传媒、教育等)提供解决方案。
避开面向C 端用户的类ChatGPT产品,直接发布面向B端用户的“行业大模型”,且不按照行业惯例给这个模型起个名字—腾讯的做法,可能是为了避免被拿去跟同行的聊天机器人比较。不过,还有一个可能性,那就是腾讯判断监管层面希望国内生成式AI的发布不要那么高调。
#国内大模型产品
几乎都未获得公测许可
目前,普通国内用户无法使用ChatGPT,也几乎没有公开途径体验国内现已发布的各种生成式AI产品。
百度旗下的文心一言在今年3月发布后,仅开放了内测和“小范围”公测。金山办公4月发布的WPS AI迄今未开启公测。阿里云旗下的对话式产品“通义千问”今年4月发布后同样未能开放公测。
阿里云旗下另一款名为“通义听悟”的产品,是国内至今唯一开放公测的大模型应用。这款应用在6月1日上线,与文心一言、WPS A I等需要生成新内容的应用不同,其主要功能是把录音转换为文字或做些翻译工 作。
6月20日,国家网信办官网发布了一份公告,公布了境内现已备案的“深度合成服务算法”名单。这些算法几乎都与生成式AI技术相关,应用场景包括文本生成、图像生成和视频生成。
根据网信办官网的答记者问,这些备案基于的是今年1月开始施行的《互联网信息服务深度合成管理规定》(以下简称“《规定》”)。《规定》所称的“深度合成技术”就是指“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”,基本囊括主流生成式AI的应用场景。
根据这份《规定》,“具有舆论属性或者社会动员能力的深度合成服务提供者”和“深度合成服务技术支持者”均需履行备案手续,备案内容和《互联网信息服务算法推荐管理规定》的要求一样,须填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息。
6月20日公示的是上述《规定》实施后的首批备案名单,列出的算法共41款,那些只在新闻发布会上听过、从未在实际应用市场上见过的产品皆在其列。其中,由阿里系公司提供或支持的数量最多,共有14款,主要涉及智能客服、智能办公等领域。数量紧随其后的是腾讯系公司,提供或支持的算法有6款,主要涉及语音和音乐的合成以及智能办公场景。百度、抖音、美团、科大讯飞各自有2款算法进入该名单,主要涉及图片生成、视频特效、智能客服、语音认知及大模型领域。
根据一位要求匿名的业内人士的说法,“一些公司及其产品即使进入备案公示名单,它们什么时候能上市,监管层面也没有时间表。”
猜你喜欢插件开发者苹果自编插件完善App Inventor与乐高机器人通信电子制作(2019年22期)2020-01-14基于jQUerY的自定义插件开发软件(2016年6期)2017-02-06“85后”高学历男性成为APP开发新生主力军经济(2016年29期)2016-12-27收获苹果作文与考试·小学高年级版(2016年17期)2016-12-23拿苹果小学生导刊(低年级)(2016年8期)2016-09-2416%游戏开发者看好VRCHIP新电脑(2016年3期)2016-03-10会说话的苹果阅读与作文(小学低年级版)(2016年3期)2016-03-08MapWindowGIS插件机制及应用黑龙江工程学院学报(2015年5期)2015-12-04栝楼产业开发者谢献忠湖南农业(2015年5期)2015-03-18基于Revit MEP的插件制作探讨智能建筑电气技术(2015年1期)2015-03-01