大模型的中期战事

时间：2024-08-06 12:45:02 来源：网友投稿

吴洋洋

ChatGPT自去年11月末发布至今已经整整半年，全球有关生成式AI或者大语言模型（Large Language Models， LLMs）的投资仍然持续高涨，不同国家在这个领域的技术发展水平也正在拉开差距。这种差距，既表现在大模型的迭代速度上，更表现在各家大模型在应用场景端的落地速度上。

在美国硅谷，自5月中旬到6月中旬，几乎所有大公司都在忙着召开年度开发者大会，发布他们在AI领域的重要成果。先是Google，5月11日发布其第二代大语言模型PaLM 2，相较于一代模型，它能够理解更多种类的语言，并开始具备写代码的能力。只隔一天，5月13日，OpenAI CEO萨姆·奥特曼（Sam Altman）就在Twitter上宣布，所有ChatGPT Plus付费用户都可以试用“联网”与“插件”功能了，而在此之前，这些功能只有部分开发者才有试用资格。

5月24日微软也召开了开发者大会，宣布Copilot（注：基于GPT的AI助手）登陆Windows 11，用户可以获得操作系统级的AI功能；
Bing将成为ChatGPT的默认搜索引擎插件，开发者为OpenAI开发的插件，也适用于Copilot。通过云计算平台Azure AI Studio，客户还能自定义公司的Copilot。

OpenAI在应用端的进展仍是最为迅猛的。在ChatGPT开放付费用户试用联网与插件两个功能后不到一周，ChatGPT的iOS版发布，最先只在美国地区上线，一周后，能够在苹果应用商店中下载这款应用的国家市场就扩展到了42个。

GPT引发的大模型开发热潮，还将一家芯片公司推向其发展历史上的巅峰—英伟达。尽管2024财年第一财季显示这家企业在总收入和净利润两项指标上出现大幅“双降”，同比分别下滑13%和21%，但由于其AI芯片收入同比增长了14%，财报发布当天，英伟达的股价飙升了近30%，市值凈增长2000亿美元—相当于一个阿里巴巴、两个英特尔（注：阿里巴巴当天市值2099亿美元，英特尔1209亿美元）。

不仅如此，5月29日在台北举办的COMPUTEX大会上，英伟达CEO黄仁勋宣布一款名为“GH200 Grace Hopper”的芯片已经正式投产，这是一个CPU与GPU封装在一起的超级芯片。将256个超级芯片GH200连接在一起，就能组成一个数据中心DGX GH200，4个这样的数据中心，其算力就能够超过天河2号（目前中国最强的超级计算机）。

GPU比CPU更适合AI的并行计算，这个逻辑在黄仁勋口中不断被强调，然后很快就被资本市场接受了。黄仁勋在台北发表演讲的次日，英伟达市值首次超过万亿美元，成为继苹果、微软、亚马逊和Alphabet之后，第5个市值过万亿的公司（Facebook也曾在这个名单上，不过已经滑落很久了）。

自ChatGPT发布，中国公司就处于追赶状态。硅谷公司纷纷展示自己在AI时代的野心并在产品落地方面取得实质进展的时候，中国公司还处于模型开发和产品内测阶段。进入6月以来，双方的差距没有缩小，而是被进一步拉大了：OpenAI的基础模型、微软的操作系统、英伟达的AI芯片和苹果的AIGC设备都亮相了—硅谷公司在AI新纪元的版图已基本构建完成，而中国公司多数还挣扎在基础模型的开发上，加之“如何监管大模型”的问题依旧悬置，各家的应用类产品到底何时可以被许可上市，目前仍没有时间表。

以下是2023年6月全球不同市场在人工智能领域的进展。

全球篇

#OpenAI大幅更新大模型API，绑定更多开发者

6月13日，OpenAI大幅更新了其大语言模型的应用程序接口（API）方案，包括推出新的函数调用（function calling）功能、支持更长token（服务端生成的一串字符串）的API，以及降低使用价格等等。

“函数调用”功能，可以让开发者在调用GPT的API时，通过一个自定义参数，调用外部软件或数据源，从而更精确地控制GPT的回答。像“今天天气怎么样”的提问，开发者可以自定义函数调用的数据来源，比如告诉GPT“被问到天气信息时，可以从‘高德天气这个平台获取数据”。用户一旦能自主控制数据来源，可有效避免GPT在没有数据时编造一个答案来回复。

OpenAI今年3月推出的“插件”（Plugin）功能，也是让GPT能够连接到模型以外的软件或数据，从而在回答特定问题时给出更有针对性的答案。此番推出“调用函数”，二者的区别在于，之前的插件功能只能在ChatGPT里使用，而函数调用可以让开发者对接自己公司的内部API，利用GPT分析内部数据。

OpenAI此前的战略是鼓励开发者更多地为GPT开发公用插件，形成一个“App Store”一样的“插件市场”，让GPT模型和ChatGPT这个智能机器人更好用，而OpenAI将因此成为一个平台型公司。函数调用功能，则会赋予开发者更多权限以利用GPT开发更多本地化的应用，它是OpenAI充分发挥其大模型优势的另一种方向，目标同样是想将更多开发者牢牢绑定在其基础模型上。

此外，OpenAI 6月13日更新的API支持更长token—16k，是原来的4倍，并对所有用户开放。这个长度与其竞争对手Anthropic的大模型Claude相比仍然处于弱势。更长的token意味着模型能够处理的文档长度更长，16k的token使得GPT现在可以一次处理约20页长度的英文文本，但Claude更强大，它一次性处理的文字量已等同于一本《了不起的盖茨比》（约7.2万token）这样的书籍。

不过，OpenAI这一轮降价策略，有助于它在模型竞争中继续保有优势。对于最流行的嵌入模型text-embedding-ada-002，OpenAI直接把价格砍掉了75%，至每1k token的价格为0.0001美元。最流行的聊天模型gpt-3.5-turbo的token输入价格也下调了25%，每1k token的输入价格为0.0015美元。输出价格保持不变，为每1k token 0.002美元。

#微软测试

Copilot版Windows 11

继5月发布Copilot全家桶后，微软在6月上线了Copilot版Windows 11做测试。与ChatGPT、Midjourney等软件级AI工具不同，Windows Copilot是一个操作系统级的AI助手，而且是生成式的。

只要点击图标，它就能在侧边栏出现。你可以向它提出这台电脑系统操作层面的问题，比如当你提问“能否让我的电脑变得更适合工作”，Windows Copilot就会提议你开启专注功能和深色模式。用户点选Yes，它就可以自动调用这些功能。你还可以让它调用你电脑上已安装软件的功能，比如你可以问Windows Copilot“有什么音乐适合工作时候听”，它就会主动打开Spotify并且搜索相关歌单；
你甚至可以让它帮你工作，比如当你面对一篇论文PDF或者一段Word文档里的文字时，可以直接让Windows Copilot帮你总结提炼。

苹果手机里的Siri也是系统级的AI助手，不过在苹果把其模型从普通深度学习切换为生成式AI之前，Siri还做不了Windows Copilot现在做的事。

苹果在AI领域落后了吗？事实是—

#苹果开辟了新战场

——增强现实（AR）

当所有技术公司开发者大会的关键词都是“AI”的时候，苹果将公众的视线再度拉回到“硬件”。6月5日的苹果开发者大会（WWDC）上，在介绍完新款MacBook Air、新款芯片M2 Ultra和一系列操作系统更新后，苹果CEO蒂姆·库克（Tim Cook）用40分钟—整场发布会近乎一半的时间，发布了号称具有革命性意义的新硬件Apple Vision Pro。

“就像Mac将我们带入了个人计算时代、iPhone引领我们进入移动计算时代一样，”库克说，“Apple Vision Pro将引导我们来到空间计算（spatial computing）时代。”

提出“空间计算”这一概念的同时，Apple Vision Pro也获得了一个新称谓—空间计算机（spatial computer）。

相较于Meta的Quest系列头显设备，苹果的Vision Pro完全抛弃了手柄，让用户通过眼睛注视、手指捏合或者開口说话，就能控制设备。“在系统中导航只需要动动眼睛，每个元素都能回应你的目光，感觉就像在用意念控制一切。”苹果人机交互副总裁艾伦·戴伊（Alan Dye）在产品介绍中说。

通过一项叫作EyeSight的技术，当有其他人出现在附近，Vision Pro就会变得“透明”—通过外部显示屏，实时呈现头显用户的眼睛。反之，当用户完全沉浸于一种虚拟体验—看电影、打游戏或者专注于一次正念训练时，Vision Pro的镜片就会被遮蔽起来，让周围人知道该用户“并不在与外界交流的状态”。

这款头显定价3499美元，价格相当于高配版MacBook Pro。产品发布后，苹果的股价没有大涨，反而微跌。不过，媒体界对这款产品的态度比投资者乐观很多，《经济学人》称其为“AIGC时代的新iPhone”，言下之意，它可能是最适配AIGC内容的硬件。

一位自称曾负责开发该设备的苹果前员工Sterling Crispin在Twitter上发文，称苹果在这款设备中用到了初级的脑机接口技术，可通过身体和大脑数据来检测用户本人的精神状态：AI模型会尝试通过眼球追踪、大脑的电活动、心跳、肌肉活动、大脑的血密度、血压、皮肤电导等测量数据，来预测头显佩戴者是否处于好奇、注意力分散、害怕、专注、回忆过去等认知状态。

并且，通过监测瞳孔变化，苹果Vision Pro对用户即将要点击什么内容做出预测，因为人的瞳孔在点击之前会有反应—还没点击，人已经在期待点击后会发生的事情。因此，设备通过监测用户的眼动、接收大脑的生物反馈，实时设计用户交互界面，这是通过眼睛实现的一种简单的“脑机接口”。

此外Vision Pro头显设备还在以用户察觉不到的方式，利用快速闪烁视觉或声音监测佩戴者的反应，利用机器学习和来自身体和大脑的信号，预测用户的注意力集中程度、放松程度或学习效果，通过更新虚拟环境来不断优化用户这些状态。

#欧洲议会通过

《人工智能法案》草案

监管层面，6月最重要的新闻是欧洲议会通过了《人工智能法案》（AI Act）草案。

6月14日，欧盟《人工智能法案》有了里程碑式的进展：欧洲议会以499票赞成、28票反对和93票弃权通过了全部草案，为欧洲议会、欧盟成员国和欧盟委员会的“三方”谈判铺平了道路。

该谈判将在2023年6月至12月西班牙担任欧洲理事会轮值主席国期间继续。顺利的话，正式法案预计将在今年年底获批，并在24个月后，也就是2026年开始对相关企业产生实际影响。

该法案重点对两个层面的事务作出了规定：

其一，法案禁止使用实时（real-time）面部识别技术。不过，非实时（post）的识别技术并没有被禁，意味着已存档的监控录像仍可以被用来做面部识别。

其二，法案要求披露生成式AI训练数据的版权。AI Act不会将ChatGPT等生成式AI判定为高风险（这是OpenAI积极游说的结果），但对这些需要大量数据训练的AI新增了透明度和风险评估要求，比如要求彻底记录任何用于训练AI的原始内容，包括文本、图像、视频和音乐。OpenAI、Google和微软等公司都被要求申明，训练AI时所使用的材料不存在版权问题。

如果技术公司的行为违反《人工智能法案》，极端情况下，该公司全球年收入的6%可能会用于缴纳罚款。这项法案标志着AI监管取得里程碑式的进步，但提出的问题可能多于解决的问题。比如，法案提高了训练生成式AI的门槛，初创公司将更难与大公司竞争，投资者也不太乐意将资金投入到在欧盟运营的公司。OpenAI CEO萨姆·奥特曼就曾声称，如果不能满足欧洲的法规，OpenAI可能退出欧洲市场。不过，没过几天他就改口了。

国内篇

#多家AI初創公司新获融资，腾讯频频参投

6月，多家中国AI初创公司获得融资，且其中3家公司背后出现了一个共同投资者—腾讯。这3家企业分别是由美团前联合创始人王慧文创立的光年之外，商汤科技前副总裁、通用智能技术负责人闫俊杰参与创立的Mi n iMa x，以及深言科技—创始人兼CEO岂凡超是清华大学计算机科学与技术系2017级博士毕业生。

腾讯在大语言模型领域的自研进度，慢于老对手百度和阿里巴巴。2022年10月，腾讯才完成首个万亿参数的AI大模型“混元NLP大模型”的训练。作为对照，百度和阿里巴巴都于2021年推出过各自的大模型。今年2月，腾讯曾成立混元助手（HunyuanAide）项目组，计划推出类ChatGPT的对话产品。不过这款产品迄今尚未发布。百度和阿里巴巴则分别于今年3月和4月推出了自己的类ChatGP T产品。

6月19日在腾讯云举办的行业大模型技术峰会上，腾讯直接发布了“行业大模型”，面向十大行业（金融、文旅、政务、传媒、教育等）提供解决方案。

避开面向C 端用户的类ChatGPT产品，直接发布面向B端用户的“行业大模型”，且不按照行业惯例给这个模型起个名字—腾讯的做法，可能是为了避免被拿去跟同行的聊天机器人比较。不过，还有一个可能性，那就是腾讯判断监管层面希望国内生成式AI的发布不要那么高调。

#国内大模型产品

几乎都未获得公测许可

目前，普通国内用户无法使用ChatGPT，也几乎没有公开途径体验国内现已发布的各种生成式AI产品。

百度旗下的文心一言在今年3月发布后，仅开放了内测和“小范围”公测。金山办公4月发布的WPS AI迄今未开启公测。阿里云旗下的对话式产品“通义千问”今年4月发布后同样未能开放公测。

阿里云旗下另一款名为“通义听悟”的产品，是国内至今唯一开放公测的大模型应用。这款应用在6月1日上线，与文心一言、WPS A I等需要生成新内容的应用不同，其主要功能是把录音转换为文字或做些翻译工作。

6月20日，国家网信办官网发布了一份公告，公布了境内现已备案的“深度合成服务算法”名单。这些算法几乎都与生成式AI技术相关，应用场景包括文本生成、图像生成和视频生成。

根据网信办官网的答记者问，这些备案基于的是今年1月开始施行的《互联网信息服务深度合成管理规定》（以下简称“《规定》”）。《规定》所称的“深度合成技术”就是指“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”，基本囊括主流生成式AI的应用场景。

根据这份《规定》，“具有舆论属性或者社会动员能力的深度合成服务提供者”和“深度合成服务技术支持者”均需履行备案手续，备案内容和《互联网信息服务算法推荐管理规定》的要求一样，须填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息。

6月20日公示的是上述《规定》实施后的首批备案名单，列出的算法共41款，那些只在新闻发布会上听过、从未在实际应用市场上见过的产品皆在其列。其中，由阿里系公司提供或支持的数量最多，共有14款，主要涉及智能客服、智能办公等领域。数量紧随其后的是腾讯系公司，提供或支持的算法有6款，主要涉及语音和音乐的合成以及智能办公场景。百度、抖音、美团、科大讯飞各自有2款算法进入该名单，主要涉及图片生成、视频特效、智能客服、语音认知及大模型领域。

根据一位要求匿名的业内人士的说法，“一些公司及其产品即使进入备案公示名单，它们什么时候能上市，监管层面也没有时间表。”

猜你喜欢插件开发者苹果自编插件完善App Inventor与乐高机器人通信电子制作(2019年22期)2020-01-14基于jQUerY的自定义插件开发软件(2016年6期)2017-02-06“85后”高学历男性成为APP开发新生主力军经济(2016年29期)2016-12-27收获苹果作文与考试·小学高年级版(2016年17期)2016-12-23拿苹果小学生导刊(低年级)(2016年8期)2016-09-2416%游戏开发者看好VRCHIP新电脑(2016年3期)2016-03-10会说话的苹果阅读与作文（小学低年级版）(2016年3期)2016-03-08MapWindowGIS插件机制及应用黑龙江工程学院学报(2015年5期)2015-12-04栝楼产业开发者谢献忠湖南农业(2015年5期)2015-03-18基于Revit MEP的插件制作探讨智能建筑电气技术(2015年1期)2015-03-01