“百模大战”，掀动资本波澜

摘要国内互联网巨头的大模型正接连投入“实战”，在商业场景落地方面不断打磨，拉开大模型赋能产业的序幕。文｜刘青青石丹ID | BMR2004轰轰烈烈的全球大模型浪潮已经持续了大半年，从

国内互联网巨头的大模型正接连投入“实战”，在商业场景落地方面不断打磨，拉开大模型赋能产业的序幕。

文｜刘青青石丹

ID | BMR2004

轰轰烈烈的全球大模型浪潮已经持续了大半年，从赫赫有名的AI target=_blank class=infotextkey>OpenAI、google、Anthropic、Meta，到国内互联网科技巨头百度、阿里、腾讯、京东、华为、360……各种大模型产品层出不穷。

在这场“百模大战”里，国内大模型活力惊人，在创业、投资、融资、应用等领域如火如荼。但是我们也能清楚地看到，国内大模型与国际技术水平的差距。

在人工智能时代，大模型的出现仿佛人类社会走进第五次工业革命，有一些从未有过的东西蓬勃兴起，有一些习以为常的东西骤然消失，还有一些担忧挥之不去，但是科技和社会的进步依旧向前。

“百模大战”

国内大模型产品遍地开花，已经落地的大模型产品数量远远超过了北美、欧洲地区。

大模型浪潮还在加速奔涌。毫无疑问，美国在AI大模型领域表现强悍。2022年底，OpenAI发布的ChatGPT掀起全球大模型浪潮，此后2023年3月，OpenAI发布万亿级大模型GPT-4；Anthropic发布Claude 2；Google发布当前最大的视觉语言模型PalM-E；Meta推出AI语言模型 LLaMA和视觉模型SAM。

除此之外，韩国科技巨头 Kakao 旗下人工智能部门Kakao Brain宣布推出AI图像生成器 Karlo 2.0；韩国搜索巨头NAVER发布语言大模型HyperCLOVA；LG集团人工智能智库LG AI Research 推出拥有3000亿参数的Exaone多模态模型；德国初创公司Aleph Alpha发布了一款拥有700亿参数的预训练模型Luminous；欧洲AI初创公司 Hugging Face创建BLOOM大模型……

在国内，大模型产品更是接连落地，各大互联网科技巨头纷纷入局。2023年3月，基于文心大模型，百度发布“文心一言”，成为中国第一个类ChatGPT产品。此后华为发布“盘古”大模型、京东发布“言犀产业”大模型、阿里发布“通义千问”大模型、科大讯飞发布“星火认知”大模型、360公司发布通用大模型“360智脑”。除此之外，腾讯也传出发布大模型产品“混元助手(HunyuanAide)”的消息。

同时，商汤宣布推出大模型“商汤日日新”、昆仑万维和奇点智源合作发布“天工3.5”、知乎联合面壁智能发布中文大模型“知海图AI”、网易发布“玉言”大模型、达观数据推出“曹植”系统、澜舟科技发布孟子对话大模型“MChat”……

“百模大战”硝烟四起，大模型之争如火如荼。

值得一提的是，在大厂之外，国内还有另外一股“大模型势力”。

引力创投合伙人、微博前副总经理、《超越想象的GPT医疗》译者芦义指出，在国内大模型浪潮当中，高校的研究走在了互联网科技巨头的前面。例如清华大学的ChatGLM-6B、复旦大学的MOSS大模型、香港大学的SGPT大模型等。这些高校的研究更早于互联网科技巨头，也积累了更多的经验和技术。

芦义直言，国内大模型产品遍地开花，已经落地的大模型产品数量远远超过了北美、欧洲地区。但国内的大模型公司多是互联网科技巨头，它们在原本的商业基础上进军AIGC领域，而国外大模型公司则大多属于研究机构和AI初创公司，因此形成了不同的风格特点。

“例如，国外大模型多在实验室中打磨，常常作为技术研究成果来展现。而中国互联网科技巨头依托产业发展，大模型产品在商业当中得到了很大的应用。”芦义表示。

产业为王

目前大模型处于“百花争艳”的状态，站在这个时间点，企业应该思考的不是技术追赶，而是产业突破。

国产大模型大多已经接入各种类型的商业应用。

对内，各大互联网科技巨头开始将大模型投入自身业务。例如阿里的“通义千问”大模型将首先部署于阿里的数码协同办公和应用开发平台“钉钉”，以及物联网智能家居终端机“天猫精灵”上，后续它还将接入阿里生态的所有商业应用。百度CEO李彦宏更是直言，百度首先要把全部产品用大模型重做一遍，“不是整合，不是接入，而是重做、重构。”

对外，一些大模型产品也被迅速投入到商业场景中进行落地。在国内，已经有15万家企业申请接入百度“文心一言”，其中有超过300家生态合作伙伴，一起探索了超400个具体的落地场景。

5月中旬，360公司创始人周鸿祎提出：每个城市、每个政府部门都会有自己的专有大模型，大模型和政府的业务系统融合，还会变成政府各个业务板块的“副驾驶”，甚至成为智慧政府、智慧城市的总调度室，形成城市级GPT。

7月初，华为云发布“盘古大模型3.0”，提出深耕行业。据了解，此前华为云已陆续推出了矿山、药物分子、电力、气象、海浪、铁路等大模型，7月初又发布政务、金融、制造大模型，持续为业界贡献先进的算法和解决方案。

7月中旬，京东推出“言犀”大模型，提出以完整工具链助推产业价值创造。京东的言犀AI开发计算平台，能够为客户的大模型开发和行业应用开发提供定制化解决方案。它既具备行业知识库，沉淀了京东自身在零售、物流、健康、金融等多个行业的Know-How，又具备了100多种训练和推理优化工具，能将通用模型迅速转化为专业模型。

弗若斯特沙利文(Frost & Sullivan)发布的《AI 大模型市场研究报告（2023）——迈向通用人工智能，大模型拉开新时代序幕》指出，大模型“基础设施—底层技术—基础通用—垂直应用”发展路线逐渐清晰，国内各厂商加速战略布局，加大资金和技术投入，迎头赶上全球大模型产业化浪潮，本土化大模型迎来发展新机遇。

京东集团副总裁、京东科技智能服务与产品部负责人何晓冬博士表示，目前大模型处于“百花争艳”的状态，站在这个时间点，企业应该思考的不是技术追赶，而是产业突破。技术上各家都是基于Transformer做大规模预训练，并不断地进行调优。

可以看到，国内互联网巨头的大模型正接连投入“实战”，在商业场景落地方面不断打磨，拉开大模型赋能产业的序幕。

融资火热

中国大模型企业正备受资本青睐，大模型创业风潮涌动。

值得一提的是，“百模大战”也是一场“烧钱”的竞赛，充沛的算力、海量的训练参数、坚实的硬件，还有顶尖的AI人才，无一不是“经费在燃烧”。

以重量级模型GPT-4为例，其拥有1.8万亿巨量参数，13万亿token（自然语言处理中的“词单元”）的训练数据。以H100物理机每小时1美元计算，一次的训练成本就高达6300万美元（约人民币4.51亿元）。

芦义指出，OpenAI发布大模型GPT-4之前已经耗资上百亿美元，不过随着大模型开源和技术的不断发展，进入此领域的资金门槛会越来越低。目前训练出一个可以投入运行的大模型，投入资金大约在千万美元，就是简单一些的模型也在几百万美元左右。

与此相对应的是，关于大模型的投融资愈发火热，投融界仿佛兴起了一股“围猎”大模型的风潮，AI大模型公司的融资消息不绝于耳。

2023年初，微软第三次“加仓”OpenAI。此次投资后，微软累计在OpenAI上投资100多亿美元。4月，OpenAI又完成超百亿美元融资，估值达到270亿~290亿美元（约合人民币1900亿~2000亿元）。参与本轮融资的风投公司还包括老虎全球管理、红杉资本、加州Andreessen Horowitz、纽约Thrive和K2Global，Founders Fund等。

而OpenAI的“强敌”Anthropic也在5月宣布获得4.5亿美元C轮融资。此轮融资由Spark Capital领投，谷歌、Salesforce Ventures，Sound Ventures，Zoom Ventures等参投。

有趣的是，同样加入“大模型之战”的Google，不仅发布了5620亿参数的“史上最大AI多模态模型”PaLM-E，而且还四处“押宝”其他AI大模型初创公司。公开资料显示，Google累计向Anthropic投资了3亿至4亿美元，同时还投资了AI视频生成独角兽Runway，以及Redpanda Data，Typeface，Infisical，Warp，Speakeasy等涉及AI、数据、安全、IT等领域的企业。

即便是连大模型产品都还没有落地的加拿大AI初创公司Cohere，也在6月宣布完成2.7亿美元的C轮融资，估值达到21亿美元。本轮融资由加拿大全栈风险投资机构Inovia Capital领投，互联网软件巨头Salesforce、人工智能计算公司英伟达、硅谷公司Index Ventures等多家全球机构和战略投资者参投。

值得一提的是，Cohere此前已经吸引了多家知名机构的投资，投资者涵盖老虎环球基金、英伟达、“AI教父”Geoffrey Hinton、斯坦福大学教授李飞飞、加州大学伯克利分校教授Pieter Abbeel等。

在国内，AI大模型也正在成为中国硬科技投资的一个新风向，尤其是在AI初创企业当中，更是资本涌动。

据了解，美团联合创始人王慧文收购了AI创业公司光年；创新工厂董事长李开复创办零一万物，建立Project AI 2.0大语言模型；前搜狗CEO王小川创立AI公司百川智能；京东AI前掌门人周伯文建立AI公司衔远科技……大量互联网大佬下场“大模型”试水。

在刚过去的6月里，AI初创大模型公司月之暗面完成首轮市场融资，获红杉、真格等一线 VC 的押注，市场估值被曝约3亿美元；AI初创企业生数科技宣布完成近亿元人民币的天使轮融资，该笔融资由蚂蚁集团领投，百度发起的 BV 百度风投、卓源资本跟投，目前估值达1亿美元；AI 蛋白设计公司“域新说生物”已完成近千万元天使轮融资，投资方为九合创投。

除此之外，语言大模型企业澜舟科技在年初完成数亿元融资；通用大模型初创企业MiniMax完成新一轮融资，总规模超2.5亿美元，项目估值超过10亿美元，跻身AIGC独角兽行列；深言科技（DeepLang AI）近期获得腾讯的10亿元级别融资，其此前投资方还包括红杉资本、巨人联创、达晨创投、金山软件等知名机构。

总而言之，中国大模型企业正备受资本青睐，大模型创业风潮涌动。

仰望AI

中国大模型的发展整体依旧处于图文训练阶段，而将大模型产品融进千行百业，还将需要各大互联网科技公司进一步地实战打磨。

AI确实能够做到很多人类力有不逮的事情，比如背诵或者快速计算，但当前存在的问题也很突出，尤其是在听、说、读、写各个方面，即使最基础的文本回答，也常常有大模型给出胡编乱造的答案来。因此，大模型的发展依旧任重而道远。

在芦义看来，训练参数在70亿左右的大模型属于中等规模，可以在很多设备上“跑起来”。并且通过一些算法调整，在简单的使用场景下，这些大模型都可以做到快速问答。但是要真正投入市场，落地商业场景的大模型，其训练参数应达到650亿以上，而且大模型得到的数据训练越多，给出的答案越精准。

“在OpenAI的ChatGTP-3.5的版本上，已经能够看到希望。”芦义表示，一方面，在此之前，ChatGTP版本都是自动生成文本答案，与人类交流对话大相径庭，而现在ChatGTP-3.5已经能表现出很大的智能；另一方面，如果无法给出答案，大模型会通过互联网“外挂”搜寻和学习知识盲点，倘若依旧无法解决，大模型也会承认不知道而非“生成式胡编”。

有人将ChatGTP-3.5的更新看做是“奇点来临之前的一个小突破”，期待着在这个奇点上能“大力出奇迹”，促成新的技术、新的变革。而在商业落地方面，当语言模型刚刚诞生的时候，大模型的商业模式就已经悄然延伸。

芦义指出，首先，大模型在通过数据“喂养”和训练之后，需要有语言模型的配合才能够进行生成和表达。因此语言模型是大模型产品的基础，此前掀起风潮的ChatGPT就是语言大模型。国内互联网科技巨头能够通过大模型在内容创作、内容检索方面迅速革新。

其次，在能够表达文字的语言模型面世之后，图片也随之被训练。实际上，有了语言模型的基础，图片模型更加容易搭建，既可以用语言模型结合图片模型进行创作，也可以将不算尖端的语言模型直接拿来训练图片，变成图片模型，毕竟图片模型甚至不需要像语言模型一样具有完备的语言逻辑表述。

再次，在图文模型之后，多模态大模型成为下一步的方向。在视觉上，要让大模型“不光能看懂文字，也能看懂图片”；在听觉上，要让大模型“不光能看还能听”，接下来混入听、说、看、读、写各种感知都会陆续延展开来，这时候的大模型将会带来AI与现实世界的结合。

不过，目前来说，大模型的发展整体依旧处于图文训练阶段，而将大模型融进千行百业，还将需要各大互联网科技公司进一步地实战打磨。

“机械之心”

如今，人工智能正在构建人工智能。或许真的有一天，人类可以认同大模型也有一颗“机械之心”，能像人类一样进行正常的沟通交流甚至是生活。

很多人都知道，ChatGTP并不完美，但是它能明明白白地展示：人工智能发展方向正在从辨别式走向生成式。周鸿祎认为，GPT的出现代表着超级人工智能时代的到来。原来的人工智能只是“弱人工智能”，带来的影响也有限，而如今的大模型属于通用人工智能，在很多维度上已经超越了人类。GPT最大的意义是，人类第一次把所有的知识进行了重新编码和存储，现在GPT-4已经是世界上最聪明的“人”，这是一个巨大的拐点。

无论是生活还是商业，大模型仿佛都勾勒出一个美好的朦胧未来。作为湛庐文化/浙江科学技术出版社出版的《超越想象的GPT医疗》一书的译者，芦义已经在使用大模型进行工作了。在他看来，翻译不可能完全交给机器，要靠人来“咀嚼”文字，把关情绪。不过，大模型确实对于翻译工作的效率有了十倍甚至是几十倍的提升。作为助手，大模型可以准确地帮助译者归纳、汇总、摘要，也可以执行简单的推理翻译任务。

可以想象，未来大模型可以帮助人类做翻译、驾驶、清洁等工作，也可以如《超越想象的GPT医疗》一书中所述：成为医生忠诚的助手。

大算力、大模型、大数据让“智能涌现”（神经网络训练完成后，出现出乎意料的新行为功能，而这些行为可能与初始训练目标无关）。李彦宏指出，过去的人工智能是，如果想让机器学会什么技能，就教它什么技能。教过的有可能会，没教过的就肯定不会。在大模型出现“智能涌现”之后，以前没教过的技能，它也会了。

在大模型训练初期，还需要科研人员帮忙“喂饭”，但是如果大模型产品成熟之后，它就能够做到自我学习。

芦义也指出，语言模型重要的特点是它有通用推理能力，就像人有思考能力一样。大模型当然不会主动去做推理和思考，还需要人类来引导。随着语言模型的迭代提升，或许大模型的下一个版本就不再需要人类引导，而是学会了“自我思考”。

就像是人类学会了使用工具一样，大模型也会使用“外挂”。芦义认为，当它的算法不足以推断准确的信息时，它会去学习更新的数据，用数学内容解决数学问题，用电气知识解决电气问题，用历史信息回答历史问题。

“例如，人工智能系统AlphaDev，它使用强化学习来发现增强的计算机算法，把人类无法再提高的算法效率又提高了70%。这意味着人工智能生成的算法已经超越了人类，人工智能正在构建人工智能。未来将是AI自己改良AI，在某些方面人类不用参与也无法再参与。”芦义表示。

这其实是一个令人惊喜又恐惧的发现，但是或许真的有一天，人类可以认同大模型也有一颗“机械之心”，像人一样沟通交流甚至是生活。

来源 | 《商学院》杂志2023年8月刊