“百模大战”,掀动资本波澜

2024-01-18 08:48:44 金融百科 投稿:一盘搜百科
摘要国内互联网巨头的大模型正接连投入“实战”,在商业场景落地方面不断打磨,拉开大模型赋能产业的序幕。文|刘青青 石丹ID | BMR2004轰轰烈烈的全球大模型浪潮已经持续了大半年,从

国内互联网巨头的大模型正接连投入“实战”,在商业场景落地方面不断打磨,拉开大模型赋能产业的序幕。

文|刘青青 石丹

ID | BMR2004

轰轰烈烈的全球大模型浪潮已经持续了大半年,从赫赫有名的AI target=_blank class=infotextkey>OpenAI、google、Anthropic、Meta,到国内互联网科技巨头百度、阿里、腾讯、京东、华为、360……各种大模型产品层出不穷。

在这场“百模大战”里,国内大模型活力惊人,在创业、投资、融资、应用等领域如火如荼。但是我们也能清楚地看到,国内大模型与国际技术水平的差距。

在人工智能时代,大模型的出现仿佛人类社会走进第五次工业革命,有一些从未有过的东西蓬勃兴起,有一些习以为常的东西骤然消失,还有一些担忧挥之不去,但是科技和社会的进步依旧向前。

01

“百模大战”

国内大模型产品遍地开花,已经落地的大模型产品数量远远超过了北美、欧洲地区。

大模型浪潮还在加速奔涌。毫无疑问,美国在AI大模型领域表现强悍。2022年底,OpenAI发布的ChatGPT掀起全球大模型浪潮,此后2023年3月,OpenAI发布万亿级大模型GPT-4;Anthropic发布Claude 2;Google发布当前最大的视觉语言模型PalM-E;Meta推出AI语言模型 LLaMA和视觉模型SAM。

除此之外,韩国科技巨头 Kakao 旗下人工智能部门Kakao Brain宣布推出AI图像生成器 Karlo 2.0;韩国搜索巨头NAVER发布语言大模型HyperCLOVA;LG集团人工智能智库LG AI Research 推出拥有3000亿参数的Exaone多模态模型;德国初创公司Aleph Alpha发布了一款拥有700亿参数的预训练模型Luminous;欧洲AI初创公司 Hugging Face创建BLOOM大模型……

在国内,大模型产品更是接连落地,各大互联网科技巨头纷纷入局。2023年3月,基于文心大模型,百度发布“文心一言”,成为中国第一个类ChatGPT产品。此后华为发布“盘古”大模型、京东发布“言犀产业”大模型、阿里发布“通义千问”大模型、科大讯飞发布“星火认知”大模型、360公司发布通用大模型“360智脑”。除此之外,腾讯也传出发布大模型产品“混元助手(HunyuanAide)”的消息。

同时,商汤宣布推出大模型“商汤日日新”、昆仑万维和奇点智源合作发布“天工3.5”、知乎联合面壁智能发布中文大模型“知海图AI”、网易发布“玉言”大模型、达观数据推出“曹植”系统、澜舟科技发布孟子对话大模型“MChat”……

“百模大战”硝烟四起,大模型之争如火如荼。

值得一提的是,在大厂之外,国内还有另外一股“大模型势力”。

引力创投合伙人、微博前副总经理、《超越想象的GPT医疗》译者芦义指出,在国内大模型浪潮当中,高校的研究走在了互联网科技巨头的前面。例如清华大学的ChatGLM-6B、复旦大学的MOSS大模型、香港大学的SGPT大模型等。这些高校的研究更早于互联网科技巨头,也积累了更多的经验和技术。

芦义直言,国内大模型产品遍地开花,已经落地的大模型产品数量远远超过了北美、欧洲地区。但国内的大模型公司多是互联网科技巨头,它们在原本的商业基础上进军AIGC领域,而国外大模型公司则大多属于研究机构和AI初创公司,因此形成了不同的风格特点。

“例如,国外大模型多在实验室中打磨,常常作为技术研究成果来展现。而中国互联网科技巨头依托产业发展,大模型产品在商业当中得到了很大的应用。”芦义表示。

02

产业为王

目前大模型处于“百花争艳”的状态,站在这个时间点,企业应该思考的不是技术追赶,而是产业突破。

国产大模型大多已经接入各种类型的商业应用。

对内,各大互联网科技巨头开始将大模型投入自身业务。例如阿里的“通义千问”大模型将首先部署于阿里的数码协同办公和应用开发平台“钉钉”,以及物联网智能家居终端机“天猫精灵”上,后续它还将接入阿里生态的所有商业应用。百度CEO李彦宏更是直言,百度首先要把全部产品用大模型重做一遍,“不是整合,不是接入,而是重做、重构。”

对外,一些大模型产品也被迅速投入到商业场景中进行落地。在国内,已经有15万家企业申请接入百度“文心一言”,其中有超过300家生态合作伙伴,一起探索了超400个具体的落地场景。

5月中旬,360公司创始人周鸿祎提出:每个城市、每个政府部门都会有自己的专有大模型,大模型和政府的业务系统融合,还会变成政府各个业务板块的“副驾驶”,甚至成为智慧政府、智慧城市的总调度室,形成城市级GPT。

7月初,华为云发布“盘古大模型3.0”,提出深耕行业。据了解,此前华为云已陆续推出了矿山、药物分子、电力、气象、海浪、铁路等大模型,7月初又发布政务、金融、制造大模型,持续为业界贡献先进的算法和解决方案。

7月中旬,京东推出“言犀”大模型,提出以完整工具链助推产业价值创造。京东的言犀AI开发计算平台,能够为客户的大模型开发和行业应用开发提供定制化解决方案。它既具备行业知识库,沉淀了京东自身在零售、物流、健康、金融等多个行业的Know-How,又具备了100多种训练和推理优化工具,能将通用模型迅速转化为专业模型。

弗若斯特沙利文(Frost & Sullivan)发布的《AI 大模型市场研究报告(2023)——迈向通用人工智能,大模型拉开新时代序幕》指出,大模型“基础设施—底层技术—基础通用—垂直应用”发展路线逐渐清晰,国内各厂商加速战略布局,加大资金和技术投入,迎头赶上全球大模型产业化浪潮,本土化大模型迎来发展新机遇。

京东集团副总裁、京东科技智能服务与产品部负责人何晓冬博士表示,目前大模型处于“百花争艳”的状态,站在这个时间点,企业应该思考的不是技术追赶,而是产业突破。技术上各家都是基于Transformer做大规模预训练,并不断地进行调优。

可以看到,国内互联网巨头的大模型正接连投入“实战”,在商业场景落地方面不断打磨,拉开大模型赋能产业的序幕。

03

融资火热

中国大模型企业正备受资本青睐,大模型创业风潮涌动。

值得一提的是,“百模大战”也是一场“烧钱”的竞赛,充沛的算力、海量的训练参数、坚实的硬件,还有顶尖的AI人才,无一不是“经费在燃烧”。

以重量级模型GPT-4为例,其拥有1.8万亿巨量参数,13万亿token(自然语言处理中的“词单元”)的训练数据。以H100物理机每小时1美元计算,一次的训练成本就高达6300万美元(约人民币4.51亿元)。

芦义指出,OpenAI发布大模型GPT-4之前已经耗资上百亿美元,不过随着大模型开源和技术的不断发展,进入此领域的资金门槛会越来越低。目前训练出一个可以投入运行的大模型,投入资金大约在千万美元,就是简单一些的模型也在几百万美元左右。

与此相对应的是,关于大模型的投融资愈发火热,投融界仿佛兴起了一股“围猎”大模型的风潮,AI大模型公司的融资消息不绝于耳。

2023年初,微软第三次“加仓”OpenAI。此次投资后,微软累计在OpenAI上投资100多亿美元。4月,OpenAI又完成超百亿美元融资,估值达到270亿~290亿美元(约合人民币1900亿~2000亿元)。参与本轮融资的风投公司还包括老虎全球管理、红杉资本、加州Andreessen Horowitz、纽约Thrive和K2Global,Founders Fund等。

而OpenAI的“强敌”Anthropic也在5月宣布获得4.5亿美元C轮融资。此轮融资由Spark Capital领投,谷歌、Salesforce Ventures,Sound Ventures,Zoom Ventures等参投。

有趣的是,同样加入“大模型之战”的Google,不仅发布了5620亿参数的“史上最大AI多模态模型”PaLM-E,而且还四处“押宝”其他AI大模型初创公司。公开资料显示,Google累计向Anthropic投资了3亿至4亿美元,同时还投资了AI视频生成独角兽Runway,以及Redpanda Data,Typeface,Infisical,Warp,Speakeasy等涉及AI、数据、安全、IT等领域的企业。

即便是连大模型产品都还没有落地的加拿大AI初创公司Cohere,也在6月宣布完成2.7亿美元的C轮融资,估值达到21亿美元。本轮融资由加拿大全栈风险投资机构Inovia Capital领投,互联网软件巨头Salesforce、人工智能计算公司英伟达、硅谷公司Index Ventures等多家全球机构和战略投资者参投。

值得一提的是,Cohere此前已经吸引了多家知名机构的投资,投资者涵盖老虎环球基金、英伟达、“AI教父”Geoffrey Hinton、斯坦福大学教授李飞飞、加州大学伯克利分校教授Pieter Abbeel等。

在国内,AI大模型也正在成为中国硬科技投资的一个新风向,尤其是在AI初创企业当中,更是资本涌动。

据了解,美团联合创始人王慧文收购了AI创业公司光年;创新工厂董事长李开复创办零一万物,建立Project AI 2.0大语言模型;前搜狗CEO王小川创立AI公司百川智能;京东AI前掌门人周伯文建立AI公司衔远科技……大量互联网大佬下场“大模型”试水。

在刚过去的6月里,AI初创大模型公司月之暗面完成首轮市场融资,获红杉、真格等一线 VC 的押注,市场估值被曝约3亿美元;AI初创企业生数科技宣布完成近亿元人民币的天使轮融资,该笔融资由蚂蚁集团领投,百度发起的 BV 百度风投、卓源资本跟投,目前估值达1亿美元;AI 蛋白设计公司“域新说生物”已完成近千万元天使轮融资,投资方为九合创投。

除此之外,语言大模型企业澜舟科技在年初完成数亿元融资;通用大模型初创企业MiniMax完成新一轮融资,总规模超2.5亿美元,项目估值超过10亿美元,跻身AIGC独角兽行列;深言科技(DeepLang AI)近期获得腾讯的10亿元级别融资,其此前投资方还包括红杉资本、巨人联创、达晨创投、金山软件等知名机构。

总而言之,中国大模型企业正备受资本青睐,大模型创业风潮涌动。

04

仰望AI

中国大模型的发展整体依旧处于图文训练阶段,而将大模型产品融进千行百业,还将需要各大互联网科技公司进一步地实战打磨。

AI确实能够做到很多人类力有不逮的事情,比如背诵或者快速计算,但当前存在的问题也很突出,尤其是在听、说、读、写各个方面,即使最基础的文本回答,也常常有大模型给出胡编乱造的答案来。因此,大模型的发展依旧任重而道远。

在芦义看来,训练参数在70亿左右的大模型属于中等规模,可以在很多设备上“跑起来”。并且通过一些算法调整,在简单的使用场景下,这些大模型都可以做到快速问答。但是要真正投入市场,落地商业场景的大模型,其训练参数应达到650亿以上,而且大模型得到的数据训练越多,给出的答案越精准。

“在OpenAI的ChatGTP-3.5的版本上,已经能够看到希望。”芦义表示,一方面,在此之前,ChatGTP版本都是自动生成文本答案,与人类交流对话大相径庭,而现在ChatGTP-3.5已经能表现出很大的智能;另一方面,如果无法给出答案,大模型会通过互联网“外挂”搜寻和学习知识盲点,倘若依旧无法解决,大模型也会承认不知道而非“生成式胡编”。

有人将ChatGTP-3.5的更新看做是“奇点来临之前的一个小突破”,期待着在这个奇点上能“大力出奇迹”,促成新的技术、新的变革。而在商业落地方面,当语言模型刚刚诞生的时候,大模型的商业模式就已经悄然延伸。

芦义指出,首先,大模型在通过数据“喂养”和训练之后,需要有语言模型的配合才能够进行生成和表达。因此语言模型是大模型产品的基础,此前掀起风潮的ChatGPT就是语言大模型。国内互联网科技巨头能够通过大模型在内容创作、内容检索方面迅速革新。

其次,在能够表达文字的语言模型面世之后,图片也随之被训练。实际上,有了语言模型的基础,图片模型更加容易搭建,既可以用语言模型结合图片模型进行创作,也可以将不算尖端的语言模型直接拿来训练图片,变成图片模型,毕竟图片模型甚至不需要像语言模型一样具有完备的语言逻辑表述。

再次,在图文模型之后,多模态大模型成为下一步的方向。在视觉上,要让大模型“不光能看懂文字,也能看懂图片”;在听觉上,要让大模型“不光能看还能听”,接下来混入听、说、看、读、写各种感知都会陆续延展开来,这时候的大模型将会带来AI与现实世界的结合。

不过,目前来说,大模型的发展整体依旧处于图文训练阶段,而将大模型融进千行百业,还将需要各大互联网科技公司进一步地实战打磨。

05

“机械之心”

如今,人工智能正在构建人工智能。或许真的有一天,人类可以认同大模型也有一颗“机械之心”,能像人类一样进行正常的沟通交流甚至是生活。

很多人都知道,ChatGTP并不完美,但是它能明明白白地展示:人工智能发展方向正在从辨别式走向生成式。周鸿祎认为,GPT的出现代表着超级人工智能时代的到来。原来的人工智能只是“弱人工智能”,带来的影响也有限,而如今的大模型属于通用人工智能,在很多维度上已经超越了人类。GPT最大的意义是,人类第一次把所有的知识进行了重新编码和存储,现在GPT-4已经是世界上最聪明的“人”,这是一个巨大的拐点。

无论是生活还是商业,大模型仿佛都勾勒出一个美好的朦胧未来。作为湛庐文化/浙江科学技术出版社出版的《超越想象的GPT医疗》一书的译者,芦义已经在使用大模型进行工作了。在他看来,翻译不可能完全交给机器,要靠人来“咀嚼”文字,把关情绪。不过,大模型确实对于翻译工作的效率有了十倍甚至是几十倍的提升。作为助手,大模型可以准确地帮助译者归纳、汇总、摘要,也可以执行简单的推理翻译任务。

可以想象,未来大模型可以帮助人类做翻译、驾驶、清洁等工作,也可以如《超越想象的GPT医疗》一书中所述:成为医生忠诚的助手。

大算力、大模型、大数据让“智能涌现”(神经网络训练完成后,出现出乎意料的新行为功能,而这些行为可能与初始训练目标无关)。李彦宏指出,过去的人工智能是,如果想让机器学会什么技能,就教它什么技能。教过的有可能会,没教过的就肯定不会。在大模型出现“智能涌现”之后,以前没教过的技能,它也会了。

在大模型训练初期,还需要科研人员帮忙“喂饭”,但是如果大模型产品成熟之后,它就能够做到自我学习。

芦义也指出,语言模型重要的特点是它有通用推理能力,就像人有思考能力一样。大模型当然不会主动去做推理和思考,还需要人类来引导。随着语言模型的迭代提升,或许大模型的下一个版本就不再需要人类引导,而是学会了“自我思考”。

就像是人类学会了使用工具一样,大模型也会使用“外挂”。芦义认为,当它的算法不足以推断准确的信息时,它会去学习更新的数据,用数学内容解决数学问题,用电气知识解决电气问题,用历史信息回答历史问题。

“例如,人工智能系统AlphaDev,它使用强化学习来发现增强的计算机算法,把人类无法再提高的算法效率又提高了70%。这意味着人工智能生成的算法已经超越了人类,人工智能正在构建人工智能。未来将是AI自己改良AI,在某些方面人类不用参与也无法再参与。”芦义表示。

这其实是一个令人惊喜又恐惧的发现,但是或许真的有一天,人类可以认同大模型也有一颗“机械之心”,像人一样沟通交流甚至是生活。

来源 | 《商学院》杂志2023年8月刊

声明:一盘搜百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系 88888@qq.com