“星火”的赌局

来源:乐鱼体育官网靠谱    发布时间:2023-12-24 08:28:09 881

  人工智能是这样一个江湖:让机器拥有智慧是人们共同的目标,但路径却大相径庭。每隔十几年就会有颠覆性的新技术问世。符号主义、联结主义、行为主义各行其是,“剑宗”和“气宗”在历史上此消彼长,一着不慎走入岔道,就会粉身碎骨。但是粉身碎骨者却不能盖棺定论,随着科学的进境,白骨又会重新站起,走向台前,领一时风潮。

  因此,衡量一家AI公司的成色,不能光看财务报表上的研发支出,很关键的一条,是看它有没有穿越周期的能力。就像西行的玄奘和大航海的哥伦布一样,抵达只是尾声,始终盯对罗盘才是第一要义。

  10月24日,科大讯飞董事长刘庆峰在合肥发布新版“星火”认知大模型。国务院发展研究中心国研经济研究院的横评报告数据显示:新版大模型综合能力超越ChatGPT(GPT-3.5),甚至在部分行业优于GPT-4 ,处于国内领先、国际一流的地位。

  与GPT-4比较,“星火”仍有差距。但是毫无疑问,科大讯飞已经拿到大模型时代的“入场券”,并矗立潮头。刘庆峰认为:“星火”有信心在多个行业领域追上GPT-4。

  但仅仅在一年以前,Open AI发布ChatGPT之后的那一周,其实是科大讯飞面临考验的关键时刻。当真正重大的变化来临的时候,时间的度量都发生了变化,你能清楚地听到秒针转动的声音,“那真是最漫长的一周”。

  2022年的11月30日,Open AI的 ChatGPT横空出世。但很少有人意识到,通用AI这头被困的雄狮已经从牢笼中闯出来了。一种与典型大学毕业生一样具有“智力”的系统触手可及。它聊天、搜索、翻译,写故事、写代码甚至是debug,在上线万用户。

  科大讯飞园区内平行排布着五座大楼,“讯飞研究院”位于第四栋。这里门禁森严,企业内部人士也不能随意进出,回字形长廊连接办公区和会议室,论文、技术海报和研究路径被贴在回廊的墙上,画满树状图和公式的写字板挂满办公区域,低调而又神秘。

  90后刘权是整个研究院最先注意到ChatGPT的人之一。他2017年加入科大讯飞,当他第一次点开ChatGPT的蓝色简约图标时,多少还有点漫不经心。十分钟之后,他的表情开始严肃起来。

  紧跟着,他扔给ChatGPT两个“文本生成类”任务:写一封邮件;模仿鲁迅写一篇文章。ChatGPT“啪啪啪啪就完成了”,“(它)完成的质量非常高。”

  他接着又抛出两个开放问题:“菠菜和豆腐能放在一起吃吗?”“如果我生病跌倒了怎么办?”

  ChatGPT答完后,他已经完全被对面展示出的理解力所吸引。从2020年至2021年,刘权曾带团队获得NLP领域5个国际权威评测冠军。因此,在这个上午,他完全知道发生了什么——ChatGPT似乎突破了以往所有类似人机对话系统的瓶颈。

  讯飞认知智能领域的核心人物魏思很早就关注“Transformer 架构”这一NLP(自然语言理解)领域的重要架构。

  “Transfomer架构”是谷歌最重要的发明之一,它最初是山景城总部的研究人员在午餐时设计出来的。

  2017 年,随着《Attention is All You Need》的重磅论文发表,Transformer 不仅嵌入在谷歌搜索和谷歌翻译中,并且驱动着几乎所有大型语言模型——包括谷歌的“Bard对话应用语言模型”和Open AI的“GPT模型”。

  两者的训练方法截然不同。魏思和记者说:“简单来说,Open AI的训练思路是给出第一个字和第二个字,不停地让机器去猜第三个字;而谷歌的训练则是给出第一个字和第三个字,让机器去猜中间那个字是什么。”

  GPT模型一开始在业界是个少数派。从GPT-1到GPT-3,都没多少人关注;相反,业界受到拥趸的是谷歌推出的对话应用语言模型Bard。

  GPT靠堆数据和算力“大力出奇迹”,优势是后发的。2018 年,GPT-1推出时貌不惊人;2019 年,GPT-2 已拥有15 亿参数;2020 年, GPT-3已拥有惊人的 1750 亿参数,是世界上最大的自然语言生成模型。

  2020年GPT-3问世之后,安徽省相关领导曾经调研科大讯飞,讨论要不要跟进大模型,也考虑过由安徽省牵头搭建大算力平台的构想。

  魏思至少参加过两次调研会。但是分析和验证过之后,结论是GPT-3效果并不好,因此做大模型的“时机尚不成熟”。“光是构建千亿参数大模型的算力投入就要十几个亿。投入这么大,但大规模预训练的效果能到什么程度呢?只能有个基本效果,解决不了实际问题。”

  从本质上来说,GPT还没有“进化”出来,至少在细致划分领域上并不突出。魏思将其表述为“当时的算法并不能证明它足够能做成。”

  因此,“算力”的背后是个“时机”的问题。科大讯飞2023年和华为打造大模型算力平台“飞星一号”,是当机立断的,而且从第一天就做好了“国产算力自主可控”的长期主义准备。

  刘庆峰后来复盘,当时不做、后面再做是科学的,“我们当时做,会浪费很多钱。但时机不到,效果不会太好。”

  但另一方面,在算力之外,科大讯飞在认知智能领域对算法和人才的储备已历时近十年,一刻都没有放松过。

  2014年,科大讯飞就推出“超脑计划”,并衍生出“超脑2030计划”。在“超脑计划”框架下,人工智能被寄希望于“懂各行各业知识,有通识和情感”。

  从2017年开始,“超脑”先是在全球首次通过了国家执业医师资格考试,超过了96.3%参加考试的医生;两年后又在斯坦福大学发起的SQuAD机器英文阅读理解比赛中首次超过人类中等水准;在去年艾伦研究院组织的OpenBookQA科学常识推理比赛中,又首次超过人类平均水平。

  “我们一直在做跟谷歌Bard很像的事。过去几年,讯飞研究院一直在搞无监督学习,只能说部分成功了,已经用到我们的产品里,有些还没成功,现在还在做。”魏思说。

  没有这些技术储备,一个企业想在短时期内复刻ChatGPT的“智慧涌现”,根本就是天方夜谭。

  但是,回到Open AI推出ChatGPT的那个时刻,一切又都是模糊不清的。科大讯飞面临的选择,首先是要不要做大模型?其次是,到底是谷歌,还是Open AI?如果要做,讯飞有只有少数的资源支撑?

  刘聪和魏思是同门师兄弟,两人都来自大名鼎鼎的中科大语音及语言信息处理国家工程实验室(下称“中科大语音实验室”)。刘庆峰也出自这间实验室。

  刘聪后来担任讯飞研究院院长;魏思是讯飞研究院首席科学家。魏思是2017年的《麻省理工科技评论》评出的“35岁以下创新35人”;刘聪是2018年的“35岁以下创新35人”。魏思对科学有独特的鉴赏力,刘聪则喜欢给他加个框,“你做出来我才说你牛”。

  两个人性格迥异。魏思是那种典型的科学家个性,桀骜不驯。当年实验室每周都开组会,博士师兄们在上面讲,本科生不敢插嘴。但是魏思不管,他操一口肥东口音的普通话,从后排站起来直接开喷,场面火爆。师兄称他“一看就不是一个善茬”。

  另一方面,魏思擅长长时间的深入思考。他办公室的书柜里摆着各种书籍,从历史到心理学,阅读口味十分宽泛。大二那年,他每天都蹲在图书馆看文学杂志,“把那一年全中国文学杂志的每一篇小说都看完了”。

  相对于魏思的“超脱”,刘聪相对“务实”。他在科大读书时不爱上课,也不爱上自习,但是很会考试,他的作业一直是供全班同学Copy的“四个版本”之一。他爱交朋友,是个更注重平衡的科学家,一讲起话来滔滔不绝,雄辩无碍。

  在ChatGPT发布后不久,刘聪就给刘权紧急电话沟通测试事宜。他在群里看到的各种信息都提示他:“ChatGPT的表现已经超出想象”。而在整个研究院层面,ChatGPT的出现已经使其进入战时状态。“这样一个时间段的当务之急,就是赶紧下场去试,早点把结果拿到自己手中。”

  十二年前,“深度学习”突然横空出世,其颠覆性一点也不亚于大模型,讯飞也面临着类似的选择。

  2010年9月21日,受中科大信息科学技术学院院长李卫平邀请,日后鼎鼎大名的学者邓力重回合肥,他和俞栋一起在科大西区电三楼西侧的一间会议室内作了一个关于“深度学习”的学术报告。

  但邓力和Hinton的新方法并不被业界和学界接受。当年的“深度神经网络”在所有AI算法里面是偏门中的偏门,被认为是歪门邪道,甚至是骗子。

  就连邓力在微软的老板——曾任卡内基梅隆大学计算机系系主任的Peter Lee都不支持他,认为Hinton的神经网络“非常荒谬”。

  一直到2012年,邓力在向微软研究院资深研究者及公司高管讲述深度学习进展时,依然被一位学者打断:“神经网络从未取得成功。”

  这名学者甚至走到了台前,把邓力笔记本电脑的投影连接线拔掉接到自己电脑上。屏幕上出现1969年出版的《感知机》一书封面,正是这本书对神经网络的批判导致了神经网络“失落的二十年”,这是任何一位神经网络研究者都不愿触及的“伤疤”。

  因此,邓力的来访,并不是学术明星式的“布道”,整个科大也没什么人工智能新技术浪潮来临的气氛。当年,为了尽最大可能避免人们对新方法的误解,邓力甚至不用DNN((Deep Neural Networks深度神经网络),而使用DBN(Deep Belief Networks深度信任网络),DNN是之后的事情。

  参加过那次讲座的人们回忆,由于范围比较窄,来听的人不多。“现场只有稀稀落落的二三十个人,但真正能听懂的人不多。”

  然而,出身中科大语音实验室的一群年轻人参与了那场学术报告。他们都拥有另一个身份——供职于科大讯飞研究院。

  十三年后,邓力回忆那次讲座,他对那群年轻人印象非常深刻:“他们提出了很多尖锐的问题。Hinton关于深度学习最早的那两篇文章他们一定看过,我也看过,但有些数学我没有特别懂,这也是我邀请Hinton到微软来的原因。但是那些年轻人所问跟我之前所思是一样的,说明他们对文献的理解已达到我的水平,所受训练也很有深度。这让我有非常强的愿望跟他们继续交流。”

  邓力走后,当年讯飞研究院的院长胡郁决定,先“try”一下“深度神经网络”再说。

  这一try是决定性的。在眼前一片迷雾的时候,当务之急不是观望或者争论,而是先走上几步。

  刘聪后来说:深度神经网络这种东西没什么理论,就是个工程。你要想用数学推出理论先进性来,不太可能。“你就实践,做出来最优它就是最优。”

  刘聪后来找来师兄潘嘉,一个搭建系统,一个搞算法,整个团队跳过相对简单的数字字母识别等任务,开始尝试深度学习的方法训练真实场景下的大词汇量连续语音识别任务。

  讯飞一开始并不是把所有框架全换掉,而是先把深度学习放在特征处理环节试一试。这一试不得了。“相当于只替换掉一部分,但性能立即就有所改善。”

  邓力和俞栋是在科大西区的讲座结束后,才前往微软亚洲研究院的。这也代表着,科大讯飞是除微软总部之外,首先仔细地了解这一研究并着手跟进深度学习研究的团队之一。

  2011年,科大讯飞上线中文语音识别深度学习系统,这是第一个中文DNN语音识别系统,领先百度一个身位。

  在移动互联网时代,两年时间足够一家初创公司颠覆巨头。新算法的快速落地后来应用在“讯飞输入法”这个有大量潜在用户、场景丰富且能够迅速迭代的商业化系统中。

  邓力后来说:在深度学习刚刚被提出时,全世界只有两家公司真的相信了。“其中一家是谷歌,另一家就是科大讯飞。”

  谷歌后来花费了4400万美元收购了多伦多大学的一家初创公司 DNNResearch。此公司在当时不仅没有一点产品,也压根没有生产产品的计划。它只有三位员工Geoffrey Hinton与他的学生Alex Krizhevsky、llya Sutskever。顺便说一句,llya Sutskever后来离开谷歌,成为Open AI的联合创始人和首席科学家,并参与主导了ChatGPT的研发。

  刘权是魏思和刘聪的师弟,他2012年进入中科大语音实验室,正是“深度学习”风起云涌之时。当年,实验室十五个人,十四个人都搞语音,只有他一人自告奋勇要用深度学习的方法去搞NLP(自然语言理解)。

  转博时,实验室老师劝他搞语音,被刘权直接拒绝了:“我说我就不做语音,我要彻底的‘NLP’。”

  刘权后来加入魏思负责的“超脑计划”,是超脑组“一号组员”,专攻常识推理,后来他在2016年Winograd Schema国际认知智能挑战赛上拿下第一名。他的系统是唯一用深度学习做出来的系统,当年其他系统都仍然使用传统符号逻辑推理方法。

  尽管夺冠,但第一名的正确率也只有58%。这是个什么概念呢?“这个测试是二选一,也就是说,小孩随机猜都能拿50分。”

  也就是说:算法还抵不过瞎猜。这个结论令人沮丧。在那个年代,机器的推理能力尚不及儿童水平,通用人工智能仍是遥不可及的事。

  刘权后来离开“常识知识推理”领域,从2017年到2022年底,他在讯飞一直从事“人机交互”,仍与NLP相关,但那是一个更贴近企业实际应用的东西,“为稻粱谋”,刘权也与通用人工智能渐行渐远。

  因此当2022年11月30日,刘权开始测试ChatGPT时,就像回到久别重逢的故乡,看到了熟悉的人,但已是今时不同往日。

  之后的那一周,刘权把科大讯飞研究院好几个方向的骨干都拉进一个群里,都是他认为最靠谱的人。实际上,研究院整建制的团队都在支持他。他和他的小伙伴们开始轮番上阵测试ChatGPT。

  当GPT的训练方法通过对海量数据的高质量清洗和对上亿参数大模型的训练之后,突然迸发出惊人的力量。

  “当它把全世界的书、全世界的网页、全世界的语料都读了一遍之后,神奇的事情出现了。大模型大概率就懂得了语义——它可能读懂了语言在隐含空间中的意思。”

  一周之内,刘权写下整整一百页PPT。在这个PPT最后,刘权建议“借鉴ChatGPT思路,在重要认知智能任务中开始研究,并研制一个中等大规模预训练模型”。(注:后来这一建议在立项时被扩展到“1+N”,即一个“可对标ChatGPT的大模型”加N个“行业大模型”)

  2022年12月7日,科大讯飞A4楼五楼北侧,讯飞研究院院长胡国平那间不到二十个平方米的办公室挤满了人,研究院最生猛的年轻人们都在。大家围住一台电脑,电脑连着一个投影,投影上是刘权熬夜写成的《Open AI ChatGPT 调研分析报告》。

  ChatGPT最大的反对派是魏思,他认为ChatGPT是“一本正经地胡说八道”,这源自于他对GPT-1到GPT-3的观察。“我说你别听他吹牛。Open AI特别喜欢PR(公关),GPT-1到GPT-3都吹得跟啥一样,其实效果并不好。”

  支持派的代表人物则是刘聪。刘聪是结果导向,他在举了很多例子后说:“这一次有可能是颠覆性的。”

  刘权没有评价两位师兄的发言。他调试好了他的一百页PPT,开始一页一页的分析。

  会议结束后的中午,魏思没去吃饭,他找刘权要了一个账号,开始亲手测试ChatGPT。魏思用的是教育和医疗任务去测ChatGPT,ChatGPT是大模型,不可能针对这些“小任务”做过训练。但结果出乎魏思的意料,ChatGPT的表现与讯飞专门针对这些任务训练过的“小模型”相比,差距并不大。“这就相当厉害了。”

  魏思当天晚上就给刘庆峰写邮件。他不容置疑地说:我们必须上(大模型),不上肯定落后。

  刘庆峰立刻要了一个账号体验,体验完之后,刘庆峰把ChatGPT定义为“通用人工智能的曙光”。他判断,大模型将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的机会。“新一轮的浪潮要来了”。

  “很多系统是在各个专用领域做到了超过我们人类的水平,尤其是在各大感知领域,但今天在通用人工智能的曙光下,星星之火开始出现。”刘庆峰说。

  二是,大模型要做“1+N”,“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。

  三是,建立一套实实在在、脚踏实地、科学的、系统的评测体系。要用评测体系给出判断,技术到底到了什么程度了、下一个发展应该往哪边走。

  整个研究院都为之沸腾。科大讯飞的大模型被命名为“星火”。刘庆峰对这个词感触很深。这和讯飞创业初期的“要么率先燎原,要么率先熄灭”的意象异曲同工。“星星之火,可以燎原”出自《选集》,在关键时点,点出了中国革命重大转折来临的历史逻辑。

  2023年5月6日,合肥奥体中心的主场馆内,刘庆峰董事长带着星火大模型跑步入场。

  在此后的两个小时内,刘庆峰和刘聪在台上一起操控“星火”完成各式任务。那大概是科大讯飞历史上气氛最热烈的发布会了,能容纳1500人的会展中心主场馆座无虚席,就连过道上也挤满了人,他们在一阵阵惊呼声中站着听完2个多小时的发布会,而线万,几乎每隔几分钟,现场就爆发出热烈掌声。

  发布会后的下一个交易日,科大讯飞股票涨停,一周内沪深两市成交量排名第一。

  魏思后来复盘时说:尽管GPT-3出来的时候没有引起足够重视,但那不是决定性的。

  「研究就是这样,每个人都有自己认同的方向,有的人坚信,他就赌对了,所以他就成了。我们做的方向可能不一样,但是没关系。原创研究的不确定性是很大的,你可能做十个能成一个就不错了,你不能赌这个东西。科大讯飞是家企业,对企业来说重要的并不仅仅是你赌对方向的能力,而是你迅速判断哪个方向有用,并快速把它落地的能力。」

  2023年,邓力在回顾过去十年人工智能的历史时说:大模型正是人工智能的Goldrush(淘金热),而上一个Goldrush就是十年前(深度学习)。

  4月28日召开的中央政治局会议指出,要重视通用人工智能发展,营造创新生态,重视防范风险。

  5月5日召开的二十届中央财经委员会第一次会议则强调,要把握人工智能等新科技革命浪潮,适应人与自然和谐共生的要求。

  在10月25日,科大讯飞发布星火大模型3.0之后一天。安徽省发布《通用人工智能创新发展三年行动计划》,提出抢占通用人工智能发展制高点,加速构建产业创新发展生态体系。

  人工智能的一个新的时代可能就要来了。刘庆峰说:“通用人工智能将是一个伟大的历史进程,所以核心技术的进步也将是一步一个脚印、踏踏实实持续进化的过程;同时,就像过去十年一样,我们依然不能放松对源头技术的关注。”

  那些决定胜负的关键核心技术突破往往不是大力出奇迹,也不是集中一万个工程师办大事,而是由若干个充满个性、野心勃勃的人在一个适宜创新的环境中碰撞出来的。在ChatGPT的赌局之后,魏思表示要请2022年12月7日见证过那个赌局的人们“撮”一顿。但在那之后,“星火”令所有人都抽不出时间了。

  人工智能是这样一个江湖:让机器拥有智慧是人们共同的目标,但路径却大相径庭。每隔十几年就会有颠覆性的新技术问世。符号主义、联结主义、行为主义各行其是,“剑宗”和“气宗”在历史上此消彼长,一着不慎走入岔道,就会粉身碎骨。但是粉身碎骨者却不能盖棺定论,随着科学的进境,白骨又会重新站起,走向台前,领一时风潮。

  因此,衡量一家AI公司的成色,不能光看财务报表上的研发支出,很关键的一条,是看它有没有穿越周期的能力。就像西行的玄奘和大航海的哥伦布一样,抵达只是尾声,始终盯对罗盘才是第一要义。

  10月24日,科大讯飞董事长刘庆峰在合肥发布新版“星火”认知大模型。国务院发展研究中心国研经济研究院的横评报告显示:新版大模型综合能力超越ChatGPT(GPT-3.5),甚至在部分行业优于GPT-4 ,处于国内领先、国际一流的地位。

  与GPT-4比较,“星火”仍有差距。但是毫无疑问,科大讯飞已经拿到大模型时代的“入场券”,并矗立潮头。刘庆峰认为:“星火”有信心在多个行业领域追上GPT-4。

  但仅仅在一年以前,Open AI发布ChatGPT之后的那一周,其实是科大讯飞面临考验的关键时刻。当真正重大的变化来临的时候,时间的度量都发生了变化,你可以清晰地听到秒针转动的声音,“那真是最漫长的一周”。

  2022年的11月30日,Open AI的 ChatGPT横空出世。但很少有人意识到,通用人工智能这头被困的雄狮已经从牢笼中闯出来了。一种与典型大学毕业生一样具有“智力”的系统触手可及。它聊天、搜索、翻译,写故事、写代码甚至是debug,在上线万用户。

  科大讯飞园区内平行排布着五座大楼,“讯飞研究院”位于第四栋。这里门禁森严,公司内部人士也不能随意进出,回字形长廊连接办公区和会议室,论文、技术海报和研究路径被贴在回廊的墙上,画满树状图和公式的写字板挂满办公区域,低调而又神秘。

  90后刘权是整个研究院最先注意到ChatGPT的人之一。他2017年加入科大讯飞,当他第一次点开ChatGPT的蓝色简约图标时,多少还有点漫不经心。十分钟之后,他的表情开始严肃起来。

  紧跟着,他扔给ChatGPT两个“文本生成类”任务:写一封邮件;模仿鲁迅写一篇文章。ChatGPT“啪啪啪啪就完成了”,“(它)完成的质量非常高。”

  他接着又抛出两个开放问题:“菠菜和豆腐能放在一起吃吗?”“如果我生病跌倒了怎么办?”

  ChatGPT答完后,他已经完全被对面展示出的理解力所吸引。从2020年至2021年,刘权曾带团队获得NLP领域5个国际权威评测冠军。因此,在这个上午,他完全知道发生了什么——ChatGPT似乎突破了以往所有类似人机对话系统的瓶颈。

  讯飞认知智能领域的核心人物魏思很早就关注“Transformer 架构”这一NLP(自然语言理解)领域的重要架构。

  “Transfomer架构”是谷歌最重要的发明之一,它最初是山景城总部的研究人员在午餐时设计出来的。

  2017 年,随着《Attention is All You Need》的重磅论文发表,Transformer 不仅嵌入在谷歌搜索和谷歌翻译中,并且驱动着几乎所有大型语言模型——包括谷歌的“Bard对话应用语言模型”和Open AI的“GPT模型”。

  两者的训练方法截然不同。魏思告诉记者:“简单来说,Open AI的训练思路是给出第一个字和第二个字,不停地让机器去猜第三个字;而谷歌的训练则是给出第一个字和第三个字,让机器去猜中间那个字是什么。”

  GPT模型一开始在业界是个少数派。从GPT-1到GPT-3,都没有多少人关注;相反,业界受到拥趸的是谷歌推出的对话应用语言模型Bard。

  GPT靠堆数据和算力“大力出奇迹”,优势是后发的。2018 年,GPT-1推出时貌不惊人;2019 年,GPT-2 已经拥有15 亿参数;2020 年, GPT-3已经拥有惊人的 1750 亿参数,是世界上最大的自然语言生成模型。

  2020年GPT-3问世之后,安徽省相关领导曾经调研科大讯飞,讨论要不要跟进大模型,也考虑过由安徽省牵头搭建大算力平台的构想。

  魏思至少参加过两次调研会。但是分析和验证过之后,结论是GPT-3效果并不好,因此做大模型的“时机尚不成熟”。“光是构建千亿参数大模型的算力投入就要十几个亿。投入这么大,但大规模预训练的效果能到什么程度呢?只能有个基本效果,解决不了实际问题。”

  从本质上来说,GPT还没有“进化”出来,至少在细分领域上并不突出。魏思将其表述为“当时的算法并不能证明它足够能做成。”

  因此,“算力”的背后是个“时机”的问题。科大讯飞2023年和华为打造大模型算力平台“飞星一号”,是当机立断的,而且从第一天就做好了“国产算力自主可控”的长期主义准备。

  刘庆峰后来复盘,当时不做、后面再做是科学的,“我们当时做,会浪费很多钱。但时机不到,效果不会太好。”

  但另一方面,在算力之外,科大讯飞在认知智能领域对算法和人才的储备已历时近十年,一刻都没有放松过。

  2014年,科大讯飞就推出“超脑计划”,并衍生出“超脑2030计划”。在“超脑计划”框架下,人工智能被寄希望于“懂各行各业知识,有通识和情感”。

  从2017年开始,“超脑”先是在全球首次通过了国家执业医师资格考试,超过了96.3%参加考试的医生;两年后又在斯坦福大学发起的SQuAD机器英文阅读理解比赛中首次超过人类平均水平;在去年艾伦研究院组织的OpenBookQA科学常识推理比赛中,又首次超过人类平均水平。

  “我们一直在做跟谷歌Bard很像的事。过去几年,讯飞研究院一直在搞无监督学习,只能说部分成功了,已经用到我们的产品里,有些还没成功,现在还在做。”魏思说。

  没有这些技术储备,一家公司想在短时期内复刻ChatGPT的“智慧涌现”,根本就是天方夜谭。

  但是,回到Open AI推出ChatGPT的那个时刻,一切又都是模糊不清的。科大讯飞面临的选择,首先是要不要做大模型?其次是,到底是谷歌,还是Open AI?如果要做,讯飞有没有足够的资源支撑?

  刘聪和魏思是同门师兄弟,两人都来自大名鼎鼎的中科大语音及语言信息处理国家工程实验室(下称“中科大语音实验室”)。刘庆峰也出自这间实验室。

  刘聪后来担任讯飞研究院院长;魏思是讯飞研究院首席科学家。魏思是2017年的《麻省理工科技评论》评出的“35岁以下创新35人”;刘聪是2018年的“35岁以下创新35人”。魏思对科学有独特的鉴赏力,刘聪则喜欢给他加个框,“你做出来我才说你牛”。

  两个人性格迥异。魏思是那种典型的科学家个性,桀骜不驯。当年实验室每周都开组会,博士师兄们在上面讲,本科生不敢插嘴。但是魏思不管,他操一口肥东口音的普通话,从后排站起来直接开喷,场面火爆。师兄称他“一看就不是一个善茬”。

  另一方面,魏思擅长长时间的深入思考。他办公室的书柜里摆着各种书籍,从历史到心理学,阅读口味十分宽泛。大二那年,他每天都蹲在图书馆看文学杂志,“把那一年全中国文学杂志的每一篇小说都看完了”。

  相对于魏思的“超脱”,刘聪相对“务实”。他在科大读书时不爱上课,也不爱上自习,但是很会考试,他的作业一直是供全班同学Copy的“四个版本”之一。他爱交朋友,是个更注重平衡的科学家,一讲起话来滔滔不绝,雄辩无碍。

  在ChatGPT发布后不久,刘聪就给刘权紧急电话沟通测试事宜。他在群里看到的各种信息都提示他:“ChatGPT的表现已经超出想象”。而在整个研究院层面,ChatGPT的出现已经使其进入战时状态。“这个时候的当务之急,就是赶紧下场去试,早点把结果拿到自己手中。”

  十二年前,“深度学习”突然横空出世,其颠覆性一点也不亚于大模型,讯飞也面临着类似的选择。

  2010年9月21日,受中科大信息科学技术学院院长李卫平邀请,日后鼎鼎大名的学者邓力重回合肥,他和俞栋一起在科大西区电三楼西侧的一间会议室内作了一个关于“深度学习”的学术报告。

  但邓力和Hinton的新方法并不被业界和学界接受。当年的“深度神经网络”在所有人工智能算法里面是偏门中的偏门,被认为是歪门邪道,甚至是骗子。

  就连邓力在微软的老板——曾任卡内基梅隆大学计算机系系主任的Peter Lee都不支持他,认为Hinton的神经网络“非常荒谬”。

  一直到2012年,邓力在向微软研究院资深研究者及公司高管讲述深度学习进展时,依然被一位学者打断:“神经网络从未取得成功。”

  这名学者甚至走到了台前,把邓力笔记本电脑的投影连接线拔掉接到自己电脑上。屏幕上出现1969年出版的《感知机》一书封面,正是这本书对神经网络的批判导致了神经网络“失落的二十年”,这是任何一位神经网络研究者都不愿触及的“伤疤”。

  因此,邓力的来访,并不是学术明星式的“布道”,整个科大也没有什么人工智能新技术浪潮来临的气氛。当年,为了避免人们对新方法的误解,邓力甚至不用DNN((Deep Neural Networks深度神经网络),而使用DBN(Deep Belief Networks深度信任网络),DNN是之后的事情。

  参加过那次讲座的人们回忆,由于范围比较窄,来听的人不多。“现场只有稀稀落落的二三十个人,但真正能听懂的人不多。”

  然而,出身中科大语音实验室的一群年轻人参与了那场学术报告。他们都拥有另一个身份——供职于科大讯飞研究院。

  十三年后,邓力回忆那次讲座,他对那群年轻人印象深刻:“他们提出了很多尖锐的问题。Hinton关于深度学习最早的那两篇文章他们一定看过,我也看过,但有些数学我没有特别懂,这也是我邀请Hinton到微软来的原因。但是那些年轻人所问跟我之前所思是一样的,说明他们对文献的理解已经达到我的水平,所受训练也很有深度。这让我有非常强的愿望跟他们继续交流。”

  邓力走后,当年讯飞研究院的院长胡郁决定,先“try”一下“深度神经网络”再说。

  这一try是决定性的。在眼前一片迷雾的时候,当务之急不是观望或者争论,而是先走上几步。

  刘聪后来说:深度神经网络这种东西没什么理论,就是个工程。你要想用数学推出理论先进性来,不太可能。“你就实践,做出来最优它就是最优。”

  刘聪后来找来师兄潘嘉,一个搭建系统,一个搞算法,整个团队跳过相对简单的数字字母识别等任务,开始尝试深度学习的方法训练真实场景下的大词汇量连续语音识别任务。

  讯飞一开始并不是把所有框架全换掉,而是先把深度学习放在特征处理环节试一试。这一试不得了。“相当于只替换掉一部分,但性能立即就有所改善。”

  邓力和俞栋是在科大西区的讲座结束后,才前往微软亚洲研究院的。这也意味着,科大讯飞是除微软总部之外,首先详细了解这一研究并着手跟进深度学习研究的团队之一。

  2011年,科大讯飞上线中文语音识别深度学习系统,这是第一个中文DNN语音识别系统,领先百度一个身位。

  在移动互联网时代,两年时间足够一家初创公司颠覆巨头。新算法的快速落地后来应用在“讯飞输入法”这个有大量潜在用户、场景丰富且可以快速迭代的商业化系统中。

  邓力后来说:在深度学习刚刚被提出时,全世界只有两家公司真的相信了。“其中一家是谷歌,另一家就是科大讯飞。”

  谷歌后来花费了4400万美元收购了多伦多大学的一家初创公司 DNNResearch。这家公司在当时不仅没有任何一个产品,也压根没有生产产品的计划。它只有三位员工Geoffrey Hinton与他的学生Alex Krizhevsky、llya Sutskever。顺便说一句,llya Sutskever后来离开谷歌,成为Open AI的联合发起人和首席科学家,并参与主导了ChatGPT的研发。

  刘权是魏思和刘聪的师弟,他2012年进入中科大语音实验室,正是“深度学习”风起云涌之时。当年,实验室十五个人,十四个人都搞语音,只有他一人自告奋勇要用深度学习的方法去搞NLP(自然语言理解)。

  转博时,实验室老师劝他搞语音,被刘权直接拒绝了:“我说我就不做语音,我要彻底的‘NLP’。”

  刘权后来加入魏思负责的“超脑计划”,是超脑组“一号组员”,专攻常识推理,后来他在2016年Winograd Schema国际认知智能挑战赛上拿下第一名。他的系统是唯一用深度学习做出来的系统,当年其他系统都仍然使用传统符号逻辑推理方法。

  尽管夺冠,但第一名的正确率也只有58%。这是个什么概念呢?“这个测试是二选一,也就是说,小孩随机猜都能拿50分。”

  也就是说:算法还抵不过瞎猜。这个结论令人沮丧。在那个年代,机器的推理能力尚不及儿童水平,通用AI仍是遥不可及的事。

  刘权后来离开“常识知识推理”领域,从2017年到2022年底,他在讯飞一直从事“人机交互”,仍与NLP相关,但那是一个更贴近企业实际应用的东西,“为稻粱谋”,刘权也与通用AI渐行渐远。

  因此当2022年11月30日,刘权开始测试ChatGPT时,就像回到久别重逢的故乡,看到了熟悉的人,但已是今时不同往日。

  之后的那一周,刘权把科大讯飞研究院好几个方向的骨干都拉进一个群里,都是他认为最靠谱的人。实际上,研究院整建制的团队都在支持他。他和他的小伙伴们开始轮番上阵测试ChatGPT。

  当GPT的训练方法通过对海量数据的高质量清洗和对上亿参数大模型的训练之后,突然迸发出惊人的力量。

  “当它把全世界的书、全世界的网页、全世界的语料都读了一遍之后,神奇的事情出现了。大模型大概率就懂得了语义——它可能读懂了语言在隐含空间中的意思。”

  一周之内,刘权写下整整一百页PPT。在这个PPT最后,刘权建议“借鉴ChatGPT思路,在重要认知智能任务中开始研究,并研制一个中等大规模预训练模型”。(注:后来这一建议在立项时被扩展到“1+N”,即一个“可对标ChatGPT的大模型”加N个“行业大模型”)

  2022年12月7日,科大讯飞A4楼五楼北侧,讯飞研究院院长胡国平那间不到二十个平方米的办公室挤满了人,研究院最生猛的年轻人们都在。大家围住一台电脑,电脑连着一个投影,投影上是刘权熬夜写成的《Open AI ChatGPT 调研分析报告》。

  ChatGPT最大的反对派是魏思,他认为ChatGPT是“一本正经地胡说八道”,这源自于他对GPT-1到GPT-3的观察。“我说你别听他吹牛。Open AI很喜欢PR(公关),GPT-1到GPT-3都吹得跟啥一样,其实效果并不好。”

  支持派的代表人物则是刘聪。刘聪是结果导向,他在举了很多例子后说:“这一次有可能是颠覆性的。”

  刘权没有评价两位师兄的发言。他调试好了他的一百页PPT,开始一页一页的分析。

  会议结束后的中午,魏思没去吃饭,他找刘权要了一个账号,开始亲手测试ChatGPT。魏思用的是教育和医疗任务去测ChatGPT,ChatGPT是大模型,不可能针对这些“小任务”做过训练。但结果出乎魏思的意料,ChatGPT的表现与讯飞专门针对这些任务训练过的“小模型”相比,差距并不大。“这就相当厉害了。”

  魏思当天晚上就给刘庆峰写邮件。他不容置疑地说:我们一定要上(大模型),不上肯定落后。

  刘庆峰立刻要了一个账号体验,体验完之后,刘庆峰把ChatGPT定义为“通用AI的曙光”。他判断,大模型将对整个人类的生产和生活方式带来非常大的颠覆,产生全新的机会。“新一轮的浪潮要来了”。

  “很多系统是在各个专用领域做到了超过我们人类的水平,尤其是在各大感知领域,但今天在通用AI的曙光下,星星之火慢慢的出现。”刘庆峰说。

  二是,大模型要做“1+N”,“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等所有的领域的落地。

  三是,建立一套实实在在、脚踏实地、科学的、系统的评测体系。要用评测体系给出判断,技术到底到了什么程度了、下一个发展应该往哪边走。

  整个研究院都为之沸腾。科大讯飞的大模型被命名为“星火”。刘庆峰对这个词感触很深。这和讯飞创业初期的“要么率先燎原,要么率先熄灭”的意象异曲同工。“星星之火,可以燎原”出自《选集》,在关键时点,点出了中国革命重大转折来临的历史逻辑。

  2023年5月6日,合肥奥体中心的主场馆内,刘庆峰董事长带着星火大模型跑步入场。

  在此后的两个小时内,刘庆峰和刘聪在台上一起操控“星火”完成各式任务。那大概是科大讯飞历史上气氛最热烈的发布会了,能容纳1500人的会展中心主场馆座无虚席,就连过道上也挤满了人,他们在一阵阵惊呼声中站着听完2个多小时的发布会,而线万,几乎每隔几分钟,现场就爆发出热烈掌声。

  发布会后的下一个交易日,科大讯飞股票涨停,一周内沪深两市成交量排名第一。

  魏思后来复盘时说:尽管GPT-3出来的时候没有引起足够重视,但那不是决定性的。

  「研究就是这样,任何一个人都有自己认同的方向,有的人坚信,他就赌对了,所以他就成了。我们做的方向可能不一样,但是没关系。原创研究的不确定性是很大的,你可能做十个能成一个就不错了,你不能赌这样的一个东西。科大讯飞是家企业,对企业来说重要的并不仅仅是你赌对方向的能力,而是你迅速判断哪个方向有用,并快速把它落地的能力。」

  2023年,邓力在回顾过去十年人工智能的历史时说:大模型正是人工智能的Goldrush(淘金热),而上一个Goldrush就是十年前(深度学习)。

  4月28日召开的中央政治局会议指出,要重视通用AI发展,营造创新生态,重视防范风险。

  5月5日召开的二十届中央财经委员会第一次会议则强调,要把握人工智能等新科技革命浪潮,适应人与自然和谐共生的要求。

  在10月25日,科大讯飞发布星火大模型3.0之后一天。安徽省发布《通用人工智能创新发展三年行动计划》,提出抢占通用AI发展制高点,加速构建产业创新发展生态体系。

  人工智能的一个新的时代可能就要来了。刘庆峰说:“通用AI将是一个伟大的历史进程,所以核心技术的进步也将是一步一个脚印、踏踏实实持续进化的过程;同时,就像过去十年一样,我们依然不能放松对源头技术的关注。”

  那些决定胜负的关键核心技术突破往往不是大力出奇迹,也不是集中一万个工程师办大事,而是由若干个充满个性、野心勃勃的人在一个适宜创新的环境中碰撞出来的。在ChatGPT的赌局之后,魏思表示要请2022年12月7日见证过那个赌局的人们“撮”一顿。但在那之后,“星火”令所有人都抽不出时间了。

  人工智能的三次浪潮,都充斥着路线之争。人工智能是这样一个江湖:让机器拥有智慧是人们共同的目标,但路径却大相径庭。每隔十几年就会有颠覆性的新技术问世。符号主义、联结主义、行为主义各行其是,“剑宗”和“气宗”在历史上此消彼长,一着不慎走入岔道,就会粉身碎骨。但是粉身碎骨者却不能盖棺定论,随着科学的进境,白骨又会重新站起,走向台前,领一时风潮。因此,衡量一家AI公司的成色,不能光看财务报表上的研发支出,很关键的一条,是看它有没有穿越周期的能力。就像西行的玄奘和大航海的哥伦布一样,抵达只是尾声,始终盯对罗盘才是第一要义。10月24日,科大讯飞董事长刘庆峰在合肥发布新版“星火”认知大模型。国务院发展研究中心国研经济研究院的横评报告数据显示:新版大模型综合能力超越ChatGPT(GPT-3.5),甚至在部分行业优于GPT-4,处于国内领先、国际一流的地位。与GPT-4比较,“星火”仍有差距。但是毫无疑问,科大讯飞已经拿到大模型时代的“入场券”,并矗立潮头。刘庆峰认为:“星火”有信心在多个行业领域追上GPT-4。但仅仅在一年以前,OpenAI发布ChatGPT之后的那一周,其实是科大讯飞面临考验的关键时刻。当真正重大的变化来临的时候,时间的度量都发生了变化,你能清楚地听到秒针转动的声音,“那真是最漫长的一周”。