深度丨ChatGPT后，百度匆匆交卷，科大讯飞将“星火”燎原？

ChatGPT人工智能2023-05-12 17:30:551347

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

撰文：开叔 | 图源：互联网

在ChatGPT发布并引起一系列连锁反应后，很多人期待国内能够诞生一款可以与之媲美的AI大模型应用。3月16日，百度匆匆“交卷”，但文心一言的表现明显不及用户预期。终于在5月6日，科大讯飞也完成“作业”，而这一次讯飞星火又能否经得起考验呢？

5月6日，科大讯飞正式发布星火认知大模型。发布会现场，董事长刘庆峰重点阐释了星火大模型在七大维度上的能力，并且分享在教育、办公、汽车、数字员工等领域的应用。

与百度不同，这次发布会进行了星火大模型的现场演示，也让观众直观的感受了其表现。

仅从发布会现场，能够看到星火大模型在对话、语义理解等基础能力方面表现尚可，但这好像与发布会后用户的体验并不一致！

官评与网评的反差

在微博等平台，我们搜索了部分用户的实际体验，很多人依然给出差评，甚至称其为“人工智障”。

比如有网友提问华为畅享60X相关问题，星火大模型的回答中称该款手机内置4800mAh大容量电池，而这明显与6000mAh的事实不符。提问我父亲和我儿子什么关系，星火大模型给出的答案竟然是父子关系。

更离奇的是，有网友提问“你的开发API哪里可以看到？”，星火大模型的回答竟然提供了OpenAI的地址，网友追问“你给的是OpenAI的吧”，星火大模型竟然回答“是的，我是由OpenAI开发的”。

为了印证网友的分享是否属实，我们也进行了实际体验，体验中确实存在相似的问题，时常出现一本正经的胡说八道，比如提问“今天是星期几？”“今天是几月几日”，而这样的问题重复多次提问也给出了离奇的错误答案，这着实让人很难接受。

可见星火大模型在逻辑推理上是有较明显不足的，毕竟此类问题并不复杂。

当然，我们不能仅仅凭借这少数的问题就简单的给星火大模型差评，还需要更加全面的进行评判。

来自SuperCLUE的认可

5月9日，中文通用大模型综合性评测基准SuperCLUE正式发布，并对市面上主流的支持中文的通用大模型进行了评测与排名，而这可以作为我们评价星火大模型的参考。

排名中，GPT-4不出意料的遥遥领先，而星火大模型次于GPT-3-turbo排名第三，另外，百度文心一言排名第九。

具体从评分维度上来说， SuperCLUE是从基础能力、专业能力和中文特性能力，三方面给出评价。

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力；
专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力；
中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

而星火认知大模型的总分为53.58，三个维度的得分分别是74.00、44.00、42.73。

在基础能力方面，星火大模型与GPT-4相比，差距较大的有生成与创作、逻辑与推理、代码，这三项。

特别是逻辑与推理的得分只有30，远低于GPT-4的90，这也与前文所描述的“一本正经胡说八道”一致。

而更让人惊讶的是中文特征能力方面，星火大模型的得分远低于GPT-4，比如字义理解、对联、方言、歇后语和谚语、汉字字形和拼音理解、古文等。

作为国产的AI大模型，在其他维度上逊色于GPT也许是可以理解的，但是在中文特性能力上依然有如此大的差距着实让人难以接受。

综合上文的案例以及SuperCLUE的评测，我们确实能够感受到讯飞星火大模型有明显的不足，或者说和ChatGPT有差距，但这一切都不是我们否定星火，否定科大讯飞的理由。

辨别式→生成式

在这个以ChatGPT为代表的大模型风靡的当下，我们首先要认清一个事实：人工智能发展至今，并非一直默默无闻，ChatGPT也代表不了人工智能。

之所以当下ChatGPT能够引起整个社会的关注，并将人工智能推上神坛，在于其将人工智能从幕后带到了台前。正如百度创始人李彦宏所说，人工智能正从辨别式走向生成式，AIGC成为新方向。

所谓的辨别式人工智能，指的是分辨内容跟需求匹配不匹配，主要是在辨别；生成式人工智能，指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

而科大讯飞正是在过往的辨别式人工智能领域拥有重要地位，特别是语音识别，以及语音合成、机器翻译、图文识别、图像理解、阅读理解等等众多领域。

纵观其发展历程，科大讯飞在2014年正式启动“讯飞超脑计划”，研发基于类人神经网络的认知智能系统；2022年提出讯飞超脑2030计划，进一步深耕认知智能，并承办国家语言及语言国家重点实验室等多项工作，成为AI领域的“国家队”，12月15日启动“1+N”认知大模型专项攻关，其中“1”就是指通用认知智能大模型，“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。

可见，科大讯飞不仅在辨别式人工智能时代占据重要的一席之地，在生成式人工智能赛道也已经启程，虽然当下拿出的星火大模型不尽如人意。

科大讯飞的困境

当然，在人工智能转型的当下，并非只有百度和科大讯飞参与其中，在大模型方面，几乎国内巨头全员出击，比如百度文心一言、华为盘古、阿里巴巴通义千问、腾讯混元、商汤科技日日新等等。

另外，各路大佬也不甘人后，包括李开复、王兴、王慧文、王小川、张一鸣等等，都在摩拳擦掌。

纵使科大讯飞在语音语义相关技术方面实力雄厚，但其他企业也各有优势，比如百度的综合实力就十分强悍，包括NLP、图像识别、自动驾驶等。科大讯飞要想在后续的角力中实现突破绝非易事。

除了激烈的行业竞争外，科大讯飞的业绩表现让人担忧。

4月20日，科大讯飞发布2022年及2023年第一季度财报。

数据显示，2022年科大讯飞公司实现营收188.20亿元，同比增加2.77%；净利润5.61亿元，同比下降63.94%；扣非后净利润4.18亿元，同比下降57.31%。

2023年第一季度，公司实现营收28.88亿元，同比下降17.64%；净亏损5789.53万元；扣非后净亏损3.38亿元。

关于业绩下滑的原因，财报中提到，一方面是由于社会经济的特殊环境，另一方面是被被列入美国实体清单后，2022年被再次极限施压，从供应链到相关的合同签署需要调整的过程，也影响了当期订单签订的节奏。还有公司持股的三人行、寒武纪、商汤等金融资产因股价波动导致公允价值变动收益金额较上年同期减少 5.82 亿元等。

但与此同时我们也看到，科大讯飞的营收表现不佳原因还有很多，比如其业务占比最大的教育领域面临的激烈竞争。近年，随着学生对交互性强的AI学习机需求增大，众多企业发力，步步高、读书郎、网易有道等实力不容小觑。

另外，其他多项业务盈利能力不足，以及依赖政府补贴等问题都制约着科大讯飞的发展，这样的局面亟需一个新的机遇来扭转。而大模型，或者说星火认知大模型就是这样的一次机遇。

“星火”能否燎原？

回到讯飞星火认知大模型，在2022年12月15日，科大讯飞启动“1+N”认知大模型专项攻关，其中“1”指通用认知大模型，“N”指大模型在教育、办公、汽车、人机交互等各个领域的落地。

如今作为“1”的星火大模型已经发布，其由7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。虽然其实际表现还有很多不足，但毕竟敢于让广大用户去体验，这一点是值得肯定的。