文心大模型4.0正式发布，四项功能升级

互推小编 2024-01-02

整理自 | 机器之心、腾讯科技、澎湃新闻

订、阅 | 010-86092062

10月17日，百度发布文心大模型4.0，百度创始人李彦宏表示：“这是迄今为止最强大的文心大模型，它实现了基础模型的全面升级。相比文心一言现在的其它版本，文心大模型4.0在理解、生成、逻辑和记忆四大能力上，都有明显提升，综合水平与GPT-4相比已经毫不逊色！”

文心大模型的发展历程

3月16日，百度在OpenAI发布GPT-4一天后，正式发布文心大模型；

5月26日，李彦宏表示，百度要做第一个把全部产品重做一遍的公司，不是整合，不是接入，是重做，重构；

7月3日，文心一言APP上架苹果应用商店App Store，需要申请体验权限；

8月10日，百度网盘推出智能助理 “云一朵”：基于文心大模型，可快搜文件、总结 / 创作内容；

8月31日，百度文心大模型正式向全社会开发，开放首日在苹果App Store免费榜登顶；

10月17日，文心大模型4.0发布。

文心大模型一路走来颇不容易，在3月份刚发布时，真格基金做了一套大模型测试集Z-Bench，设计了300个问题去评估中外大模型之间的综合能力。在这套评分系统下，OpenAI推出的GPT-3.5得分是60多分，GPT-4的得分80多分，而文心大模型大概是20分左右的水平，与Open AI的大模型有着不小的差距。

今年8月初，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》，对国内外主流模型进行了一次全新的性能评估，这次评估显示，文心大模型已经超越GPT-3.5，距离GPT-4差距不远，中文语义理解排名第一，部分中文能力超越 GPT-4。

四项能力全面升级

语言理解能力

关于文心大模型4.0的理解能力，百度创始人李彦宏表示，“你说的每一句话，它大概率都能听懂，很多时候比你的朋友同事更懂你在说什么。”那我们直接上强度来一番“汉语十级考试”的测试。

先向文心大模型4.0问个简单的问题，“雨天骑自行车，车轮打滑，还好我反应快，一把把把把住了。你能理解是什么意思吗？”，文心大模型的回答还不错，还能针对考点进行细致的分析。

再增加一个难度级的测试，“人要是行，干一行行，一行行行行行，人要是不行，干一行不行，一行不行行行不行。说你行你就行，不行也行，说你不行，行也不行。你能理解是什么意思吗？”。文心大模型4.0比较准确地理解了这句话的意思，目测它的中文能力到9级了。

多模态“生成”能力

李彦宏提到的文心大模型4.0第二个重要能力是“生成”，即不仅可以用文字跟大模型聊天，它还可以生成图片甚至视频等内容，要使用生成图片和视频的功能，需要把官方提供的“一镜流影”和“说图解画”插件勾选上，这里我们以前段时间比较出圈的一个案例来试试效果。

我们依样画葫芦试试效果，将以下提示词输入给文心大模型4.0：我们公司发布了一款最新绿茶产品，它有以下特点：天然绿茶味饮料，无糖无香料无添加剂，适合夏天解暑解油腻。结合上述信息以及给你的图片，请帮我生成竖版海报，写上简约优雅的营销文案，与产品特质相呼应。

可以看到文心大模型4.0是可以直接生成图片的，我们再来试试生成视频，告诉它：“我们公司发布了一款最新绿茶产品，它有以下特点：天然绿茶味饮料，无糖无香料无添加剂，适合夏天解暑解油腻。结合上述信息以及给你的图片，请帮我生成一个数字人的口播视频，我想投放信息流广告。”

它确实能快速生成视频，且支持修改，但目前生成的视频不完美，文生视频能力中，对“绿茶”词汇的理解不如文生图能力理解透彻。

逻辑能力

李彦宏提到的文心大模型4.0第三个提升点是逻辑能力，这是AI大模型的一个重要能力。毕竟所谓人工智能，逻辑和智力需要达到一定程度，才能被称为人工“智能”。

这里采用经典的“鸡兔同笼”问题来测试文心大模型4.0：鸡兔同笼，头共10，足共28，鸡兔各几只？

可以看到文心大模型4.0的逻辑能力还是不错的，拿来给家里的娃辅导作业挺合适的。

记忆能力

再来看看李彦宏提到的文心大模型4.0第四个提升点——上下文记忆能力，其实就是指用户跟文心大模型聊天时，它能不能记住很长的对话。如果大模型记忆能力不过关，说不了几句就忘了之前跟你的对话，那么之后就是对牛弹琴，“智能”更无从谈起。

在官方提到的案例中，使用者将写一本武侠小说来试试文心大模型4.0的上下文记忆能力。

首先，写一个武侠小说的大纲：请帮我写一篇武侠小说，主人公是个女侠，情节要跌宕起伏一些。

文心大模型4.0的回复：

增加人物：现在人物关系太简单了，再增加4个角色。

文心大模型4.0的回复：

添加剧情增加戏剧冲突：还要给故事增加主线的戏剧冲突，让故事更有可看性。

文心大模型4.0的回复：

好了，已经写了十几章小说故事大纲了，我们来问问文心大模型最开始的设定问题：女主角穿什么衣服？

在第一轮对话中，文心大模型写下的女主角外貌设定。现在经过多轮对话、几千字的小说撰写之后，它还是能记得之前写过的内容，从这一次的测试来看，文心大模型的记忆能力是过关的。

核心技术揭秘

能做得到业内领先，百度实现了哪些技术进步？在昨天会上，百度 CTO 王海峰解读了文心大模型 4.0 的关键技术和最新进展。

“相比 3.5 版本，文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升，”王海峰说道“其中理解和生成能力的提升幅度相近；而逻辑和记忆能力的提升则更大，逻辑的提升幅度达到理解的近三倍，记忆的提升幅度也达到了理解的两倍多。”这些提升都会给用户带来帮助。

这些改进的速度很快 —— 其实文心大模型 4.0 在 9 月初就达到了上线标准，开始了小流量测试。过去的一个多月里经过不断调优，它的生成效果又提升了近 30%。

基础模型能力的增长体现在应用上，就转化成了生产效率的提升。比如在各家大厂都说在用的智能代码助手上，百度基于文心大模型的 Comate 在内部应用效果不错，整体的代码采纳率现在是 40%，高频用户的代码采纳率达到 60%。现在百度每天新增的代码中，有 20% 是由大模型生成的，这个比例还在不断升高。

这些提升又是靠什么做到的？总的来说，百度基于高效率算力、自研框架、更好的数据处理机制，再结合算法与调优，这才训练出了规模更大、效果更好的文心大模型 4.0。

今年 3 月正式发布的文心一言，其背后基于文心大模型 3.0，这是一个有知识增强的大语言模型，它从数万亿数据和数千亿知识中融合学习，又使用了有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的优势。

5 月份发布的文心大模型 3.5 则在基础模型、精调技术、知识点增强、逻辑推理、插件机制等方面进行了改进，取得了生成效果和效率的提升。

文心大模型 4.0 以它们为基础，继续在多个关键技术向上突破。

具体来说：

1、在万卡算力上基于飞桨平台，通过集群基础设施和调度系统、飞桨框架的软硬协同优化，支持了大模型的稳定高效训练。

2、通过建设多维数据体系，形成了从数据挖掘、分析、合成、标注到评估闭环，充分提高数据的利用效率，大幅提升模型效果。

3、基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐，保证了模型能够更好地与人类的判断和选择对齐。

4、利用可再生训练技术通过增量式的参数调优，有效节省了训练资源和时间，加快了模型迭代速度。

基于这一系列的提升，自三月以来文心大模型的训练效率已累计提升 3.6 倍；训练稳定性方面，周均的训练有效率已超过 98%。

另外在更高层面上还有一些改进。

文心大模型 4.0 实现了输入和输出两阶段的知识点增强，一方面对用户输入的问题进行理解，拆解出所需的知识点，然后在搜索引擎、知识图谱、数据库中查找准确知识，再把这些知识组装进 Prompt 送入大模型，提升了准确率和效率。另一方面又对大模型的输出进行「反思」，从生成结果中拆解出知识点，再用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，对有差错的内容进行修正。