“都说AI好,一用急跺脚。” 这是娱乐资本论·视智未来在第一次做大语言模型文本应用能力测试时,写下的第一句话。 当时,对于不少从业者而言,AI大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于AI是否能够在实际工作中发挥作用,提升效率。时至今日,这一基本需求仍未改变。 为了解决这样的疑问,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到18个问题,针对国内的大型语言模型,进行了一次全面的,不同于以往科技工作者的文本应用能力测试。 时隔半年,情况发生了怎样的变化呢? 8月底,首批八款国产大模型完成备案,允许对公众开放:百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型)、商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。 这也让 9月成为国产AI大模型的“节日”。 这八款大模型中绝大部分免费开放,吸引了许多人的使用。很多媒体也在第一时间进行了简单的上手测试,而一些侧重于逻辑推理等能力的基准评测也迅速展开,各自产生了不同的结果。 越来越多的国产大模型在生成结果时默认加入网络搜索内容,以避免大模型生成错误的叙述,还有些国产大模型表示已经超越了GPT-3.5。此时,我们认为是展开第二轮AI大模型实用性评测的绝佳时机。 本次测试有如下创新内容: 为尽可能排除测试中的干扰因素,使人们可以轻松地比较结果差异与提示词(prompt)之间的关系,我们的问题是模块化的。 首先,按照大的任务分类,指定一些基础的提示词片段;然后,依据不同场景,逐级插入相应的段落。 考虑到目前大模型已经陆续接入网络,我们 为同一个问题准备了联网和不联网的两种版本。 本次测试中将有6个具体产品是联网的,有2个产品是不联网的。另有2个产品只参加跟写作能力有关的测试。 我们 着重测试了通过自己长期使用,总结出来大模型最擅长的几种能力, 包括对文章进行扩写、缩写和变换写作风格的改写,以及总结长文章的要点等。 这将是一篇 特别长 的评测。请坐稳扶好,我们现在出发。 测试过程简述: 我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景的综合表现,为文娱、传媒行业从业者提供参考。 我们基于以下五个维度,对大模型的表现进行评分:
- 语言表达能力:文本是否通顺、流畅,语法是否正确。
- 准确性:模型是否能正确理解问题,并给出准确的信息。
- 完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。
- 交互性:模型是否能猜测不太准确的问题背后,用户的真实意图。
- 加分项:任何创新、独特、让人眼前一亮的内容(不作具体要求)。 本测试的题目是互相分开的,不设总分。读者可以自行计算模型之间的总分,但对总分的比较没有显著意义。读者只需要留意每一道题的具体分数即可。 包含所有题目及回答的详细测试表单,将通过公众号“视智未来”发布。读者可以扫描/长按下列二维码查看详情: 01 部分测试项目及结果展示 因篇幅限制,本文不会一一展示所有问题的测试结果及结论,会挑一些有代表性的展示给大家。我们在下面展示的案例,由此来反映测试中突出的一些问题,以及寻求其中的一些闪光点。 联网能力判断 对于判断某个大模型是否真联网,我们用了两个问题: 请问现在通过备案的8款国产大模型都叫什么? 请问李凯尔会不会打杭州亚运 如果是有联网开关的大模型,一律使用其最佳状态测试。至于不联网问题仅针对不能联网的模型,计分标准一致。 有些时候,有些大模型的联网功能不完全,例如文心一言只能百度搜索prompt里面的关键字,不能读取指定网址链接。此时该问题会降级到测试不联网的版本。 本次测试仅仅使用娱乐资本论·视智未来能接触到的模型,不代表各家公司的最新技术。例如百川刚宣布的Baichuan2-7B用不上,就只测试现有的Baichuan-7B。Minimax对外发布的产品是WPS AI 和Glow(它基本不能用,不参与本次测试),它们使用的大模型可能也不是最新的版本,其它家的情况也类似。 小红书文案-产品介绍向 仅有百川、360智脑等在回答中提到华为Mate 60 Pro采用了麒麟9000s芯片,以及这是一款5G手机。不过,百川的回答错误地说该机用的是EMUI而不是鸿蒙。另一边,通义千问的某一次回答提到该手机的卫星通讯功能,却把处理器说成了骁龙8+。因此, 这些模型通过联网来确保准确性的能力都比较差。 在网络结果中,ChatGPT和Bing都使用了华为官网的宣传页面,而由于众所周知的特殊原因,官网信息对处理器和5G功能进行了隐晦处理。其他模型则没有提及“遥遥领先”和“4G+鸿蒙>5G”等梗,也缺乏查找不到结果时的脑补,这让人感到十分失望。 为了解决这个问题,一个可能的方法是分步推理:首先使用专门的步骤去搜索所有与该手机相关的关键功能点,然后根据这些信息生成文案。在我们的测试中,你会发现,如果连续提问几个问题而不是在一个问题上提问,效果会更好。 在小红书上,我们原本希望从商家角度和买家角度分别推断新品推介文案的差异。不过实际测试后发现,“产品介绍向”和“买家秀向”的区别并不大,因此我们展示了两款不能联网的大模型的表现。 对于不联网的模型,我们让它们介绍iPhone X,这款手机的基础知识在大多数模型训练的期限之内。商汤的商量感觉还可以,对基础知识的调用比较准确,信息没有错漏;但格式较为死板,“互动引导”也出现在里面就需要更多的手动修改,也没有emoji。智谱清言相对更为敷衍,但幸亏还是读完了题目的所有要求。相对而言,它没有很明确地介绍专属于iPhone X的功能。 作为对比,GPT-3.5的脑力输出就比较慷慨了。总的来说,虽然小红书属于一种简略的文体,但越是短小的段落,其实越难写。当然,让AI像专业文案作者那样工作是强“模”所难,AIGC比较适合完成对质量要求不高,但批量出品的那种工作。 在直播文案方面,非常遗憾的是,没有模型在这个测试中给出“3、2、1,上链接”这句话,只有通义千问化用了“所有女生”。即使我们已经非常明确地提示了你要模仿的人是李佳琦,但大模型的“理解”和“读懂”很多时候仍然只是人类用户善意脑补后的结果。可能相对比较好的有字节的豆包:如果以标志性的语句为判断依据,那么通义千问也还可以。如果佳琦哥是这么回答直播间提问的,他倒是一定不会翻车。 在探讨联网模型的能力和局限性时,我们发现它们在处理特定类型的问题时表现出色。然而,当涉及到使用插件的GPT-4和360智脑时,情况有所不同。尽管这些模型能够提供丰富的信息,但它们在回答某些问题时仍存在偏差。 以“秀才”为例,我们观察到他的直播风格:视频拍摄地多为乡村场景,内容主要涉及“认真做事、假装被发现、挑眉、吐舌、扶额对口型唱歌”的动作套路。此外,如果观众熟悉秀才的介绍文章,会发现他在直播中通常不直接带货。这一观察结果对于评估联网模型的表现至关重要。 例如,360智脑的常规版本在处理类似问题时表现不佳,具体表现在无法正确理解并复现“数字人”的特性。360AI数字人虽然拥有200多个角色,分为数字名人和数字员工两大类,但实际效果与理想状态之间仍有很大差距。 为了改善用户体验,未来的发展方向应该是首先分析用户输入,然后根据用户意图推荐适合的角色。这样的改进将极大增强用户的互动体验。 另一方面,Bing为我们提供了联网搜索的优质回答文献综述,尽管由于字数限制未能完全展开,但它展示了联网搜索的强大能力。相比之下,GPT-4的回答因为加入了过多的免责条款式内容而显得啰嗦和冗长。 在豆包的各种预制角色中,有一个特别的角色是“曹操”,这让我们感到有些讽刺。测试结果显示,豆包在角色扮演方面做得非常努力,但在回答问题时却显得短小精悍。这与Bing的表现相似,这使得它在完成大多数测试题目时显得力不从心。此外,豆包在许多问题的回答中并没有充分利用网络搜索,只有在明确提出“xxx是怎么回事”这类简单问题时才会尝试联网查询。 昆仑万维的天工AI搜索系统,在测试中表现出色。它能够直接回答问答类问题,但输入完整的提示词反而不行,因为太长了。它对我们所有问题的完整提示词都无法回答。 长文章写作-科普类 我们希望参与测试的模型们可以自己寻找一个给定主题(医美)的近期热点,然后解答这个热点。百川给出的两个具体的医美关键字,我们可以通过小红书搜索发现它们确实是近期医美爱好者比较关心的手术项目。这种给出具体项目的对比介绍就比泛泛的讨论医疗手术的风险与如何防范等,更符合我们题目的意思。当然,我们都不是医学专业人士,如果可以确认这些回答里面有明显的事实错误,将会成为重大的减分项。 文章调整-改写 绝大部分模型都无法通过我们的测试,它们号称联网,但无法准确抓到《孤注一掷》的剧情,因此只是随手乱答。例如通义千问的结果: (上图1)不仅如此,通义千问还错误地将我们的两个需求变成了自己的节标题,这说明它没有读懂问题。实际上要完成这个题目,大模型需要自己学会分步完成,即先搜索剧情,再类比出结果。这是Bing的结果 (上图2),其思考过程很明显地反映了上述正确的步骤。而ChatGPT联网后的结果则更为惊艳: (上图3、4) 文章调整-扩写 本来我对于模型们写出跟跳水大爷有机结合的天津爱情故事没有任何期待。但在选择了Bing的“更有创造力”版本后,它给出了一篇任何角度看都当之无愧的满分作文,一个字都不用改。理解这个题目的关键是需要通过联网准确地获取“大爷跳水”的本质,是一种积极的运动方式。有的模型为了安排情节,将女方写成了新闻记者,还有的写成了勇救落水大爷,所以效果都比较遗憾。 文章调整-缩写 大部分模型表现都中规中矩,以WPS为例:WPS AI本身提供“总结”的功能选项,但是当输入我们的prompt时,它并不能正常工作: (下图1)如果觉得官方“总结”字数太少,可以“续写”,但通常来说效果不佳。这段文字“续写”两次后是这样: (上图2) 在探讨大模型的文本处理能力时,我们注意到WPS AI在某些情况下表现出了显著的优势。特别是在处理较长文章时,其总结和缩写功能显得更为高效。 通过实际测试,我们发现如果需要对特定字数范围内的文本进行缩减,使用“全文处理-缩短篇幅”功能将是一个不错的选择。这一点与WPS AI的功能表现相契合,表明在处理长篇文章时,WPS AI能够提供更精确、高效的服务。 此外,我们还观察到ChatGPT在2022年经典营销案例的总结上表现不俗,尽管其给出的答案乍一看可能与问题不相关,但仔细分析后会发现其实是基于搜索结果的合理概括。这种能力展示了大模型在信息检索和知识整合方面的强大潜力。 文心一言虽然在仿写环节未能达到预期效果,但在总体总结上仍展现出较好的能力。尽管如此,其在问答过程中的一些不足,如无法联网查询和理解复杂问题的能力,限制了其在实际应用中的广泛适用性。 对于其他几款大模型,如Bing、百川和豆包等,它们在特定场景下的表现各有千秋。例如,Bing擅长利用网络资源提供大量信息,而百川则在长文章写作方面表现出色,但有时难以正确理解问题。这些特点反映了不同模型在设计时所侧重的功能差异。 整体而言,大模型的发展和应用仍在不断进步中。随着技术的成熟和应用场景的拓展,我们可以期待未来会出现更多高效、智能的文本处理工具,以满足用户在不同场景下的需求。 在对大模型进行测试的过程中,我们注意到大多数模型的表现都有待提高。特别是在不同类型的测试中,它们往往存在一些问题,需要进一步改进以提供更准确和有用的回答。 读者可以注意到,我们对每个项目的评分基本在2到4分之间浮动。这是因为很难找到能够获得额外加分的项目,而通顺的语言表达通常都能够满足要求,所以2分是实际上的“最低分”,表示当大模型不能准确理解问题,或者答非所问的情况。在上面的摘要中,我们也提供了一些获得额外加分的示例。 关于联网功能对大模型是否有用的问题,我们目前只能很遗憾地回答,还不是特别有用。大部分联网动作的结果都是找到一篇文章(大概率是知乎上的),然后总结其主要内容作为回答。它的搜索结果特别“碰运气”,而且往往难以对相关内容做事实核查。 由于每个大模型的优化方向和训练素材都不同,所以将它们的总分进行比较并不是特别有意义。在处理特定问题时,读者可以参考相关具体项目的评分,结合自己的经验来进行选择。 下一步计划: 我们将根据大模型的升级换代和应用场景的变化,及时进行更新。同时,欢迎大家在公众号“视智未来”下关注并留言,贡献出自己想问的问题,我们后期将再做测试。由于时间仓促,以下在规划中的项目将会在下一次大模型评测时引入:
- 我们的未来评测将更侧重于已经联网的模型。下一次评测将引入联网模型专属的一些新问题,包括但不限于:实时新闻、天气预报等查询;相关新闻、时间线等查询;产品比较、电影推荐等基于查询结果的分析;股票分析、旅行建议等复杂的解决方案;事实核查和辟谣。
- 本次使用的GPT-4插件VoxScript是编辑日常使用的,但效果不一定是ChatGPT众多联网插件中最好的。这次GPT-4对一些问题令人失望的回答可能与此有关。在下次测试前,我们会首先完成对GPT-4联网插件的能力测试,并确定下次使用的插件型号。
- 部分厂家有插件及多模态能力,但相对比较分散。我们会根据各厂商的后续发展,确定是否在下次测试时引入多模态类内容。
- 翻译也是大模型的长项,但是由于需要专业的语言知识,所以我们这次不会测试翻译相关的内容。如果大家对此期望很高,我们会在下一次测试引入。 给读者的建议: 为了帮助大家更好地使用AI大模型,高效率地产出想要的内容,我们有一些基本建议: 首先,在GPT-4没有官方的网络搜索能力时,使用第三方联网插件可能反而会降低它的表现。 第二,在特定任务上使用针对性优化的国产模型,效果确实可能优于GPT。 GPT并非不可超越的“玄学”。不能简单地断言OpenAI掌握的技术一定比所有开源社区共同努力的成果都要优秀。关键在于,如果确实出现了超越,那么我们需要确定这种超越是否合乎逻辑,以及背后的原因是什么。在本次测试中,通过发现GPT在特定场景下的弱点,我们对这个问题有了更准确的解释。 与今年三月时的情况相比,现在国产大模型确实在不断迭代进步中。这种进步背后的原因并不复杂,人们已经发现,通过特定的素材进行小样本的专项训练,可以使开源模型的表现超越泛用的ChatGPT。实际上,对大模型进行小型化和本地化部署,是现在最常见的AIGC创业模式之一。 因此,各家公司执行特定任务的大模型应用,比如最常见的扩写、缩写、总结、翻译等,实际上是展示他们在私有化部署这方面的技术能力。昆仑万维的天工大模型就分成了搜索、聊天和写作三个不同的功能入口,用它们来执行同一任务,效果也不尽相同。 读者不必迷信ChatGPT,可以根据上面测试结果和自己的经验,灵活选择最适合执行某个任务的模型品种。 第三,别急着说“大模型出来的东西效果不好”,应该通过更好的提问方法来引导。 实际上,在这次测试中,每个题目只使用了一个prompt,不带追问,这可能不会产生最佳结果。如前所述的结合网络搜索来写作,就是一个通过分步骤提问来优化生成结果的例子。此外,如果你在提问中提供更多的专业知识和术语,就会引导模型调用这方面的知识,从而朝着更专业的方向思考。