大语言模型综合性能评估:GPT-4领跑 百度文心一言拔头筹

来源:中关村在线 2023-08-10 16:36:49


【资料图】

今年,人工智能大模型成为科技界的焦点,OpenAI的ChatGPT领跑,微软、谷歌、Meta等国际科技巨头紧随其后,国内科技公司也不甘落后,据悉已有上百款大模型问世。近日,清华大学新闻与传播学院发布了一份《大语言模型综合性能评估报告》,对国内外的大模型进行了详细对比。报告还深入探讨了这些模型在创意写作、代码编程、舆情分析、历史知识等不同知识领域的回答情况,以及其在解决实际问题中的有效性和局限性。报告从生成质量、使用与性能、安全与合规三个维度,对市场上的7个大型语言模型进行了全面的综合评估。在这7款大模型中,GPT-4毫无疑问地位居第一,百度的文心一言紧随其后,排在第二位。其次是GPT-3.5,然后是Claude、讯飞星火、阿里云的通义千问及昆仑的天工。虽然GPT-4在各方面都表现出色,但对于国内用户来说,更懂中文的大模型才是关键。在这方面,百度的文心一言表现出色,在部分中文语义理解方面,文心一言以92%的得分率排名榜首,超越了讯飞星火和GPT-4。这与百度的大模型包含大量中文文本有关,因此能够更好地处理本土文化相关的内容。

关键词:

返回顶部