智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。
评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,而语言模型发展相对放缓。开源生态中,除原有贡献者外,也涌现出新的参与者。
综合榜单:多模态模型表现抢眼
评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面,虽然在一般中文场景下能力趋于饱和,但在复杂场景中,国内头部模型与国际一流水平仍存在差距。 字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在主观评测中表现领先;OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest在客观评测中位居前列。
视觉语言多模态模型方面,优秀开源模型在图文理解任务上正逐渐缩小与闭源模型的差距,但长尾视觉知识、文字识别和复杂图文数据分析能力仍有提升空间。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。
文生图模型方面,头部模型已具备中文文字生成能力,但复杂场景下人物变形问题仍存在。腾讯Hunyuan Image排名第一。
文生视频模型方面,画质和动态效果提升显著,但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5(高品质)表现领先。
语音语言模型方面,受益于文本大模型的进步,能力大幅提升,但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。
专项评测:K12学科测试及模型辩论
K12学科测试显示,模型综合得分较半年前提升12.86%,但在部分学科上仍与人类学生存在差距。部分模型在英语和历史科目中表现优于人类平均水平。
模型辩论平台FlagEval Debate的评测结果显示,Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12在逻辑推理、观点理解和语言表达方面表现出色。
金融量化交易评测显示,深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06、Google Gemini-1.5-pro-latest在生成量化交易策略代码方面表现领先。
FlagEval评测平台持续迭代
FlagEval平台已覆盖全球800多个开闭源模型,包含20多种任务和90多个数据集。本次评测更新了98%的题目,并提升了难度,以应对数据集泄露和饱和度问题。
智源研究院将继续致力于打造科学、权威、公正、开放的大模型评测体系,为大模型技术生态发展提供持续的洞察。 2025年,FlagEval将进一步探索动态评测和多任务能力评估体系。
以上就是智源发布FlagEval「百模」评测结果,丈量模型生态变局的详细内容,更多请关注其它相关文章!