智源发布FlagEval「百模」评测结果，丈量模型生态变局

hao123数码21/12/2024 13:02:0800

智源研究院发布2024年下半年大模型评测结果，评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上，扩展了任务类型，新增数据处理、高级编程、工具调用及金融量化交易场景评估等；并首次采用模型辩论方式进行对比评估。

评测结果显示，下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速，而语言模型发展相对放缓。开源生态中，除原有贡献者外，也涌现出新的参与者。

综合榜单：多模态模型表现抢眼

评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面，虽然在一般中文场景下能力趋于饱和，但在复杂场景中，国内头部模型与国际一流水平仍存在差距。字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在主观评测中表现领先；OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest在客观评测中位居前列。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第1张图片-海印网

视觉语言多模态模型方面，优秀开源模型在图文理解任务上正逐渐缩小与闭源模型的差距，但长尾视觉知识、文字识别和复杂图文数据分析能力仍有提升空间。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第2张图片-海印网

文生图模型方面，头部模型已具备中文文字生成能力，但复杂场景下人物变形问题仍存在。腾讯Hunyuan Image排名第一。

文生视频模型方面，画质和动态效果提升显著，但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5（高品质）表现领先。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第3张图片-海印网

语音语言模型方面，受益于文本大模型的进步，能力大幅提升，但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第4张图片-海印网

专项评测：K12学科测试及模型辩论

K12学科测试显示，模型综合得分较半年前提升12.86%，但在部分学科上仍与人类学生存在差距。部分模型在英语和历史科目中表现优于人类平均水平。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第5张图片-海印网

模型辩论平台FlagEval Debate的评测结果显示，Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12在逻辑推理、观点理解和语言表达方面表现出色。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第6张图片-海印网

金融量化交易评测显示，深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06、Google Gemini-1.5-pro-latest在生成量化交易策略代码方面表现领先。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第7张图片-海印网

FlagEval评测平台持续迭代

FlagEval平台已覆盖全球800多个开闭源模型，包含20多种任务和90多个数据集。本次评测更新了98%的题目，并提升了难度，以应对数据集泄露和饱和度问题。

智源发布FlagEval「百模」评测结果，丈量模型生态变局-第8张图片-海印网

智源研究院将继续致力于打造科学、权威、公正、开放的大模型评测体系，为大模型技术生态发展提供持续的洞察。 2025年，FlagEval将进一步探索动态评测和多任务能力评估体系。

以上就是智源发布FlagEval「百模」评测结果，丈量模型生态变局的详细内容，更多请关注其它相关文章！

Tags：模型方面

Article Links：https://www.hinyin.com/n/306761.html

Article Source：hao123

Article Copyright：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

PreviousPyTorch 中的位置

Nextc盘怎么扩容 c盘扩容教程简单

Sorry, comments are temporarily closed!