海印网
海印网

智源发布FlagEval「百模」评测结果,丈量模型生态变局

hao123数码00

智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。

评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,而语言模型发展相对放缓。开源生态中,除原有贡献者外,也涌现出新的参与者。

综合榜单:多模态模型表现抢眼

评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面,虽然在一般中文场景下能力趋于饱和,但在复杂场景中,国内头部模型与国际一流水平仍存在差距。 字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在主观评测中表现领先;OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest在客观评测中位居前列。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第1张图片-海印网

视觉语言多模态模型方面,优秀开源模型在图文理解任务上正逐渐缩小与闭源模型的差距,但长尾视觉知识、文字识别和复杂图文数据分析能力仍有提升空间。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第2张图片-海印网

文生图模型方面,头部模型已具备中文文字生成能力,但复杂场景下人物变形问题仍存在。腾讯Hunyuan Image排名第一。

文生视频模型方面,画质和动态效果提升显著,但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5(高品质)表现领先。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第3张图片-海印网

语音语言模型方面,受益于文本大模型的进步,能力大幅提升,但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第4张图片-海印网

专项评测:K12学科测试及模型辩论

K12学科测试显示,模型综合得分较半年前提升12.86%,但在部分学科上仍与人类学生存在差距。部分模型在英语和历史科目中表现优于人类平均水平。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第5张图片-海印网

模型辩论平台FlagEval Debate的评测结果显示,Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12在逻辑推理、观点理解和语言表达方面表现出色。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第6张图片-海印网

金融量化交易评测显示,深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06、Google Gemini-1.5-pro-latest在生成量化交易策略代码方面表现领先。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第7张图片-海印网

FlagEval评测平台持续迭代

FlagEval平台已覆盖全球800多个开闭源模型,包含20多种任务和90多个数据集。本次评测更新了98%的题目,并提升了难度,以应对数据集泄露和饱和度问题。

智源发布FlagEval「百模」评测结果,丈量模型生态变局-第8张图片-海印网

智源研究院将继续致力于打造科学、权威、公正、开放的大模型评测体系,为大模型技术生态发展提供持续的洞察。 2025年,FlagEval将进一步探索动态评测和多任务能力评估体系。

以上就是智源发布FlagEval「百模」评测结果,丈量模型生态变局的详细内容,更多请关注其它相关文章!

Tags: 模型方面

Sorry, comments are temporarily closed!