openai在为期12个工作日的线上新品发布活动中,于最后一天重磅推出下一代模型o3,包含正式版o3和精简版o3-mini。openai首席执行官sam altman盛赞o3为“极其聪明的模型”,其在软件工程、代码编写、竞赛数学以及掌握人类博士级自然科学知识等方面,均显著超越前代o1模型。更重要的是,o3在openai追求通用人工智能(agi)的道路上取得了突破性进展,部分测试成绩已达到类人水平。
今年9月发布的o1预览版在GPQA-diamond基准测试(涵盖化学、物理和生物学专业知识)中,准确率达到78.3%,已超过人类博士专家的69.7%。而新模型o3在同一测试中的准确率高达87.7%,提升近13%。
在ARC-AGI评估中,o3模型的成绩范围为75.7%到87.5%,超过了代表人类水平的85%门槛。前谷歌高级工程师、AI研究员François Chollet认为,OpenAI这些推理模型在AGI测试中的进步是“稳固的”。
同时发布的o3-mini模型,在性能与成本之间取得了良好平衡,能够以更低的成本提供高效服务。其在编码评估和数学能力测试中表现出色,与o1模型不相上下。
尽管o3的测试结果令人瞩目,OpenAI表示不会很快向公众发布这款强大的推理模型。从12月20日起,OpenAI已允许安全研究人员注册访问o3和o3-mini的预览版本,并计划在明年初正式发布这两个新模型。
以上就是OpenAI发布新一代AI模型o3:AGI评测成绩刷新纪录的详细内容,更多请关注其它相关文章!