7月19日,2025年国际数学奥林匹克竞赛(IMO)结果揭晓,中国队6位选手全员斩金,中国队时隔4年重登第一!
更令人震惊的是,今年IMO首次有AI夺金。
7月21日,谷歌DeepMind宣布其搭载了“深度思考”能力的Gemini Deep Think,以6题解出5题、总分35分的成绩,达到金牌标准,且这一成绩经过了IMO官方评分专家们的认证。这标志着在处理高度抽象和复杂的数学问题方面,AI的能力实现了质的飞跃。
根据IMO的比赛规则,参赛者需在4.5小时内解决6道极具深度的数学问题,涵盖代数、组合学、几何和数论,而且只有排名前8%的选手才能摘得金牌。数学问题不仅需要逻辑推理,还考验创造性思维和严谨性,这对AI系统提出了极高要求。
近年来,IMO已成为AI模型挑战解决、推理数学问题的新目标,吸引了众多开源和闭源模型的参与。2024年,谷歌DeepMind的AlphaProof和AlphaGeometry 2系统,利用“形式语言”(人类专家首先将问题从自然语言翻译成形式语言,然后模型再进行证明),在2~3天的计算时间内,破解了6题中的4题,取得了银牌。
时隔一年,AI模型的数学推理能力又取得了惊人的进步。Gemini Deep Think直接从官方问题描述中生成严格的数学证明,并完美破解6道题中的5道——所有这些都在4.5小时的比赛时限内完成,且得到了IMO组委会的官方认证。
“我们可以确认,谷歌DeepMind已经达到了人们所期望的里程碑,获得了42分中的35分(金牌分数)。他们的解决方案令人惊讶,IMO评分专家们认为解法清晰、精确且大多数易于理解。”IMO主席Gregor Dolinar教授表示。
根据DeepMind团队介绍,Gemini Deep Think结合了平行思考在内的最新研究技术,这使模型可以同时探索和组合多个可能的解决方案,而不是追求单一的线性思维链。此外,研究团队还为Gemini提供了高质量的数学问题解答语料库,并在其说明中添加了一些关于如何应对IMO问题的一般提示和技巧。
研究团队和数学界保持合作,将向部分数学家提供Gemini Deep Think版本做进一步测试,逐渐构建能够解决更复杂和高级数学问题的AI。
“结合自然语言流畅性和严格推理能力(包括形式语言验证)的Agent将成为数学家、科学家、工程师等研究人员们的重要工具,推进人类知识进步,加快迈向AGI的道路。”研究人员表示。
盒子网