
朋友圈
今天
朋友圈盛传
Grok-3已经证明了黎曼猜想。暂且不论这条消息的真实性或严谨性如何,假设它确实为真(当然,这种级别的数学证明通常需要顶尖
专家团队花时间审查和验证),但这件事却引发了我对
AI技术发展的一些思考。在过去的这些年里,市场上一直存在一种普遍的认知:如果连如此复杂的难题都能被解决,那么其他相对简单的问题岂不是易如反掌?类似的观点我们已经听过很多次了。例如AlphaGo在围棋领域的突破、AlphaFold对蛋白质结构预测的贡献,以及AlphaStar通过强化学习(RL)攻克星际争霸等案例。这些成就让人们相信,既然这些极其困难的任务都能被成功解决,那么其他任务自然也应该毫无悬念地迎刃而解。然而事实真的如此吗?实际上,情况远比想象中复杂得多。尽管AlphaFold已经在蛋白质结构预测方面取得了巨大进展,但我们是否看到了一个真正普适化的、能够广泛应用于药物研发的
AI平台CRO?并没有。围棋问题解决了,但我们是否因此获得了能够在通用场景下运行的人工智能策略或世界模型?也没有。至于AlphaStar,星际争霸中的表现固然令人印象深刻,但我们是否因此迎来了真正的开放世界游戏革命?答案依旧是否定的。这些问题并非无法实现,而是存在着关键的技术瓶颈。具体来说,这些系统是否能达到99.9%甚至更高的可靠性?如果达不到这样的高标准,它们就只能被视为辅助工具,而非替代方案。从经济学角度来看,这是完全不同的两个概念。我一直强调的大规模严肃模型研究,正是基于这一点展开的。比如在NL2SQL领域,即便经过诸多努力,我们的系统仍然难以达到接近100%的准确率。更何况其他更加复杂的任务?目前所有大模型的实际应用几乎都停留在辅助层面。以Cursor为例,这款产品无疑是非常出色的,其数据处理能力和设计理念堪称一流,深受程序员喜爱。但即便如此,它也仅限于辅助功能,并未实现彻底的自动化或智能化。这种现象背后的原因可以从科研与工程的不同逻辑来理解。在科学研究中,只要证明了一种新方法可以解决过去无法解决的问题,就已经是一种重大进步,值得尊重。科研的核心目标是推动前沿边界向前迈进,而不必考虑其他具体应用场景。然而,在实际落地和商业化过程中,仅仅满足科研逻辑是不够的。此时需要更多关注的是产品市场契合度(PMF)、不确定性控制、稳定性与鲁棒性等问题。换句话说,我们要明确自己的目标是什么——是为了达到90%的效果作为辅助工具,还是追求更高级别的替代性乃至全自动化解决方案?如果是后者,那么我们需要付出多少成本,又有哪些局限性和边界条件?综上所述,面对任何复杂的挑战,我们都不能轻易将其简化处理。无论是在理论探索还是实际应用中,都需要综合考虑多方面的因素,才能真正实现技术的价值最大化。