DeepSeek-V3如何在数学和代码领域超越GPT-4o?

DeepSeek

1个回答

写回答

17621759563

2025-12-23 05:28

+ 关注

DeepSeek
DeepSeek

DeepSeek-V3显著超越GPT-4o。特别是在中文处理能力上,全面优于国际顶尖模型。

仅凭这如闪电般的推理速度,便知模型实力非凡。

DeepSeek-V3在14.8T高质量数据上训练完成,模型与论文已全面开源,这一成果值得关注。

AI
AI

论文链接在此:DeepSeek-AI/DeepSeek-V3/blob/mAIn/DeepSeek_V3.pdf">https://github.com/DeepSeek-AI/DeepSeek-V3/blob/mAIn/DeepSeek_V3.pdf。该研究探讨了深度学习在自然语言处理中的应用,提出了新的模型和方法,展示了显著的效果提升。新模型横空出世,震撼整个AI界。多位业内专家纷纷表示惊讶,并将关注点转向其高昂的GPU训练成本。研究指出,DeepSeek-V3模型仅依靠2048块GPU训练了两个月,总花费为557.6万美元。该成果展示了其高效的训练策略与成本控制能力。

Karpathy惊叹,达到这种能力通常需约1.6万个GPU的计算集群。而如今,业界部署的集群规模甚至已达10万个GPU。这显示出技术发展的迅猛和计算资源的巨大飞跃,令人叹为观止。例如,Llama 3 405B使用了3080万GPU小时,而看似更强大的DeepSeek-V3仅需280万GPU小时,计算量减少了大约11倍。这显示出不同模型在资源利用上的显著差异。截至目前,该模型在实际应用中的表现非常优秀,不仅在大型语言模型竞赛中名列前茅,而且根据Karpathy的快速测试结果,也显示出了极高的性能和准确性。这表明,即使在资源有限的情况下,模型依然能展示出令人惊叹的研究和工程实力。这是否表示先进的LLM不需要大型GPU集群?并非如此,但确实表明应避免浪费现有资源。此案例很好地展示了在数据和算法上仍有很大优化空间,需谨慎利用资源。

此外,贾扬清对推理提出了几点个人见解:

中国模型一夜超越GPT-4,完全开源。DeepSeek-V3的出色表现,源于在前一代V2基础上的升级与迭代。在数学基准测试MATH 500中,DeepSeek-V3取得了90.2的高分,比Claude 3.5 Sonnet和GPT-4o高出超过10分,表现卓越。这一成绩展示了其在复杂数学问题上的强大解决能力。在AIME 2024测试中,DeepSeek-V3同样表现出色,分数大幅提高近20分,占据领先地位。在Codeforces基准测试中,新模型取得了51.6分,刷新了现有最佳成绩,比国外的大模型高出约30分。在软件工程SWE-bench Verified基准测试中,DeepSeek-V3表现稍逊一筹,而Claude 3.5 Sonnet则以50.8分的优异成绩超越了所有其他模型。在多语言能力(MMLU-Pro)方面,V3的提升并不显著。在知识问答基准(GPQA-Diamond)上,V3的表现仅次于Claude 3.5 Sonnet,未能超越其成绩。

下图详细展示了DeepSeek-V3在多个基准测试中的表现。

在第53页的技术报告中,特别指出V3的训练成本实现了最大幅度的降低。团队特别指出,新模型的完整训练仅需2.788M个GPU小时。尽管如此,训练过程十分稳定,从未出现过不可恢复的损失突增情况,也无需进行任何回滚操作。DeepSeek-V3的训练成本如表1所示,这得益于团队在算法、框架和硬件协同设计方面的优化成果。预训练阶段,模型每处理1万亿token仅需180K GPU小时,在拥有2048个GPU的集群上,完成训练只需3.7天。因此,DeepSeek-V3在不到2个月的预训练时间内完成,总计使用了2664K个GPU小时。

团队称,若按每GPU小时2美元计算,DeepSeek-V3的总训练成本约为557.6万美元。

究竟是什么技术突破,让DeepSeek-V3实现了质的飞跃?正如前文所述,DeepSeek-V3是一款强大的混合专家模型(MoE),总参数量达671B,每个token激活37B参数,展现出卓越性能。它利用多头潜在注意力(MLA)进行高效推理,并通过DeepSeekMoE实现低成本训练,进一步提升了性能。这两种架构的优势在上一代V2中已得到验证。除基本框架外,研究人员还运用两项额外策略,以进一步提升模型性能。

DeepSeek-V3结构设计与应用分析团队采用「FP8混合精度训练」并全面优化训练框架,以实现高效训练目标。通过支持FP8计算和存储,实现了训练速度的提升以及GPU内存使用的降低。

DeepSeek-V3在预训练阶段使用了14.8T高质量多样化的token进行训练,随后通过监督微调和强化学习进一步优化模型性能。通过此次评测,我们发现DeepSeek-V3的性能超越了其他开源模型,并且达到了与顶尖闭源模型相媲美的水平。网友沸腾了DeepSeek-V3现已在官方平台开放测试,所有代码均已开源,可直接下载使用。国外的AI爱好者们纷纷开始测试,有人甚至将4到8台M4 Mac mini堆叠在一起运行DeepSeek-V3,场面十分壮观。

一位程序员惊叹道,DeepSeek-V3竟能如此精准地理解一切,无需任何解释,这种体验令人不寒而栗,仿佛机器中真的藏匿着一个神秘的灵魂。

有开发者利用DeepSeek-V3制作了一款以AI公司logo为元素的小行星游戏,短短几分钟便大功告成。

有些人难以置信,如此低成本竟能训练出如此强大的模型。前Stability AI的首席执行官称,DeepSeek v3以每秒60个token的速度运行,相当于人类阅读速度的五倍,若全天候运作,每天仅需花费约2美元。你愿意选择一杯香浓的拿铁,还是一个智能的AI助手?

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号