DeepSeek-V3如何在数学和代码领域超越GPT-4o？

DeepSeek

1个回答

写回答

17621759563

2025-12-23 05:28

+ 关注

DeepSeek

DeepSeek-V3显著超越GPT-4o。特别是在中文处理能力上，全面优于国际顶尖模型。

仅凭这如闪电般的推理速度，便知模型实力非凡。

DeepSeek-V3在14.8T高质量数据上训练完成，模型与论文已全面开源，这一成果值得关注。

论文链接在此：DeepSeek-AI/DeepSeek-V3/blob/mAIn/DeepSeek_V3.pdf">https://github.com/DeepSeek-AI/DeepSeek-V3/blob/mAIn/DeepSeek_V3.pdf。该研究探讨了深度学习在自然语言处理中的应用，提出了新的模型和方法，展示了显著的效果提升。新模型横空出世，震撼整个AI界。多位业内专家纷纷表示惊讶，并将关注点转向其高昂的GPU训练成本。研究指出，DeepSeek-V3模型仅依靠2048块GPU训练了两个月，总花费为557.6万美元。该成果展示了其高效的训练策略与成本控制能力。

Karpathy惊叹，达到这种能力通常需约1.6万个GPU的计算集群。而如今，业界部署的集群规模甚至已达10万个GPU。这显示出技术发展的迅猛和计算资源的巨大飞跃，令人叹为观止。例如，Llama 3 405B使用了3080万GPU小时，而看似更强大的DeepSeek-V3仅需280万GPU小时，计算量减少了大约11倍。这显示出不同模型在资源利用上的显著差异。截至目前，该模型在实际应用中的表现非常优秀，不仅在大型语言模型竞赛中名列前茅，而且根据Karpathy的快速测试结果，也显示出了极高的性能和准确性。这表明，即使在资源有限的情况下，模型依然能展示出令人惊叹的研究和工程实力。这是否表示先进的LLM不需要大型GPU集群？并非如此，但确实表明应避免浪费现有资源。此案例很好地展示了在数据和算法上仍有很大优化空间，需谨慎利用资源。

此外，贾扬清对推理提出了几点个人见解：

中国模型一夜超越GPT-4，完全开源。DeepSeek-V3的出色表现，源于在前一代V2基础上的升级与迭代。在数学基准测试MATH 500中，DeepSeek-V3取得了90.2的高分，比Claude 3.5 Sonnet和GPT-4o高出超过10分，表现卓越。这一成绩展示了其在复杂数学问题上的强大解决能力。在AIME 2024测试中，DeepSeek-V3同样表现出色，分数大幅提高近20分，占据领先地位。在Codeforces基准测试中，新模型取得了51.6分，刷新了现有最佳成绩，比国外的大模型高出约30分。在软件工程SWE-bench Verified基准测试中，DeepSeek-V3表现稍逊一筹，而Claude 3.5 Sonnet则以50.8分的优异成绩超越了所有其他模型。在多语言能力（MMLU-Pro）方面，V3的提升并不显著。在知识问答基准（GPQA-Diamond）上，V3的表现仅次于Claude 3.5 Sonnet，未能超越其成绩。

下图详细展示了DeepSeek-V3在多个基准测试中的表现。

在第53页的技术报告中，特别指出V3的训练成本实现了最大幅度的降低。团队特别指出，新模型的完整训练仅需2.788M个GPU小时。尽管如此，训练过程十分稳定，从未出现过不可恢复的损失突增情况，也无需进行任何回滚操作。DeepSeek-V3的训练成本如表1所示，这得益于团队在算法、框架和硬件协同设计方面的优化成果。预训练阶段，模型每处理1万亿token仅需180K GPU小时，在拥有2048个GPU的集群上，完成训练只需3.7天。因此，DeepSeek-V3在不到2个月的预训练时间内完成，总计使用了2664K个GPU小时。

团队称，若按每GPU小时2美元计算，DeepSeek-V3的总训练成本约为557.6万美元。

究竟是什么技术突破，让DeepSeek-V3实现了质的飞跃？正如前文所述，DeepSeek-V3是一款强大的混合专家模型（MoE），总参数量达671B，每个token激活37B参数，展现出卓越性能。它利用多头潜在注意力（MLA）进行高效推理，并通过DeepSeekMoE实现低成本训练，进一步提升了性能。这两种架构的优势在上一代V2中已得到验证。除基本框架外，研究人员还运用两项额外策略，以进一步提升模型性能。

DeepSeek-V3结构设计与应用分析团队采用「FP8混合精度训练」并全面优化训练框架，以实现高效训练目标。通过支持FP8计算和存储，实现了训练速度的提升以及GPU内存使用的降低。

DeepSeek-V3在预训练阶段使用了14.8T高质量多样化的token进行训练，随后通过监督微调和强化学习进一步优化模型性能。通过此次评测，我们发现DeepSeek-V3的性能超越了其他开源模型，并且达到了与顶尖闭源模型相媲美的水平。网友沸腾了DeepSeek-V3现已在官方平台开放测试，所有代码均已开源，可直接下载使用。国外的AI爱好者们纷纷开始测试，有人甚至将4到8台M4 Mac mini堆叠在一起运行DeepSeek-V3，场面十分壮观。

一位程序员惊叹道，DeepSeek-V3竟能如此精准地理解一切，无需任何解释，这种体验令人不寒而栗，仿佛机器中真的藏匿着一个神秘的灵魂。

有开发者利用DeepSeek-V3制作了一款以AI 公司logo为元素的小行星游戏，短短几分钟便大功告成。

有些人难以置信，如此低成本竟能训练出如此强大的模型。前Stability AI的首席执行官称，DeepSeek v3以每秒60个token的速度运行，相当于人类阅读速度的五倍，若全天候运作，每天仅需花费约2美元。你愿意选择一杯香浓的拿铁，还是一个智能的AI助手？

举报有用（0）分享收藏

DeepSeek-V3如何在数学和代码领域超越GPT-4o？

1个回答

17621759563

热门话题

相关问题