DeepSeek V3 vs GPT-4: A Comprehensive Comparison

DeepSeek V3 凭借媲美 GPT-4 的基准测试成绩和极低的成本，在 AI 社区引起了广泛关注。但在实际应用中表现如何？

基准测试表现

DeepSeek V3 在 MMLU 上获得 88.5 分，在 HumanEval 上获得 89.0 分，与 GPT-4 处于同一水平。在 MATH 等数学基准测试中，它获得 90.2 分——在某些类别中实际上超过了 GPT-4。

这是 DeepSeek V3 真正闪光的地方。输入 token 仅需 $0.27/百万，而 GPT-4 为 $10/百万，成本降低约 97%。输出 token 同样实惠，$1.10/百万 vs $30/百万。

在我们的测试中，DeepSeek V3 在编程任务上表现出色。它能生成简洁、结构良好的代码，并处理复杂的调试场景。在涉及中英文的多语言任务中，它的表现优于 GPT-4。

GPT-4 在某些创意写作任务中仍有优势，在超长对话中保持更好的一致性。其插件和集成生态系统也更加成熟。

对于大多数生产工作负载——特别是涉及编程、推理或多语言任务的场景——DeepSeek V3 以显著更低的成本提供了可比的质量。