资源库_MindSea | AI思维导图官网

DeepSeek-V3 强在哪？

2024-12-29 16:21 400

免费使用

画布

大纲

为你推荐

# DeepSeek-V3 强在哪？ ## 1. 性能出色 ### 1.1 超越其他顶尖模型 #### GPT-4o #### Claude 3.5 Sonnet ### 1.2 数学和代码生成表现突出 ## 2. 训练成本低 ### 2.1 仅需600万美元 ### 2.2 高性价比 ## 3. 开源 ### 3.1 全球开发者免费使用和测试 ## 4. 公司背景 ### 4.1 中国幻方量化公司开发 ### 4.2 基于自研MoE模型 ## 5. 技术架构 ### 5.1 MoE架构（混合专家技术） #### 5.1.1 671亿个参数 #### 5.1.2 每次仅需37亿个参数工作 ### 5.2 多头潜在注意力（MLA） #### 5.2.1 信息过滤器 ### 5.3 无辅助损失的负载平衡策略 #### 5.3.1 确保专家间工作量均衡 ### 5.4 多令牌预测训练目标 #### 5.4.1 提高预测能力和数据效率 ## 6. 训练技术 ### 6.1 2048个NVIDIA H800 GPU ### 6.2 DualPipe算法 #### 6.2.1 计算通信重叠 #### 6.2.2 跨节点全对全通信 ### 6.3 FP8技术 #### 6.3.1 更小的数字代替大数字 #### 6.3.2 节省内存空间 ## 7. 预训练 ### 7.1 数据建设 #### 7.1.1 14.8万亿个高质量数据点 ### 7.2 超参数调整 #### 7.2.1 学习率设置 ### 7.3 长上下文扩展 #### 7.3.1 YaRN技术 ### 7.4 评估基准 #### 7.4.1 MMLMU-Pro #### 7.4.2 GPQA-Diamond ### 7.5 消融研究 #### 7.5.1 无辅助损失的负载平衡策略 ### 7.6 辅助无损耗平衡策略 ## 8. 后训练 ### 8.1 监督微调（SFT） #### 8.1.1 150万个实例训练集 ### 8.2 强化学习（RL） #### 8.2.1 专家模型 ### 8.3 拒绝采样 #### 8.3.1 挑选最佳示例 ### 8.4 生成奖励模型 #### 8.4.1 正向反馈机制 ## 9. 基准测试 ### 9.1 数学推理 #### 9.1.1 MATH-500：90.2分 #### 9.1.2 MGSM：79.8分 #### 9.1.3 CMath：90.7分 ### 9.2 编程和编码能力 #### 9.2.1 LiveCodeBench：37.6% #### 9.2.2 HumanEval-Mul：82.6% #### 9.2.3 CRUXEval-I：67.3% ### 9.3 多语言和非英语任务 #### 9.3.1 CMMLU：88.8分 #### 9.3.2 C-Eval：90.1分 ## 10. 训练成本 ### 10.1 557.6万美元 ### 10.2 远低于Llama 3.1的5亿美元 ## 11. 行业影响 ### 11.1 人工智能领域的新变革 ### 11.2 高效、省力、省成本 ### 11.3 OpenAI前首席科学家Andrej Karpathy的认可

人工智能深度学习开源技术

作者其他创作

AI脑图#362090

去主页

DeepSeek-V3 强在哪？

战略概与战略管理概述

未命名文件

金属化合物核心性能特点及Fe₃C渗碳体实例解析

中华人民共和国宪法·国家机构

中移国耘农业智能科技（哈尔滨）有限公司（示例用名）靶向服务规划

南邵项目工作计划

云南地州全维度二甲/三甲普通话实用教学体系

1.心理咨询师理论-心理学导论

寿险行业合规管控

寿险行业合规管理

《稻草人》

热力学第一定律

AI脑图#362090