DeepSeek-V3 强在哪?

2024-12-29 16:21  9

0
0
免费使用
画布
|
大纲
为你推荐
# DeepSeek-V3 强在哪? ## 1. 性能出色 ### 1.1 超越其他顶尖模型 #### GPT-4o #### Claude 3.5 Sonnet ### 1.2 数学和代码生成表现突出 ## 2. 训练成本低 ### 2.1 仅需600万美元 ### 2.2 高性价比 ## 3. 开源 ### 3.1 全球开发者免费使用和测试 ## 4. 公司背景 ### 4.1 中国幻方量化公司开发 ### 4.2 基于自研MoE模型 ## 5. 技术架构 ### 5.1 MoE架构(混合专家技术) #### 5.1.1 671亿个参数 #### 5.1.2 每次仅需37亿个参数工作 ### 5.2 多头潜在注意力(MLA) #### 5.2.1 信息过滤器 ### 5.3 无辅助损失的负载平衡策略 #### 5.3.1 确保专家间工作量均衡 ### 5.4 多令牌预测训练目标 #### 5.4.1 提高预测能力和数据效率 ## 6. 训练技术 ### 6.1 2048个NVIDIA H800 GPU ### 6.2 DualPipe算法 #### 6.2.1 计算通信重叠 #### 6.2.2 跨节点全对全通信 ### 6.3 FP8技术 #### 6.3.1 更小的数字代替大数字 #### 6.3.2 节省内存空间 ## 7. 预训练 ### 7.1 数据建设 #### 7.1.1 14.8万亿个高质量数据点 ### 7.2 超参数调整 #### 7.2.1 学习率设置 ### 7.3 长上下文扩展 #### 7.3.1 YaRN技术 ### 7.4 评估基准 #### 7.4.1 MMLMU-Pro #### 7.4.2 GPQA-Diamond ### 7.5 消融研究 #### 7.5.1 无辅助损失的负载平衡策略 ### 7.6 辅助无损耗平衡策略 ## 8. 后训练 ### 8.1 监督微调(SFT) #### 8.1.1 150万个实例训练集 ### 8.2 强化学习(RL) #### 8.2.1 专家模型 ### 8.3 拒绝采样 #### 8.3.1 挑选最佳示例 ### 8.4 生成奖励模型 #### 8.4.1 正向反馈机制 ## 9. 基准测试 ### 9.1 数学推理 #### 9.1.1 MATH-500:90.2分 #### 9.1.2 MGSM:79.8分 #### 9.1.3 CMath:90.7分 ### 9.2 编程和编码能力 #### 9.2.1 LiveCodeBench:37.6% #### 9.2.2 HumanEval-Mul:82.6% #### 9.2.3 CRUXEval-I:67.3% ### 9.3 多语言和非英语任务 #### 9.3.1 CMMLU:88.8分 #### 9.3.2 C-Eval:90.1分 ## 10. 训练成本 ### 10.1 557.6万美元 ### 10.2 远低于Llama 3.1的5亿美元 ## 11. 行业影响 ### 11.1 人工智能领域的新变革 ### 11.2 高效、省力、省成本 ### 11.3 OpenAI前首席科学家Andrej Karpathy的认可
作者其他创作

    AI脑图#362090

    去主页