增强大模型的推理能力:从思维链到连续思维链(中)

2025-01-06 10:06  8

0
0
免费使用
画布
|
大纲
为你推荐
# 增强大模型的推理能力:从思维链到连续思维链(中) ## 1. 语言模型进行推理的底层逻辑 ### 1.1 自回归模型的基本原理 #### 自回归模型:依据前面的词来预测后面的词,前面出现的词会影响后面的词的出现概率。 #### 直觉回答:如果提示词上下文中没有“解题思路”的提示,模型会依据预训练时所见过的样本,参考一个最相似的样本来回答。 #### 推理路径:如果提示词上下文中有“解题思路”的提示,模型的注意力机制将出现变化,促使模型寻找预训练时相似的推理路径,不断生成中间解题步骤。 ### 1.2 人类与自回归模型的类比 #### 童年遭遇影响成年三观:人类也可以看成是一个自回归模型,童年时的遭遇会影响成年时的三观形成。 #### 昨天经历影响今天决策:昨天的经历会影响今天的决策。 ## 2. 思维链的多样化 ### 2.1 多样化的思维链生成 #### 调整模型输出参数:通过调整模型输出温度系数、Top_P等参数,可以改变模型输出的多样性。 #### 多套思维链:对于一道题,可以生成多套思维链,有些会导致正确的答案,有些会导致错误的答案。 ### 2.2 思维链的自一致性 #### 多数答案作为最终答案:对于一个问题,每次让大模型生成多套思路链,每套思维链都会导致一个答案,然后取多数答案作为最终答案。 #### 提高准确率:这种方法能够提高大模型最终答案的准确率。 ## 3. 推理能力的训练探索 ### 3.1 STaR方法 #### 推理引导推理:使用少量带有推理过程的示例作为提示,引导预训练的大型语言模型(LLM)生成多个问题的推理过程。 #### 微调训练:只保留那些生成了正确答案的推理过程,并在这些数据上对原始模型进行微调训练。 #### 从错误中学习:对于模型未能正确回答的问题,向模型提供正确答案,然后要求模型生成一个合理的推理过程来解释这个答案。 #### 迭代训练:重复上述过程,每次都使用上一轮微调训练后的模型来生成新的训练数据。 ### 3.2 STaR的意义 #### 构建三元组数据:通过这种方式,构建出“问题--推理--答案”三元组数据,给大模型进行迭代微调训练。 #### 强化学习近似:STaR可以看作是对强化学习RL风格的策略梯度目标的近似。 ## 4. 语言模型的自我反思 ### 4.1 Reflexion框架 #### Actor(执行者):负责生成文本和推理步骤。 #### Evaluator(评估者):负责评估Actor生成的推理步骤的质量,并提供一个奖励信号。 #### Self-Reflection(自我反思):负责生成语言反馈,分析Actor的失败推理步骤和环境反馈,生成自然语言的反思总结。 #### Memory(记忆):用于存储Actor的经验和Self-Reflection模型生成的反馈。 ### 4.2 反思能力的意义 #### 提高准确率:反思能力不仅可以提高模型在推理方面的准确率,也是智能体运用的基石之一。 #### 改变输出结果:当加入反思文本后,改变了后续文本输出的概率,也就改变了输出的结果。 ## 5. 思维链结构的革新--思维树 ### 5.1 思维树的基本概念 #### 树状结构:思维树以树的形式组织其解决问题的策略,每个节点被称为“思维”,是一段语言文本,是通往最终答案的一步。 #### 搜索算法:思维树将基于语言的能力与搜索算法(如广度优先搜索 (BFS) 或深度优先搜索 (DFS))相结合,以生成和评估不同的思想。 ### 5.2 思维树的构建过程 #### 问题分解:先用提示词生成候选思维(即中间步骤)。 #### 状态评估:再用提示词评估每个候选思维的进展,决定其是否值得进一步探索。 #### 思维树搜索:对剩余的两个分支继续进行探索,探索过程即重复1、2、3步。 ### 5.3 思维树的意义 #### 计算机搜索行为:思维树提出的意义在于将推理思维变成一种可被计算机搜索的行为。 #### 蒙特卡洛搜索算法:虽然Yao 等人 (2023)在论文使用的搜索算法是一种比较低效的算法,但它为后面的蒙特卡洛搜索算法的介入打开了大门。 ## 6. 未来展望 ### GPT-O1的训练:下一篇文章将正式解读GPT-O1是如何训练提高大模型的推理能力。 ### 增强推理能力的途径:未来增强大模型的推理能力还有哪些途径,敬请关注本公众号。 ## 7. 加入讨论群 ### 技术讨论交流群:如果你对AI大模型感兴趣,可以加入我的大模型技术讨论交流群,里面有技术高手,产品经理,有许多志同道合的爱好者。 ## 8. 相关文章推荐 ### 2024年大模型总结与展望(技术上篇) ### 2024年大模型总结与展望(技术下篇) ### 寒武纪人工智能公众号团队荣获第七届CCF国际AIOps挑战赛优秀奖 ### 田渊栋团队的关于增强大模型推理能力的热门论文 ### 强化学习是你必须掌握的
作者其他创作

    AI脑图#362090

    去主页