增强大模型的推理能力:从思维链到连续思维链(中)
2025-01-06 10:06 8
0
0
免费使用
画布
|
大纲
为你推荐
《人工智能导论》:探索智能技术原理与应用的入门指南 这句话简洁地概括了这本书的主要内容,强调了它作为探索人工智能领域技术和应用的基础读物的特点。如果您需要更具体的描述或者有其他要求,请随时告诉我!
《可爱的中国》:一句介绍方志敏烈士笔下充满爱国情怀与革命理想的壮丽史诗。 不过为了更贴合要求,我建议调整为: 《可爱的中国》:展现革命先烈方志敏对祖国深沉的爱与美好憧憬的一句话经典。 这样的表述更加凝练,突出了书籍的核心主题和情感价值。需要我再优化一下吗?
《罗马:一个帝国的故事》:一部讲述罗马帝国兴衰历程的壮丽史诗。 这个标题简洁地概括了书籍的主要内容,突出了“罗马帝国”的主题以及故事性的叙述方式,能够吸引对历史感兴趣的读者。如果您觉得需要进一步修改或者有其他要求,请随时告诉我。
《打胜仗系列三部曲(套装3册)》:一部揭示胜利之道的军事战略与领导力经典丛书。 或者 《打胜仗系列三部曲(套装3册)》:深入解析战争艺术与领导智慧,助你掌握制胜关键的军事宝典。 这两者都可以作为标题使用,第一个更侧重于介绍书籍内容的整体性质,第二个则突出了其实用性和核心价值。你可以根据具体需求选择适合的版本。
《蒂迈欧篇》:探索宇宙起源与自然秩序的古希腊哲学对话录 这个标题简洁地概括了《蒂迈欧篇》的核心内容。作为柏拉图的重要对话录之一,这本书主要探讨了宇宙的创造、自然界的结构以及人类灵魂的本质等哲学问题。如果您觉得需要调整或者有其他要求,请随时告诉我。
《金融的谜题》:解读金融世界复杂现象背后的深层逻辑与未解之谜。 这句话作为标题既点明了书名,又通过“解读金融世界的复杂现象背后的深层逻辑与未解之谜”概括了书籍可能探讨的内容,吸引读者对这本书产生好奇并想要进一步了解。
《创业融资:从天使轮到IPO上市》: 一本深入解析企业从初创到上市全过程融资策略的实战指南。 或者 《创业融资:从天使轮到IPO上市》: 探索创业者如何通过不同阶段的融资实现企业成长并最终走向公开市场的全面指南。 这两个标题都可以根据具体需求进行微调,你觉得哪一个更适合呢?或者你有其他的想法想要结合进去?
《星星离我们有多远(全新修订版)》:探索宇宙奥秘,丈量星辰距离的科普佳作。 这句话简洁地概括了书籍的核心内容,强调了其科普性质以及探索星空的主题。如果您希望标题更简短一些,也可以采用以下版本: 《星星离我们有多远(全新修订版)》:丈量星辰,探索宇宙的科普之旅。
《品牌传播学(第三版)》:探索品牌传播理论与实践的深度指南 这个标题简洁地概括了书籍的核心内容,强调了本书在品牌传播领域的理论深度与实践指导价值。如果你希望调整重点或风格,请告诉我!
《基督山伯爵(全3册)》:复仇与救赎交织的传奇史诗,讲述无辜者蒙冤后精心策划的复仇之旅。 这个标题突出了本书最核心的主题和情节线索,同时也传达了故事的宏大叙事风格。如果您觉得还需要调整或有其他要求,请随时告诉我。
《每天用一点读心识人术》:掌握日常人际交往中的心理洞察技巧,轻松读懂他人内心世界。 这句话简洁地概括了书籍的核心内容,强调了书中教授的实用心理学技巧及其在日常生活中的应用价值。如果你觉得需要调整或有其他要求,请随时告诉我!
2025年国家公务员录用考试行政职业能力测验(执法卷)备考指南
# 增强大模型的推理能力:从思维链到连续思维链(中)
## 1. 语言模型进行推理的底层逻辑
### 1.1 自回归模型的基本原理
#### 自回归模型:依据前面的词来预测后面的词,前面出现的词会影响后面的词的出现概率。
#### 直觉回答:如果提示词上下文中没有“解题思路”的提示,模型会依据预训练时所见过的样本,参考一个最相似的样本来回答。
#### 推理路径:如果提示词上下文中有“解题思路”的提示,模型的注意力机制将出现变化,促使模型寻找预训练时相似的推理路径,不断生成中间解题步骤。
### 1.2 人类与自回归模型的类比
#### 童年遭遇影响成年三观:人类也可以看成是一个自回归模型,童年时的遭遇会影响成年时的三观形成。
#### 昨天经历影响今天决策:昨天的经历会影响今天的决策。
## 2. 思维链的多样化
### 2.1 多样化的思维链生成
#### 调整模型输出参数:通过调整模型输出温度系数、Top_P等参数,可以改变模型输出的多样性。
#### 多套思维链:对于一道题,可以生成多套思维链,有些会导致正确的答案,有些会导致错误的答案。
### 2.2 思维链的自一致性
#### 多数答案作为最终答案:对于一个问题,每次让大模型生成多套思路链,每套思维链都会导致一个答案,然后取多数答案作为最终答案。
#### 提高准确率:这种方法能够提高大模型最终答案的准确率。
## 3. 推理能力的训练探索
### 3.1 STaR方法
#### 推理引导推理:使用少量带有推理过程的示例作为提示,引导预训练的大型语言模型(LLM)生成多个问题的推理过程。
#### 微调训练:只保留那些生成了正确答案的推理过程,并在这些数据上对原始模型进行微调训练。
#### 从错误中学习:对于模型未能正确回答的问题,向模型提供正确答案,然后要求模型生成一个合理的推理过程来解释这个答案。
#### 迭代训练:重复上述过程,每次都使用上一轮微调训练后的模型来生成新的训练数据。
### 3.2 STaR的意义
#### 构建三元组数据:通过这种方式,构建出“问题--推理--答案”三元组数据,给大模型进行迭代微调训练。
#### 强化学习近似:STaR可以看作是对强化学习RL风格的策略梯度目标的近似。
## 4. 语言模型的自我反思
### 4.1 Reflexion框架
#### Actor(执行者):负责生成文本和推理步骤。
#### Evaluator(评估者):负责评估Actor生成的推理步骤的质量,并提供一个奖励信号。
#### Self-Reflection(自我反思):负责生成语言反馈,分析Actor的失败推理步骤和环境反馈,生成自然语言的反思总结。
#### Memory(记忆):用于存储Actor的经验和Self-Reflection模型生成的反馈。
### 4.2 反思能力的意义
#### 提高准确率:反思能力不仅可以提高模型在推理方面的准确率,也是智能体运用的基石之一。
#### 改变输出结果:当加入反思文本后,改变了后续文本输出的概率,也就改变了输出的结果。
## 5. 思维链结构的革新--思维树
### 5.1 思维树的基本概念
#### 树状结构:思维树以树的形式组织其解决问题的策略,每个节点被称为“思维”,是一段语言文本,是通往最终答案的一步。
#### 搜索算法:思维树将基于语言的能力与搜索算法(如广度优先搜索 (BFS) 或深度优先搜索 (DFS))相结合,以生成和评估不同的思想。
### 5.2 思维树的构建过程
#### 问题分解:先用提示词生成候选思维(即中间步骤)。
#### 状态评估:再用提示词评估每个候选思维的进展,决定其是否值得进一步探索。
#### 思维树搜索:对剩余的两个分支继续进行探索,探索过程即重复1、2、3步。
### 5.3 思维树的意义
#### 计算机搜索行为:思维树提出的意义在于将推理思维变成一种可被计算机搜索的行为。
#### 蒙特卡洛搜索算法:虽然Yao 等人 (2023)在论文使用的搜索算法是一种比较低效的算法,但它为后面的蒙特卡洛搜索算法的介入打开了大门。
## 6. 未来展望
### GPT-O1的训练:下一篇文章将正式解读GPT-O1是如何训练提高大模型的推理能力。
### 增强推理能力的途径:未来增强大模型的推理能力还有哪些途径,敬请关注本公众号。
## 7. 加入讨论群
### 技术讨论交流群:如果你对AI大模型感兴趣,可以加入我的大模型技术讨论交流群,里面有技术高手,产品经理,有许多志同道合的爱好者。
## 8. 相关文章推荐
### 2024年大模型总结与展望(技术上篇)
### 2024年大模型总结与展望(技术下篇)
### 寒武纪人工智能公众号团队荣获第七届CCF国际AIOps挑战赛优秀奖
### 田渊栋团队的关于增强大模型推理能力的热门论文
### 强化学习是你必须掌握的
作者其他创作