失效链接处理 |
强化学习(fn)在自然语a处理下的应用?PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一、强化学?fn)基?/strong>
1.1 介绍一下强化学?fn)?/strong>
强化学习(fn)Q?/span>Reinforcement LearningQ是一U时序决{学?fn)框Ӟ通过体和环境交互
1.2 介绍一下强化学??状态(StatesQ??观测Q?/strong>ObservationsQ?
• 状态(StatesQ:(x)对于世界状态的完整描述
• 观测Q?/span>ObservationsQ:(x)对于一个状态的部分描述Q可能会(x)~失一些信息。当O=SӞU?/span>O为完信?/span>/fully
observedQ?/span>O<SӞU?/span>O为非完美信息/partially observed?/span>
1.3 强化学习(fn) 有哪?动作I间Q?/strong>Action SpacesQ,他们之间的区别是什么?
• L动作I间Q当体只能采取有限的动作Q如下棋/文本生成
• q箋(hu)动作I间Q当体的动作是实数向量,如机械臂转动角度
其区别会(x)影响policy|络的实现方式?/span>
1.4 强化学习(fn) 有哪?/strong> Policy{略Q?/strong>
• 定性策?/span>Deterministic PolicyQ?/span> at = u(st)Q连l动作空?/span>
• 随机性策?/span>Stochastic PolicyQ?/span> at ~ π(·|st) Q离散动作空?/span>
|