您现在的位置是:首页 >技术交流 >强化学习系列之Policy Gradient算法网站首页技术交流

强化学习系列之Policy Gradient算法

一夜了 2024-06-19 13:56:33
简介强化学习系列之Policy Gradient算法

一. 背景

1.1 基础组成部分

  • 强化学习里面包含三个部件:Actor,environment,reward function
    在这里插入图片描述

  • Actor : 表示角色,是能够被玩家控制的。

    • Policy of Actor:在人工智能中,Policy π pi π 可以表示为一个神经网络,参数为 θ heta
风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。