发布于 11 天前
AI 摘要
本文介绍强化学习基础概念和多臂老虎机问题。首先分析强化学习框架中的智能体与环境交互机制,重点阐述状态、动作、策略函数等基本要素。然后详细讨论多臂老虎机问题的数学模型和评估指标,系统讲解ϵ-贪婪算法、上置信界算法和汤普森采