跳到主要内容

SDSC6007

动态规划与强化学习

📘 简介

本课程介绍动态规划的基础模型和解决技术,以及强化学习的框架,通过自主智能体与环境的交互学习做出近乎最优的决策。课程涵盖动态规划与强化学习的核心内容,包括马尔科夫决策过程、价值函数、蒙特卡洛估计、时间差分学习和函数逼近。

🔗 相关链接


🎯 学习目标

完成课程后,学生将能够:

✔️ 阐释动态规划和强化学习的基本思想、概念及原理;

✔️ 解释最优控制、动态规划及强化学习的理论与求解方法;

✔️ 将实际问题建模为动态规划/强化学习问题,并实现正确的求解器;

✔️ 将动态规划和强化学习技术应用于实际问题。


📊 评估方式

评估项目权重具体描述
📝 课程项目30%完成强化学习与动态规划的课程项目,包括报告和展示。
🖥️ 作业20%解决动态规划与强化学习问题的书面作业。
📄 期中考试20%评估学生对课程核心概念和算法的理解与应用能力。
📄 期末考试30%2小时书面考试,涵盖课程主要内容和应用。

💬 课程评价

精选评价

“期待你的评价。”

—— CityU


💡 加入讨论

在下方评论分享您的评价、问题或经验👇