SDSC6009

大规模机器学习

本课程教授开发适用于结构化和非结构化数据的大规模机器学习管道的基础原理，覆盖大数据环境下的机器学习流程扩展方法，包括 MapReduce 并行计算原理与 Spark 环境中的算法设计与开发。学生将学习在广告、金融、医疗、搜索引擎等领域应用并行计算框架进行工业级大规模学习模型的设计与部署。

🔗 相关链接

完成课程后，学生将能够：

✔️ 阐述可扩展机器学习与并行计算的原理；

✔️ 讨论大数据管理工具及其生态系统；

✔️ 设计并开发并行计算与大规模机器学习算法；

✔️ 评估、比较并选择适合的可扩展学习模型；

✔️ 应用并行计算框架于工业实践。

评估项目	权重	具体描述
🖥️ 小组项目	40%	通过团队合作设计和实现大规模机器学习解决方案，包括报告与展示。
📝 个别作业	25%	通过个别任务巩固课程内容，包括编程实践与理论应用。
📄 考试	35%	2小时书面考试，评估学生对课程核心内容的理解与应用。