授课教师:王健楠 (清华大学计算机系) | 2026年春季学期
在本次期末大作业中,我们希望每位同学都能将自己视为一名真实世界的数据科学家。你们的目标是基于本课程所学的底层数据思维与系统能力,提出有价值的数据驱动问题,寻找合适的数据集,并实现一套完整的数据流水线来回答这些问题。
为了实现这一目标,请严格按照以下步骤进行:
本课程鼓励大家在项目全过程中合理使用生成式 AI 工具(如 ChatGPT、Claude、GLM、Cursor 等)辅助完成大作业,包括选题讨论、编程支持、文档润色和视频制作。
但请注意,AI 只是辅助工具,不能代替你本人对项目内容的理解和把关。期末项目的代码、报告和视频将公开发布在课程网站上,因此你需要对所有提交内容负最终责任。
1. 不要直接照搬:不得未经核实、理解和修改,直接提交 AI 生成的内容;
2. 代码必须讲得清:对于 AI 辅助生成的代码,你必须真正理解其逻辑,并能够在答辩中清楚说明;
3. 结论必须经得起推敲:对于 AI 辅助生成的文本、数据分析和结论,你必须自行核查其真实性、科学性和严谨性。
下表总结了期末大作业的核心任务节点。
| 编号 | 任务项 | 截止时间 | 任务要求 |
|---|---|---|---|
| 1 | 开题报告 | 2026年04月30日 | 提交项目选题及数据获取方案 |
| 2 | 中期汇报 | 2026年05月21日 | 课堂进行里程碑进度展示 |
| 3 | 最终汇报 | 2026年06月11日 | 课堂进行期末成果展示与答辩 |
| 4 | 最终提交 | 2026年06月17日 | 提交代码、视频和技术报告 |
为了评估你的项目选题是否优秀,请在确定题目时思考以下三个问题:
一个优秀的期末项目应该兼具重要性、挑战性,并且能够促使你主动学习未知的知识领域。
请注意,大作业的核心在于展示你们的数据基础能力。你需要对数据进行深度分析。这里的深度分析是指,你必须对分析结果进行深入和严谨的思考,并能够汇报出富有洞察力且绝对可靠的发现。
选择具有研究价值的数据驱动问题是成功的第一步。你的开题报告应包含以下四个部分:
1. 研究问题 (2分)
建议从以下三个方向中选择一个:
2. 使用的数据集 (2分)
必须使用真实世界场景的数据,严禁使用已经清洗好的“玩具数据集”。数据集的数量要求 2个及以上,以充分体现多源数据集成和处理的真实挑战。
3. 数据流水线设计 (2分)
简要说明计划如何使用这些数据集来解决提出的问题。方案中必须包含实质性的数据处理环节(如DataFrame操作、SQL 查询)。
4. 项目潜在影响力 (2分)
设想一旦该项目完成,它能产生什么实际影响。挑选出最核心的1-2点并将其写下来。
最终注意事项
你可以将这次汇报视为项目执行过程中的中期进度检查。汇报内容应包含以下四个部分:
1. 研究动机 (2分)
2. 相关工作 (2分)
3. 进度汇报 (6分)
4. 后续计划 (2分)
沟通表达考核 (8分)
沟通表达能力至关重要。请利用这次机会好好锻炼你们的学术表达能力。你需要用通俗易懂的方式向大家解释复杂的项目逻辑,并让听众对你们的工作产生兴趣。请在准备时问自己以下问题:
其它注意事项
课程最后将在课堂上统一进行期末成果验收与答辩。
以下是要求涵盖在 PPT 中的核心模块:
评分细则
1. 项目执行情况 (10分)
2. 汇报表现情况 (10分)
注意事项
代码库规范 (7分)
项目必须使用 Git 代码托管平台(如 GitHub)管理项目。在代码仓库的根目录下,请务必包含一份高质量的 README.md 文件,详细说明我们应当如何配置环境并实际测试你们的项目,以及代码走查时的注意事项。
技术总结报告 (7分)
期末需提交一份全面概述项目成果的最终报告。该报告字数要求不少于 2500 字,并严格遵循以下结构撰写:
成果演示视频 (6分)
请制作一段精炼、吸引人的视频来直观向大众推广你们的工作。视频请提交到bilibili, 具体要求如下:
你们可以从 KDD 2017 宣传视频 和 KDD 2018 宣传视频 中获取视频制作的灵感与思路。
材料统一提交
我们将在课程官方网站上展示大家的优秀成果。请各组在指定截止日期前,将:项目名称、项目摘要、完整版报告、代码库链接以及演示视频链接统一提交。
期待看到大家高质量的项目成果!
任何疑问,请随时在网络学堂论坛中交流。