《数据库技术与应用》期末大作业

AI 时代的数据基础能力:大项目实践指南

授课教师:王健楠 (清华大学计算机系)   |   2026年春季学期

1. 项目概览¶

在本次期末大作业中,我们希望每位同学都能将自己视为一名真实世界的数据科学家。你们的目标是基于本课程所学的底层数据思维与系统能力,提出有价值的数据驱动问题,寻找合适的数据集,并实现一套完整的数据流水线来回答这些问题。

为了实现这一目标,请严格按照以下步骤进行:

  1. 组建一个 2-3 人的数据科学团队
  2. 确定项目选题并撰写开题报告
  3. 进行中期里程碑汇报
  4. 进行期末最终汇报
  5. 提交完整代码、演示视频及技术报告

💡 关于 AI 工具使用的特别声明

本课程鼓励大家在项目全过程中合理使用生成式 AI 工具(如 ChatGPT、Claude、GLM、Cursor 等)辅助完成大作业,包括选题讨论、编程支持、文档润色和视频制作。

但请注意,AI 只是辅助工具,不能代替你本人对项目内容的理解和把关。期末项目的代码、报告和视频将公开发布在课程网站上,因此你需要对所有提交内容负最终责任。
1. 不要直接照搬:不得未经核实、理解和修改,直接提交 AI 生成的内容;
2. 代码必须讲得清:对于 AI 辅助生成的代码,你必须真正理解其逻辑,并能够在答辩中清楚说明;
3. 结论必须经得起推敲:对于 AI 辅助生成的文本、数据分析和结论,你必须自行核查其真实性、科学性和严谨性。

2. 任务清单¶

下表总结了期末大作业的核心任务节点。

编号 任务项 截止时间 任务要求
1 开题报告 2026年04月30日 提交项目选题及数据获取方案
2 中期汇报 2026年05月21日 课堂进行里程碑进度展示
3 最终汇报 2026年06月11日 课堂进行期末成果展示与答辩
4 最终提交 2026年06月17日 提交代码、视频和技术报告

3. 选题思路指南¶

为了评估你的项目选题是否优秀,请在确定题目时思考以下三个问题:

  1. 它重要吗?(即:你的项目能否在科学研究或实际社会场景中产生真实影响?)
  2. 它具有挑战性吗?(即:面对复杂的真实数据,常规的简单方案是否难以轻易解决该问题?)
  3. 我能从这个项目中学到什么?(即:新工具、新技术、新领域知识或新方法论)。

一个优秀的期末项目应该兼具重要性、挑战性,并且能够促使你主动学习未知的知识领域。

请注意,大作业的核心在于展示你们的数据基础能力。你需要对数据进行深度分析。这里的深度分析是指,你必须对分析结果进行深入和严谨的思考,并能够汇报出富有洞察力且绝对可靠的发现。

4. 分步实施要求¶

环节一:开题报告 总分:8分¶

选择具有研究价值的数据驱动问题是成功的第一步。你的开题报告应包含以下四个部分:

1. 研究问题 (2分)

建议从以下三个方向中选择一个:

  • 人工智能驱动的科学发现:探索数据+AI技术如何赋能化学、物理、生命科学等领域的突破。
  • 特定领域的数据科学:针对金融、医疗、政务等特定领域,解决复杂场景下的数据建模与统计分析问题。
  • 基于大模型的数据应用:利用大模型辅助自然语言驱动的数据准备与统计分析。

2. 使用的数据集 (2分)

必须使用真实世界场景的数据,严禁使用已经清洗好的“玩具数据集”。数据集的数量要求 2个及以上,以充分体现多源数据集成和处理的真实挑战。

3. 数据流水线设计 (2分)

简要说明计划如何使用这些数据集来解决提出的问题。方案中必须包含实质性的数据处理环节(如DataFrame操作、SQL 查询)。

  • 数据获取: 从何处/如何获取数据?
  • 数据探索: 是否需要进行探索性数据分析以深入理解数据分布规律?
  • 数据清洗: 是否需要清洗噪声数据?计划采用什么方法?
  • 数据集成: 是否需要整合多源数据?计划采用什么方法?
  • 数据分析: 需要进行哪些深度分析?打算使用什么方法(SQL、统计分析、深度学习等)?
  • 结果评估:如何严谨地评估分析结果(如评估指标、置信区间、基准测试)?
  • 数据产品: 最终交付的数据产品是什么形态?(可视化图表、算法模型、交互式 Web 应用等)

4. 项目潜在影响力 (2分)

设想一旦该项目完成,它能产生什么实际影响。挑选出最核心的1-2点并将其写下来。

最终注意事项

  1. 请确保与团队成员进行充分讨论,并明确项目拟解决的核心问题。
  2. 每位同学需在系统中独立提交本组开题报告。
  3. 开题报告长度建议为1000字左右。

环节二:中期里程碑汇报 总分:20分¶

你可以将这次汇报视为项目执行过程中的中期进度检查。汇报内容应包含以下四个部分:

1. 研究动机 (2分)

  • 为什么这是一个重要的项目?价值何在?
  • 为什么它具有挑战性?

2. 相关工作 (2分)

  • 现有相关工作是如何处理该问题的?
  • 它们的局限性是什么,为什么你们需要提出新的解决方案?

3. 进度汇报 (6分)

  • 到目前为止你们完成了哪些工作?(如数据收集、初步洞察、可视化呈现等)
  • 哪些尝试奏效了?哪些没有?
  • 进度是否符合预期?你需要展示整个项目的规划甘特图或时间表,并明确指出当前所处的进度节点。

4. 后续计划 (2分)

  • 下一步计划做什么? 你需要展示项目剩余部分的详细日程表。
  • 如何降低风险? 你还需要讨论按时完成项目是否存在任何算力、算法或数据质量方面的风险,及相应的备用方案。

沟通表达考核 (8分)

沟通表达能力至关重要。请利用这次机会好好锻炼你们的学术表达能力。你需要用通俗易懂的方式向大家解释复杂的项目逻辑,并让听众对你们的工作产生兴趣。请在准备时问自己以下问题:

  • 是否做到了深入浅出地传达了复杂信息?(4分)
  • 是否成功激发了听众的热情和兴趣?(4分)

其它注意事项

  1. 善用AI获取演讲技巧建议,优化呈现效果。汇报前建议在组内进行多次带计时的全流程模拟排练。
  2. 请确保团队中每位成员都上台参与宣讲。每组汇报总时长应控制在30分钟!
  3. 汇报结束后,将有 5-10 分钟的问答环节。我可能会随机抽查组内的一名同学,要求其对自己负责部分的代码实现逻辑或架构设计细节进行深入说明。
  4. 每位同学均需提交小组PPT和代码库链接来展示阶段性成果。

环节三:期末最终汇报 总分:20分¶

课程最后将在课堂上统一进行期末成果验收与答辩。

以下是要求涵盖在 PPT 中的核心模块:

  • 研究动机:为什么要做这个项目?
  • 研究问题:试图解决什么具体问题?
  • 参考文献:有哪些相关工作可以参考?
  • 项目挑战:为什么你们的问题极具挑战性?
  • 解决方法:解决该问题的方法是什么?使用了哪些数据集和工具?
  • 实验评测:如何设计实验科学严谨地评估你们的方法?为什么说你们的方法是优秀的?为什么结论合理可信?
  • 系统演示:你们的数据科学工作流/系统架构是怎样的?最终交付的数据产品演示。
  • 收获感受:通过整个项目,你们学到了什么?
  • 未来工作:如果有更多时间,你们还计划做什么优化?

评分细则

1. 项目执行情况 (10分)

  • 数据科学工作流:工作流设计合理,逻辑严密闭环,能够有效解答所研究的问题。
  • 技术深度:对所使用的方法有深刻的理解与掌握,并应尽最大努力寻找或开发出最优的解决方案。
  • 评估与分析:得出具有洞察力和高度可靠的发现。需要设计并进行实验来评估模型质量或系统/算法的效率与可扩展性。应清楚知晓分析结果优劣的底层原因,并知道如何进一步迭代改进。

2. 汇报表现情况 (10分)

  • PPT制作:PPT应体现专业性,排版美观且图表规范,具有学术审美。
  • 演讲表达:学生应进行逻辑清晰且富有吸引力的演讲展示。
  • 问答环节:学生能准确理解提问意图,并给出从容、令人信服的回答。

注意事项

  1. 善用AI获取演讲技巧建议,优化呈现效果。汇报前建议在组内进行多次带计时的全流程模拟排练。
  2. 请确保团队中每位成员都上台参与宣讲。每组汇报总时长应控制在30分钟!
  3. 汇报结束后,将有 5-10 分钟的问答环节。我可能会随机抽查组内的一名同学,要求其对自己负责部分的代码实现逻辑或架构设计细节进行深入说明。
  4. 每位同学均需提交小组PPT和代码库链接来展示阶段性成果。

环节四:视频、代码与报告 总分:20分¶

代码库规范 (7分)

项目必须使用 Git 代码托管平台(如 GitHub)管理项目。在代码仓库的根目录下,请务必包含一份高质量的 README.md 文件,详细说明我们应当如何配置环境并实际测试你们的项目,以及代码走查时的注意事项。


技术总结报告 (7分)

期末需提交一份全面概述项目成果的最终报告。该报告字数要求不少于 2500 字,并严格遵循以下结构撰写:

  • 项目名称: 构思一个凝练且引人注目的标题。
  • 研究动机与背景: 这个项目的受众是谁?有什么现实意义?目前有哪些相关工作?
  • 问题定义与挑战: 试图回答的核心问题是什么?难点挑战在哪里?
  • 解决方法: 使用或者提出了哪些数据技术或分析算法?是如何应用它们攻克难题的?
  • 数据流水线: 数据处理与分析链路是怎样的?详细剖析每个关键组件。
  • 实验分析: 为什么提出的方法有效?为什么得出的结果是科学且经得起推敲的?
  • 数据产品: 最终实现的数据产品是什么?请图文并茂地演示它是如何运作的。
  • 经验与教训: 项目中遇到了哪些技术阻碍?是如何被攻克的?学到了哪些经验?
  • 项目总结: 对项目进行高度概括。该部分应当独立成文,并全面涵盖项目的所有核心要点。

成果演示视频 (6分)

请制作一段精炼、吸引人的视频来直观向大众推广你们的工作。视频请提交到bilibili, 具体要求如下:

  1. 视频总时长不得超过 3 分钟。
  2. 简明扼要地阐述为什么这是一个重要的项目。
  3. 清晰列出核心问题以及所利用的多源数据集。
  4. 概要性演示如何运用数据+AI技术解决这些问题。
  5. 展示项目的最终结论或产出。

你们可以从 KDD 2017 宣传视频 和 KDD 2018 宣传视频 中获取视频制作的灵感与思路。


材料统一提交

我们将在课程官方网站上展示大家的优秀成果。请各组在指定截止日期前,将:项目名称、项目摘要、完整版报告、代码库链接以及演示视频链接统一提交。

期待看到大家高质量的项目成果!

任何疑问,请随时在网络学堂论坛中交流。