课程简介
在人工智能迅速发展的今天,数据已成为驱动 AI 突破的核心要素。无论是大模型训练、数据驱动决策还是 AI4Science,如何高效管理复杂多源数据,都是 AI 时代学生不可或缺的底层能力。
本课程以数据库技术的发展为主线,系统介绍其在数据科学、数据工程与 Data+AI 中的核心作用与演进:
- 数据科学:通过数据处理、可视化与统计建模,学习如何从数据中发现规律、形成可信结论
- 数据工程:通过 SQL、查询优化与数据建模,学习如何将数据处理流程从实验环境推进到生产级系统
- Data+AI:通过 AI4Data 和 Data4AI,学习 AI 如何赋能数据库以及数据库如何反向支撑 AI 应用。
课程配有基于真实问题的实验与大作业,引导学生将课堂知识应用于实际场景,为后续科研与工程实践奠定基础。
教学内容
- · 数据库发展历史
- · 表格数据分析(Pandas)
- · 数据准备
- · 数据可视化
- · 数据统计
- · 实用机器学习
- · SQL 查询
- · 查询性能优化
- · 数据库建模与设计
- · 数据库事务管理
- · 半结构化数据
- · Data+AI
教学日历
| 周次 | 日期 | 教学主题 | 重点内容 |
|---|---|---|---|
| 第 1 周 | 02-26 |
介绍课程目标、内容框架、教学安排与考核要求。
回顾数据库发展的主要阶段、代表模型与演进脉络。
|
|
| 第 2 周 | 03-05 |
介绍 Series、DataFrame、索引结构与 loc/iloc 取数。
涵盖条件筛选、列操作、常用函数与自定义排序。
|
|
| 第 3 周 | 03-12 | Pandas III | 围绕分组聚合、数据透视以及 merge/join 展开。 |
| 第 4 周 | 03-19 | 数据准备 I | 说明数据准备的核心任务及其在数据工作中的关键作用。 |
| 第 5 周 | 03-26 | 数据准备 II | 涵盖数据收集、探索清洗、数据集成与正则表达式。 |
| 第 6 周 | 04-02 |
介绍可视化目标,以及分布图与核密度估计。
围绕多变量关系展示、数据转换与可视化原则展开。
|
|
| 第 7 周 | 04-09 |
介绍统计思维、任务驱动 EDA 与相关性分析。
涵盖估计、自助法、假设检验与因果推断。
|
|
| 第 8 周 | 04-16 |
介绍异常检测,并引入 AutoML 与可解释机器学习。
围绕自动特征生成、Featuretools 工具与 AutoML 实践展开。
|
|
| 第 9 周 | 04-23 |
介绍数据库与关系模型基础,以及 SQL 关系模式定义。
涵盖单表查询、多表连接、外键约束与集合操作。
|
|
| 第 10 周 | 04-30 | 五一假期(不上课) | — |
| 第 11 周 | 05-07 | SQL III | 聚焦聚合查询、Group By、Having 以及子查询和 CTE 复用。 |
| 第 12 周 | 05-14 |
介绍页式存储、文件组织、索引结构与索引选择原则。
讲解关系代数优化、连接算法、直方图估计与物理执行计划。
|
|
| 第 13 周 | 05-21 |
中期汇报
数据库建模与设计
|
课堂汇报阶段性进展、已有发现与后续计划。
课件待更新
|
| 第 14 周 | 05-28 | 数据库事务管理 | 课件待更新 |
| 第 15 周 | 06-04 | Data+AI | 课件待更新 |
| 第 16 周 | 06-11 | 期末汇报 | — |
平时实验
平时实验将围绕课程核心主题陆续发布,涵盖程序基础、数据处理、数据分析、统计推断、机器学习与数据库查询等内容,强调将课堂知识应用到真实数据与业务场景中,帮助同学逐步形成较为完整的数据分析与系统实践能力。
| 实验 | 简介 | 资料 |
|---|---|---|
| Lab 1: 清华周边美食指南数据分析实战 | 以校园美食数据为载体,系统练习 Python 基础语法与简单推荐逻辑。 | 下载 |
| Lab 2: 教务系统 Pandas 数据分析实战 | 在教务数据中完成清洗、预警特征构建、透视分析与接口封装。 | 下载 |
| Lab 3: 电商数据准备实战 | 围绕商品目录整合,完成清洗、近似匹配与效果评估。 | 下载 |
| Lab 4: 房产数据可视化与统计分析实战 | 结合房产数据,完成探索分析、可视化、相关性计算与自助法推断。 | 下载 |
| Lab 5: 数据分析进阶——模型、检验与因果推断实战 | 从特征工程出发,串联模型解释、假设检验与因果效应估计。 | 下载 |
| Lab 6: 银行数据库 SQL 查询与分析实战 | 以银行业务需求为线索,系统练习筛选、连接、分组与复杂 SQL 查询。 | 下载 |
| Lab 7: 数据库设计与查询优化实战 | 从校园教务建模出发,综合练习 E/R 设计、索引选择与查询优化。 | 下载 |
课程项目
课程项目要求同学围绕真实世界中的数据问题,以 2-3 人团队形式完成从数据获取、清洗、集成、分析到成果展示的完整数据流水线。项目强调问题价值、分析深度以及最终结论的可信性。
| 节点 | 时间 | 说明 |
|---|---|---|
| 开题报告 | 2026-04-30 | 提交项目选题、数据获取方案与初步数据流水线设计 |
| 中期汇报 | 2026-05-21 | 课堂汇报阶段性进展、已有发现与后续计划 |
| 期末汇报 | 2026-06-11 | 课堂展示最终方法、实验结果与系统演示 |
| 项目成果提交 | 2026-06-17 | 统一提交报告、代码仓库与演示视频 |
评分标准
平时实验 (32%):共计 8 次实验,每次占比 4%。
课程项目 (68%): 开题报告 (8%) + 中期汇报 (20%) + 期末汇报 (20%) + 项目成果 (20%,含报告、代码与视频)。