清华大学 · 2026年春季学期

数据库技术与应用
—— AI 时代的数据基础能力

清华大学校徽
教师: 计算机系 王健楠 地点: 自强科技楼 5310 时间: 周四 09:50 - 12:15
AI Era Data Foundation
赋能 AI 时代的底层数据思维与系统能力

课程简介

在人工智能迅速发展的今天,数据已成为驱动 AI 突破的核心要素。无论是大模型训练、数据驱动决策还是 AI4Science,如何高效管理复杂多源数据,都是 AI 时代学生不可或缺的底层能力。

本课程以数据库技术的发展为主线,系统介绍其在数据科学、数据工程与 Data+AI 中的核心作用与演进:

  • 数据科学:通过数据处理、可视化与统计建模,学习如何从数据中发现规律、形成可信结论
  • 数据工程:通过 SQL、查询优化与数据建模,学习如何将数据处理流程从实验环境推进到生产级系统
  • Data+AI:通过 AI4Data 和 Data4AI,学习 AI 如何赋能数据库以及数据库如何反向支撑 AI 应用。

课程配有基于真实问题的实验与大作业,引导学生将课堂知识应用于实际场景,为后续科研与工程实践奠定基础。

教学内容

  • · 数据库发展历史
  • · 表格数据分析(Pandas)
  • · 数据准备
  • · 数据可视化
  • · 数据统计
  • · 实用机器学习
  • · SQL 查询
  • · 查询性能优化
  • · 数据库建模与设计
  • · 数据库事务管理
  • · 半结构化数据
  • · Data+AI

教学日历

周次 日期 教学主题 重点内容
第 1 周 02-26
介绍课程目标、内容框架、教学安排与考核要求。
回顾数据库发展的主要阶段、代表模型与演进脉络。
第 2 周 03-05
介绍 Series、DataFrame、索引结构与 loc/iloc 取数。
涵盖条件筛选、列操作、常用函数与自定义排序。
第 3 周 03-12 Pandas III
围绕分组聚合、数据透视以及 merge/join 展开。
第 4 周 03-19 数据准备 I
说明数据准备的核心任务及其在数据工作中的关键作用。
第 5 周 03-26 数据准备 II
涵盖数据收集、探索清洗、数据集成与正则表达式。
第 6 周 04-02
介绍可视化目标,以及分布图与核密度估计。
围绕多变量关系展示、数据转换与可视化原则展开。
第 7 周 04-09
介绍统计思维、任务驱动 EDA 与相关性分析。
涵盖估计、自助法、假设检验与因果推断。
第 8 周 04-16
介绍异常检测,并引入 AutoML 与可解释机器学习。
围绕自动特征生成、Featuretools 工具与 AutoML 实践展开。
第 9 周 04-23
介绍数据库与关系模型基础,以及 SQL 关系模式定义。
涵盖单表查询、多表连接、外键约束与集合操作。
第 10 周 04-30 五一假期(不上课)
第 11 周 05-07 SQL III
聚焦聚合查询、Group By、Having 以及子查询和 CTE 复用。
第 12 周 05-14
介绍页式存储、文件组织、索引结构与索引选择原则。
讲解关系代数优化、连接算法、直方图估计与物理执行计划。
第 13 周 05-21
中期汇报
数据库建模与设计
课堂汇报阶段性进展、已有发现与后续计划。
课件待更新
第 14 周05-28数据库事务管理课件待更新
第 15 周06-04Data+AI课件待更新
第 16 周 06-11 期末汇报

平时实验

平时实验将围绕课程核心主题陆续发布,涵盖程序基础、数据处理、数据分析、统计推断、机器学习与数据库查询等内容,强调将课堂知识应用到真实数据与业务场景中,帮助同学逐步形成较为完整的数据分析与系统实践能力。

实验 简介 资料
Lab 1: 清华周边美食指南数据分析实战 以校园美食数据为载体,系统练习 Python 基础语法与简单推荐逻辑。 下载
Lab 2: 教务系统 Pandas 数据分析实战 在教务数据中完成清洗、预警特征构建、透视分析与接口封装。 下载
Lab 3: 电商数据准备实战 围绕商品目录整合,完成清洗、近似匹配与效果评估。 下载
Lab 4: 房产数据可视化与统计分析实战 结合房产数据,完成探索分析、可视化、相关性计算与自助法推断。 下载
Lab 5: 数据分析进阶——模型、检验与因果推断实战 从特征工程出发,串联模型解释、假设检验与因果效应估计。 下载
Lab 6: 银行数据库 SQL 查询与分析实战 以银行业务需求为线索,系统练习筛选、连接、分组与复杂 SQL 查询。 下载
Lab 7: 数据库设计与查询优化实战 从校园教务建模出发,综合练习 E/R 设计、索引选择与查询优化。 下载

课程项目

课程项目要求同学围绕真实世界中的数据问题,以 2-3 人团队形式完成从数据获取、清洗、集成、分析到成果展示的完整数据流水线。项目强调问题价值、分析深度以及最终结论的可信性。

节点 时间 说明
开题报告2026-04-30提交项目选题、数据获取方案与初步数据流水线设计
中期汇报2026-05-21课堂汇报阶段性进展、已有发现与后续计划
期末汇报2026-06-11课堂展示最终方法、实验结果与系统演示
项目成果提交2026-06-17统一提交报告、代码仓库与演示视频

查看课程项目说明

评分标准

·

平时实验 (32%):共计 8 次实验,每次占比 4%。

·

课程项目 (68%): 开题报告 (8%) + 中期汇报 (20%) + 期末汇报 (20%) + 项目成果 (20%,含报告、代码与视频)。