!pip install ipython-sql


%load_ext sql


%sql sqlite:///bank.db


%%sql
SELECT name AS 表名 FROM sqlite_master WHERE type='table' ORDER BY name;


%%sql
SELECT * FROM Customer LIMIT 3;


%%sql
SELECT * FROM Branch;


%%sql q1_1 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 1.1 =====
try:
    df = q1_1.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 16, f"结果应有 16 行，实际 {len(df)} 行，请检查 WHERE 条件"
assert set(['firstName','lastName','income']).issubset(set(df.columns)), \
    f"缺少必要列，当前列名：{list(df.columns)}"
assert int(df['income'].iloc[0]) == 69842, \
    f"第一行 income 应为 69842，实际 {df['income'].iloc[0]}，请检查 ORDER BY"
print(f"✅ 检验 1.1 通过！共查询到 {len(df)} 位中等收入客户。")
q1_1


%%sql q1_2 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 1.2 =====
try:
    df = q1_2.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 58, f"结果应有 58 行，实际 {len(df)} 行，请检查分行名拼写和连接条件"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
diffs = df.iloc[:, 3].astype(float).tolist()
assert diffs == sorted(diffs), "第 4 列（boss_diff）应按升序排列，请检查 ORDER BY"
print(f"✅ 检验 1.2 通过！共查询到 {len(df)} 条员工记录。")
q1_2


%%sql q1_3 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 1.3 =====
try:
    df = q1_3.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 1, f"结果应为 1 行，实际 {len(df)} 行"
assert df.shape[1] == 2, f"结果应为 2 列，实际 {df.shape[1]} 列"
assert int(df.iloc[0, 0]) == 21, f"员工总数应为 21，实际 {df.iloc[0, 0]}"
assert int(df.iloc[0, 1]) == 20, f"不同姓氏数量应为 20，实际 {df.iloc[0, 1]}"
print(f"✅ 检验 1.3 通过！纽约分行员工总数：{int(df.iloc[0,0])}，不同姓氏数：{int(df.iloc[0,1])}。")
q1_3


%%sql q1_4 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 1.4 =====
try:
    df = q1_4.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 1, f"结果应为 1 行，实际 {len(df)} 行"
assert df.shape[1] == 1, f"结果应为 1 列，实际 {df.shape[1]} 列"
assert int(df.iloc[0, 0]) == 1021648, f"薪资总和应为 1021648，实际 {df.iloc[0, 0]}"
print(f"✅ 检验 1.4 通过！纽约分行薪资总额：{int(df.iloc[0, 0])}。")
q1_4


%%sql q2_1 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 2.1 =====
try:
    df = q2_1.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 8, f"结果应有 8 行，实际 {len(df)} 行，请检查经理姓名和余额条件"
assert df.shape[1] == 3, f"结果应有 3 列，实际 {df.shape[1]} 列"
assert df.iloc[:, 1].tolist() == sorted(df.iloc[:, 1].tolist()), "账号列应升序排列"
print(f"✅ 检验 2.1 通过！共查询到 {len(df)} 个大额账户。")
q2_1


%%sql q2_2 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 2.2 =====
try:
    df = q2_2.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) > 0, "结果为空，请检查收入条件和分行名拼写（'London', 'Latveria'）"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
cids = df.iloc[:, 0].tolist()
assert all(cids[i] <= cids[i+1] for i in range(len(cids)-1)), "结果应先按 customerID 升序"
print(f"✅ 检验 2.2 通过！共 {df.iloc[:,0].nunique()} 位 VIP 客户，{len(df)} 条账户记录。")
q2_2


%%sql q2_3 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 2.3 =====
try:
    df = q2_3.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) >= 1, "结果为空，请检查分行名拼写（'London'）"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
salaries = df.iloc[:, 3].astype(float).tolist()
assert len(set(salaries)) == 1, "所有返回员工的薪资应相同（均为最低薪资）"
assert int(salaries[0]) == 13950, f"伦敦分行最低薪资应为 13950，实际 {salaries[0]}"
print(f"✅ 检验 2.3 通过！{len(df)} 位员工并列最低薪资，薪资为 {int(salaries[0])}。")
q2_3


%%sql q2_4 <<
-- 在此处编写你的 SQL 查询（必须使用 LEFT OUTER JOIN）


# ===== 检验 2.4 =====
try:
    df = q2_4.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 21, f"结果应有 21 行，实际 {len(df)} 行，请检查薪资条件"
assert df.shape[1] == 5, f"结果应有 5 列，实际 {df.shape[1]} 列"
assert df.iloc[:, 4].isna().any(), "第 5 列（branchName）应包含 NULL（非经理员工），请检查是否用了外连接"
print(f"✅ 检验 2.4 通过！经理 {df.iloc[:,4].notna().sum()} 人，非经理 {df.iloc[:,4].isna().sum()} 人。")
q2_4


%%sql q2_5 <<
-- 在此处编写你的 SQL 查询（不允许使用任何 JOIN）


# ===== 检验 2.5 =====
try:
    df = q2_5.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 21, f"结果应有 21 行（与 2.4 相同），实际 {len(df)} 行"
assert df.shape[1] == 5, f"结果应有 5 列，实际 {df.shape[1]} 列"
assert df.iloc[:, 4].isna().any(), "第 5 列应含 NULL（非经理员工）"
print(f"✅ 检验 2.5 通过！不使用 JOIN 也得到了与 2.4 相同的 {len(df)} 行结果。")
q2_5


%%sql q3_1 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.1 =====
try:
    df = q3_1.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 5, f"结果应有 5 行（共 5 个分行），实际 {len(df)} 行"
assert df.shape[1] == 3, f"结果应有 3 列，实际 {df.shape[1]} 列"
assert df.iloc[:,0].tolist() == sorted(df.iloc[:,0].tolist()), "分行名应按升序排列"
assert (df.iloc[:,1].astype(float) >= 0).all(), "薪资极差不应为负"
print(f"✅ 检验 3.1 通过！共统计了 {len(df)} 个分行的薪资数据。")
q3_1


%%sql q3_2 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.2 =====
try:
    df = q3_2.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 91, f"结果应有 91 行，实际 {len(df)} 行，请检查 HAVING 条件和去重逻辑"
assert df.shape[1] == 3, f"结果应有 3 列，实际 {df.shape[1]} 列"
assert df.iloc[:,2].tolist() == sorted(df.iloc[:,2].tolist()), "结果应先按 lastName 升序"
print(f"✅ 检验 3.2 通过！共找到 {len(df)} 位账户分布集中的客户。")
q3_2


%%sql q3_3 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.3 =====
try:
    df = q3_3.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 1, f"结果应为 1 行，实际 {len(df)} 行"
assert df.shape[1] == 2, f"结果应为 2 列，实际 {df.shape[1]} 列"
# 参考日期固定为 2026-05-10
val_over60 = df.iloc[0, 0]
val_under20 = df.iloc[0, 1]
assert abs(float(val_over60) - 52926.96296296296) < 1e-6, \
    f"年龄 >60 的平均收入应为 52926.96296296296，实际 {val_over60}"
assert val_under20 is not None and abs(float(val_under20) - 69037.0) < 1e-6, \
    f"年龄 <20 的平均收入应为 69037.0，实际 {val_under20}"
print(f"✅ 检验 3.3 通过！年龄 >60 平均收入：{float(val_over60):.1f}，"
      f"年龄 <20 平均收入：{float(val_under20):.1f}（参考日期固定为 2026-05-10）。")
q3_3


%%sql q3_4 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.4 =====
try:
    df = q3_4.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 7, f"结果应有 7 行，实际 {len(df)} 行，请检查 LIKE 模式和 HAVING 条件"
assert df.shape[1] == 5, f"结果应有 5 列，实际 {df.shape[1]} 列"
assert df.iloc[:,0].tolist() == sorted(df.iloc[:,0].tolist()), "结果应按 customerID 升序"
print(f"✅ 检验 3.4 通过！共找到 {len(df)} 位满足条件的客户。")
q3_4


%%sql q3_5 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.5 =====
try:
    df = q3_5.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 2, f"结果应有 2 行，实际 {len(df)} 行，请检查分行名和 HAVING 条件"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
sums = df.iloc[:,2].astype(float).tolist()
assert sums == sorted(sums), "结果应按 sum_amount 升序排列"
print(f"✅ 检验 3.5 通过！伦敦分行共有 {len(df)} 个账户交易次数 ≥ 15。")
q3_5


%%sql q3_6 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 3.6 =====
try:
    df = q3_6.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 9, f"结果应有 9 行，实际 {len(df)} 行，请检查 HAVING >=50 的子查询和 JOIN 条件"
assert df.shape[1] == 3, f"结果应有 3 列，实际 {df.shape[1]} 列"
assert df.iloc[:,0].tolist() == sorted(df.iloc[:,0].tolist()), "结果应先按 branchName 升序"
print(f"✅ 检验 3.6 通过！共查询到 {len(df)} 个分行-账户类型组合。")
q3_6


%%sql q4_1 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 4.1 =====
try:
    df = q4_1.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) > 0, "结果为空，请检查子查询中 lastName = 'Butler' 条件"
assert df.shape[1] == 3, f"结果应有 3 列，实际 {df.shape[1]} 列"
last_names = df.iloc[:,1].tolist()
assert last_names == sorted(last_names), "结果应先按 lastName 升序"
assert 'Butler' not in last_names, "结果中不应出现 Butler，请检查子查询逻辑"
print(f"✅ 检验 4.1 通过！共找到 {len(df)} 位超高收入客户。")
q4_1


%%sql q4_2 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 4.2 =====
try:
    df = q4_2.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) > 0, "结果为空，请检查账户类型条件（'BUS', 'SAV'）"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
types = set(df.iloc[:,1].tolist())
assert types.issubset({'BUS','SAV'}), f"结果中不应出现 CHQ 账户，当前：{types}"
print(f"✅ 检验 4.2 通过！共 {df.iloc[:,0].nunique()} 位客户的 {len(df)} 个 BUS/SAV 账户。")
q4_2


%%sql q4_3 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 4.3 =====
try:
    df = q4_3.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 17, f"结果应有 17 行，实际 {len(df)} 行，请检查三个排除条件"
assert df.shape[1] == 1, f"结果应只有 1 列（customerID），实际 {df.shape[1]} 列"
cids = df.iloc[:,0].tolist()
assert len(set(cids)) == len(cids), "结果含重复 customerID，请加 DISTINCT"
assert cids == sorted(cids), "customerID 应按升序排列"
print(f"✅ 检验 4.3 通过！共找到 {len(df)} 位纯纽约客户。")
q4_3


%%sql q4_4 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 4.4 =====
try:
    df = q4_4.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 3, f"结果应有 3 行，实际 {len(df)} 行，请检查 NOT EXISTS 和 EXCEPT 逻辑"
assert df.shape[1] == 4, f"结果应有 4 列，实际 {df.shape[1]} 列"
incomes = df.iloc[:,3].astype(float).tolist()
assert incomes == sorted(incomes, reverse=True), "income 应按降序排列"
print(f"✅ 检验 4.4 通过！共找到 {len(df)} 位满足条件的客户。")
q4_4


%%sql q4_5 <<
-- 在此处编写你的 SQL 查询


# ===== 检验 4.5 =====
try:
    df = q4_5.DataFrame()
except NameError:
    raise AssertionError("请先运行上面的 %%sql 单元格，再执行此检验")
assert len(df) == 22, f"结果应有 22 行，实际 {len(df)} 行，请检查三倍均值的子查询逻辑"
assert df.shape[1] == 5, f"结果应有 5 列，实际 {df.shape[1]} 列"
print(f"✅ 检验 4.5 通过！共找到 {len(df)} 条异常账户的交易记录。")
q4_5

任务	主题	题数	分值
任务 1	排序、过滤与基础聚合	4 题	20 分
任务 2	连接查询	5 题	25 分
任务 3	聚合与分组	6 题	30 分
任务 4	子查询与集合运算	5 题	25 分

写法	格式	适用场景
单行查询	`%sql SELECT ...`	简短语句
多行查询	单元格首行写 `%%sql`，SQL 从第二行开始	多行 SQL
存入变量	单元格首行写 `%%sql 变量名 <<`，SQL 从第二行开始	需在 Python 中处理结果

Lab 6：银行数据库SQL查询与分析实战¶

实验目的与学习目标¶

实验背景¶

数据库结构¶

第 0 步：环境准备¶

安装 ipython-sql¶

如何在 Notebook 中编写 SQL？¶

任务 1：排序、过滤与基础聚合（20 分）¶

任务背景¶

1.1 中等收入客户名单（5 分）¶

1.2 重点分行员工薪资差距（5 分）¶

1.3 纽约分行人员构成统计（5 分）¶

1.4 纽约分行薪资总额（5 分）¶

任务 2：连接查询（25 分）¶

任务背景¶

2.1 特定经理分行的大额账户（5 分）¶

2.2 跨国 VIP 客户识别（5 分）¶

2.3 伦敦分行薪资最低员工（5 分）¶

2.4 高薪员工与经理标注（外连接）（5 分）¶

2.5 同题重做：不用 JOIN（5 分）¶

任务 3：聚合与分组（30 分）¶

任务背景¶

3.1 各分行薪资统计（5 分）¶

3.2 账户分布集中的客户（5 分）¶

3.3 不同年龄段的平均收入（5 分）¶

3.4 特定姓名规律的多账户客户（5 分）¶

3.5 伦敦分行高频交易账户分析（5 分）¶

3.6 大型分行各类账户平均交易金额（5 分）¶

任务 4：子查询与集合运算（25 分）¶

任务背景¶

4.1 超高收入客户筛选（5 分）¶

4.2 储蓄与企业账户持有人分析（5 分）¶

4.3 "纯纽约"客户识别（5 分）¶

4.4 覆盖 Helen Morgan 所有分行的客户（5 分）¶

4.5 异常高额交易账户的全部交易记录（5 分）¶

实验圆满结束！¶