# 说明：课程资料已提供 data/scores.csv 与 data/course_info.csv
import pandas as pd
import numpy as np
from pathlib import Path


data_dir = Path("data")
scores_path = data_dir / "scores.csv"
course_info_path = data_dir / "course_info.csv"

if not scores_path.exists() or not course_info_path.exists():
    raise FileNotFoundError("未找到 data/scores.csv 或 data/course_info.csv，请确认课程资料中的 data 目录已完整放在 notebook 同级目录。")

scores = pd.read_csv(scores_path, dtype={"sid": str})
course_info = pd.read_csv(course_info_path)

print("✅ 数据加载成功！")
print(f"   scores 文件: {scores_path.resolve()}")
print(f"   course_info 文件: {course_info_path.resolve()}")
print(f"   scores (成绩明细表): {scores.shape[0]} 条记录, {scores.shape[1]} 个字段  |  字段名: {list(scores.columns)}")
print(f"   course_info (课程信息表): {course_info.shape[0]} 门课程, {course_info.shape[1]} 个字段  |  字段名: {list(course_info.columns)}")
display(scores.head(8))


# YOUR CODE HERE
raise NotImplementedError()

print(f"有效成绩表 valid_scores: {len(valid_scores)} 行")
print("侦测到的重复选课记录 dup_check (前20行):")
display(dup_check.head(20))
print(f"最终干净数据 clean_scores: {len(clean_scores)} 行")
print(f"去重清洗移除: {n_removed} 行")


assert isinstance(valid_scores, pd.DataFrame)
assert isinstance(dup_check, pd.DataFrame)
assert isinstance(clean_scores, pd.DataFrame)
assert isinstance(n_removed, (int, np.integer))

assert (valid_scores["score"] > 0).all(), "valid_scores 不应包含 score=0 的异常记录"
assert clean_scores.duplicated(subset=["sid", "course"]).sum() == 0, "clean_scores 中不应存在重复 (sid, course)"
assert n_removed == len(valid_scores) - len(clean_scores), "n_removed 计算不正确"

if len(dup_check) > 0:
    assert dup_check.duplicated(subset=["sid", "course"], keep=False).all(), "dup_check 应只包含重复选课记录"

print("✅ Q1 基础数据清洗与去重测试通过！")


df = clean_scores.copy()

# YOUR CODE HERE
raise NotImplementedError()

print("添加特征后的数据概览:")
display(df.head(5))
print(f"🚨 学业预警名单人数: {len(risk_students)}")
print(f"🚨 学业预警名单前20个: {risk_students[:20]}")
print("📊 全校成绩等级分布 grade_dist:")
print(grade_dist)


assert "grade" in df.columns and "is_cs_core" in df.columns
assert isinstance(risk_students, list)
assert isinstance(grade_dist, pd.Series)

assert set(df["grade"].dropna().unique()).issubset({"A", "B", "C", "D", "F"}), "grade 取值不在 A/B/C/D/F 内"
assert df["is_cs_core"].dropna().isin([True, False]).all(), "is_cs_core 必须是布尔值"
assert risk_students == sorted(set(risk_students)), "risk_students 应去重并排序"
assert list(grade_dist.index) == ["A", "B", "C", "D", "F"], "grade_dist 索引顺序应为 A/B/C/D/F"
assert int(grade_dist.sum()) == len(df), "grade_dist 总数应等于 df 行数"

print("✅ Q2 特征工程与预警名单测试通过！")


# YOUR CODE HERE
raise NotImplementedError()

print("🧑‍🎓 学生个人学情报告（按 avg_score 降序前20行）:")
display(student_report.sort_values("avg_score", ascending=False).head(20))
print("🏫 院系×性别 平均分对比:")
print(dept_gender_avg)
print("👑 各科榜首学生（前20门课）:")
print(top_per_course.head(20))


assert isinstance(student_report, pd.DataFrame)
assert "score_range" in student_report.columns
assert isinstance(dept_gender_avg, pd.Series)
assert isinstance(top_per_course, pd.Series)

assert student_report.index.is_unique, "student_report 索引应唯一"
assert (student_report["score_range"] == (student_report["max_score"] - student_report["min_score"]).values).all(), "score_range 计算不正确"
assert dept_gender_avg.index.nlevels == 2, "dept_gender_avg 应为二级索引 (dept, gender)"
assert top_per_course.index.is_unique, "top_per_course 每门课应只对应一位榜首"

print("✅ Q3 多维聚合分析逻辑测试通过！")


# YOUR CODE HERE
raise NotImplementedError()

print("🏆 全校 GPA 排名榜单（前20名）:")
display(gpa_table.head(20))
print(f"🏅 Top 3 拔尖人才: {gpa_top3}")


assert isinstance(merged, pd.DataFrame)
assert "gp" in merged.columns and "weighted_gp" in merged.columns
assert isinstance(gpa_table, pd.Series)
assert isinstance(gpa_top3, list)

allowed_gp = {0.0, 1.0, 2.3, 2.7, 3.0, 3.3, 3.7, 4.0}
assert set(merged["gp"].unique()).issubset(allowed_gp), "gp 取值不符合换算规则"
assert np.allclose(merged["weighted_gp"], merged["gp"] * merged["credits"]), "weighted_gp 计算错误"
assert gpa_table.is_monotonic_decreasing, "gpa_table 应按降序排列"

if len(gpa_table) >= 3:
    assert len(gpa_top3) == 3, "gpa_top3 应包含3名学生"
    assert gpa_top3 == gpa_table.head(3).index.tolist(), "gpa_top3 与 gpa_table 前3名不一致"

print("✅ Q4 表连接与 GPA 加权计算测试通过！")


# YOUR CODE HERE
raise NotImplementedError()

print("🗺️ 院系×课程 平均分二维透视 (前6行×前12列):")
display(pivot_dept.iloc[:6, :12])
print("💪 各课程表现最强院系（前20门课）:")
print(best_dept_per_course.head(20))
print(f"网状交叉覆盖度 (有效组合数): {cross_dept_course}")


assert isinstance(pivot_dept, pd.DataFrame)
assert isinstance(dept_course_count, pd.DataFrame)
assert isinstance(best_dept_per_course, pd.Series)
assert isinstance(cross_dept_course, (int, np.integer))

assert dept_course_count.isna().sum().sum() == 0, "dept_course_count 不应包含 NaN"
assert (dept_course_count >= 0).all().all(), "dept_course_count 应为非负"
assert set(best_dept_per_course.index) == set(pivot_dept.columns), "best_dept_per_course 索引应覆盖所有课程"
assert cross_dept_course == int((dept_course_count > 0).sum().sum()), "cross_dept_course 计算错误"

print("✅ Q5 数据透视与交叉覆盖度计算通过！")


# YOUR CODE HERE
raise NotImplementedError()

print("📊 院系必修课学业竞争力报告:")
display(dept_summary)
print(f"🌟 本年度必修课最强硬核院系: {strongest_dept}")


assert isinstance(full, pd.DataFrame)
assert isinstance(core, pd.DataFrame)
assert isinstance(dept_summary, pd.DataFrame)
assert set(dept_summary.columns) >= {"core_avg", "core_90_rate", "n_students"}
assert isinstance(strongest_dept, str)

assert (core["ctype"] == "必修").all(), "core 应只包含必修课记录"
assert dept_summary["core_avg"].is_monotonic_decreasing, "dept_summary 应按 core_avg 降序"
assert dept_summary["core_90_rate"].between(0, 1).all(), "core_90_rate 应位于 [0,1]"
assert strongest_dept == dept_summary.index[0], "strongest_dept 应等于榜首院系"

print("✅ Q6 院系核心竞争力综合评估流水线测试通过！")


# YOUR CODE HERE
raise NotImplementedError()

print("📈 重修学生成绩变化轨迹（前20行）:")
display(improvements.head(20))
print(f"结论判定：所有重修学生成绩均实现提升？ -> {all_improved}")


assert isinstance(valid, pd.DataFrame)
assert isinstance(repeat_students, pd.DataFrame)
assert isinstance(improvements, pd.DataFrame)
assert set(improvements.columns) >= {"name", "course", "first_score", "last_score", "diff"}
assert isinstance(all_improved, bool)

assert (valid["score"] > 0).all(), "valid 应只包含 score>0 的记录"
if len(repeat_students) > 0:
    assert repeat_students.duplicated(subset=["sid", "course"], keep=False).all(), "repeat_students 仅应包含重修组合"
assert (improvements["diff"] == improvements["last_score"] - improvements["first_score"]).all(), "diff 计算错误"
assert all_improved == bool((improvements["diff"] > 0).all()), "all_improved 计算错误"

print("✅ Q7 重修轨迹深度挖掘逻辑测试通过！")


def generate_transcript(sid):
    # YOUR CODE HERE
    raise NotImplementedError()

# ================== 自动化系统联调测试 ==================
t1 = generate_transcript("2023010102")
t2 = generate_transcript("2023020203")

for t in [t1, t2]:
    print("=== 🎓 学生学业档案 ===")
    print(f"姓名: {t['name']}  |  院系: {t['dept']}")
    print(f"已修总学分: {t['total_credits']}  |  加权 GPA: {t['gpa']}")
    print("【成绩明细单】")
    display(t["transcript"].head(20))
    print("=" * 40)


assert callable(generate_transcript)
assert isinstance(t1, dict) and isinstance(t2, dict)
assert set(t1.keys()) >= {"name", "dept", "total_credits", "gpa", "transcript"}
assert isinstance(t1["transcript"], pd.DataFrame)
assert list(t1["transcript"].columns) == ["course", "credits", "score", "gp"], "transcript 列应为 [course, credits, score, gp]"
assert t1["transcript"]["score"].is_monotonic_decreasing, "transcript 应按 score 降序"
assert isinstance(t1["total_credits"], (int, np.integer)) and t1["total_credits"] >= 0
assert isinstance(t1["gpa"], (float, np.floating))
print("✅ Q8 自动化成绩单 API 系统集成测试通过！")

🐼 Lab 2: 教务系统 Pandas 数据分析实战¶

🎯 实验目的与学习目标¶

📖 实验背景¶

📊 第 0 步：数据加载与环境准备¶

🧑‍💻 数据分析任务大厅¶

🧹 任务 1: 基础数据清洗与异常处理 (12 分)¶

🏷️ 任务 2: 学业预警系统与特征工程 (12 分)¶

📈 任务 3: 多维度学情聚合分析 (12 分)¶

🧮 任务 4: 核心指标计算 —— 加权 GPA (12 分)¶

🔍 任务 5: 教学资源调度全景透视 (12 分)¶

🏆 任务 6: 院系核心竞争力评估流水线 (15 分)¶

🔄 任务 7: 深度数据挖掘 —— 重修轨迹动态追踪 (13 分)¶

🖨️ 任务 8: 生产环境部署 —— 成绩单自动化生成 API (12 分)¶

🎉 实习圆满结束！¶