import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import zipfile
from pathlib import Path

warnings.filterwarnings("ignore")


# 加载完整数据集
df = pd.read_csv("Lab-data/property-tax-report_2021.csv")
print("数据集形状:", df.shape)
print("列名:", list(df.columns))


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()

print(f"YEAR_BUILT 列缺失值比例: {year_built_missing_pct:.4f}")


# YOUR CODE HERE
raise NotImplementedError()


# ===== 任务 1 测试 =====
assert np.isclose(year_built_missing_pct, df["YEAR_BUILT"].isna().mean()), "缺失值比例计算有误"
assert "CURRENT_PRICE" in df.columns, "请添加 CURRENT_PRICE 列"
assert "PREVIOUS_PRICE" in df.columns, "请添加 PREVIOUS_PRICE 列"
assert "HOUSE_PRICE" in df.columns, "请添加 HOUSE_PRICE 列"
assert np.isclose(df["CURRENT_PRICE"].iloc[0],
                  df["CURRENT_LAND_VALUE"].iloc[0] + df["CURRENT_IMPROVEMENT_VALUE"].iloc[0]), "CURRENT_PRICE 计算有误"
assert np.isclose(df["HOUSE_PRICE"].iloc[0], df["CURRENT_PRICE"].iloc[0] / 1e6), "HOUSE_PRICE 计算有误"
print("✅ 任务 1 测试通过！")


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()


# 筛选 V6A 区域、1900 年之后建造的房产
df_v6a = df[(df["PROPERTY_POSTAL_CODE"].str.startswith("V6A", na=False)) &
            (df["YEAR_BUILT"] >= 1900)].copy()
print(f"V6A 区域筛选后的数据量: {len(df_v6a)}")


# YOUR CODE HERE
raise NotImplementedError()


# YOUR CODE HERE
raise NotImplementedError()


# ===== 任务 3.2 测试 =====
assert isinstance(dfcor, pd.DataFrame), "dfcor 应为 DataFrame"
required_cols = {"YEAR_BUILT", "25TH_HOUSE_PRICE", "50TH_HOUSE_PRICE", "75TH_HOUSE_PRICE"}
assert required_cols.issubset(set(dfcor.columns)), f"dfcor 缺少必要的列，当前列: {list(dfcor.columns)}"
assert len(dfcor) > 0, "dfcor 不能为空"
print("✅ 任务 3.2 测试通过！")


def calc_pearson(df, x, y):
    # YOUR CODE HERE
    raise NotImplementedError()


def calc_spearman(df, x, y):
    # YOUR CODE HERE
    raise NotImplementedError()


# ===== 任务 3.3-3.4 测试 =====
# 用简单数据验证
_test_df = pd.DataFrame({"a": [1, 2, 3, 4, 5], "b": [2, 4, 6, 8, 10]})
assert np.isclose(calc_pearson(_test_df, "a", "b"), 1.0), "完全线性正相关时 Pearson 应为 1.0"

_test_df2 = pd.DataFrame({"a": [1, 2, 3, 4, 5], "b": [5, 4, 3, 2, 1]})
assert np.isclose(calc_pearson(_test_df2, "a", "b"), -1.0), "完全线性负相关时 Pearson 应为 -1.0"
assert np.isclose(calc_spearman(_test_df2, "a", "b"), -1.0), "完全单调负相关时 Spearman 应为 -1.0"

_test_df3 = pd.DataFrame({"a": [1, 2, 3, 4, 5], "b": [1, 4, 9, 16, 25]})
_pearson_val = calc_pearson(_test_df3, "a", "b")
_spearman_val = calc_spearman(_test_df3, "a", "b")
assert np.isclose(_spearman_val, 1.0), "完全单调正相关时 Spearman 应为 1.0"
assert _pearson_val < 1.0, "非线性关系时 Pearson 应小于 1.0"

print("✅ 任务 3.3-3.4 测试通过！")


for th in ["25TH", "50TH", "75TH"]:
    col = th + "_HOUSE_PRICE"
    p = calc_pearson(dfcor, "YEAR_BUILT", col)
    s = calc_spearman(dfcor, "YEAR_BUILT", col)
    print(f"{col}\t Pearson={p:.4f}\t Spearman={s:.4f}")


df_sample = pd.read_csv("Lab-data/property-tax-report_2021_sample.csv")

df_sample["CURRENT_PRICE"] = df_sample["CURRENT_LAND_VALUE"] + df_sample["CURRENT_IMPROVEMENT_VALUE"]
df_sample["PREVIOUS_PRICE"] = df_sample["PREVIOUS_LAND_VALUE"] + df_sample["PREVIOUS_IMPROVEMENT_VALUE"]
df_sample = df_sample[df_sample["LEGAL_TYPE"] == "STRATA"].copy()

print(f"样本数据量: {len(df_sample)}")
print(f"CURRENT_PRICE 中位数: {df_sample['CURRENT_PRICE'].median():,.0f}")
print(f"PREVIOUS_PRICE 中位数: {df_sample['PREVIOUS_PRICE'].median():,.0f}")


# YOUR CODE HERE
raise NotImplementedError()


# ===== 任务 4.1 测试 =====
assert np.isclose(median_previous, df_sample["PREVIOUS_PRICE"].median()), "median_previous 计算有误"
assert np.isclose(median_current, df_sample["CURRENT_PRICE"].median()), "median_current 计算有误"
print("✅ 任务 4.1 测试通过！")


def bootstrap_ci(data, num_bootstrap=5000, ci=95):
    # YOUR CODE HERE
    raise NotImplementedError()


# ===== 任务 4.2 测试 =====
# 验证函数的基本行为
np.random.seed(0)
_test_data = np.random.normal(100, 10, 200)
_ci = bootstrap_ci(_test_data, num_bootstrap=2000, ci=95)
assert isinstance(_ci, tuple) and len(_ci) == 2, "bootstrap_ci 应返回一个长度为 2 的元组"
assert _ci[0] < _ci[1], "置信区间下界应小于上界"
assert _ci[0] < np.median(_test_data) < _ci[1], "中位数应在置信区间内"

# 验证置信度参数
np.random.seed(0)
_ci_90 = bootstrap_ci(_test_data, num_bootstrap=2000, ci=90)
assert (_ci_90[1] - _ci_90[0]) < (_ci[1] - _ci[0]), "90% 置信区间应比 95% 置信区间窄"

print("✅ 任务 4.2 测试通过！")


# 计算置信区间
np.random.seed(42)  # 为了结果可复现
ci_previous = bootstrap_ci(df_sample["PREVIOUS_PRICE"].values)
ci_current = bootstrap_ci(df_sample["CURRENT_PRICE"].values)

print(f"PREVIOUS_PRICE 中位数 95% CI: [{ci_previous[0]:,.0f}, {ci_previous[1]:,.0f}]")
print(f"CURRENT_PRICE  中位数 95% CI: [{ci_current[0]:,.0f}, {ci_current[1]:,.0f}]")

# YOUR CODE HERE: 绘制带误差线的柱状图
raise NotImplementedError()

任务	内容	分值
任务 1	数据探索与预处理	10 分
任务 2	数据可视化分析	25 分
任务 3	相关性分析	35 分
任务 4	自助法统计推断	30 分

Lab 4: 房产数据可视化与统计分析实战¶

实验目的与学习目标¶

实验背景¶

第 0 步：数据加载与环境准备¶

任务 1：数据探索与预处理（10 分）¶

任务背景¶

你需要完成¶

1.1 查看数据基本信息（3 分）¶

1.2 缺失值分析（4 分）¶

1.3 数据预处理（3 分）¶

任务 2：数据可视化分析（25 分）¶

任务背景¶

2.1 折线图：各年建造的房产数量（5 分）¶

2.2 柱状图：建造房产最多的前 20 年（5 分）¶

2.3 直方图：房产建造数量的分布（5 分）¶

2.4 散点图：建造数量与年份的关系（5 分）¶

2.5 邮编区域房价分析（5 分）¶

任务 3：相关性分析（35 分）¶

任务背景¶

数据筛选¶

3.1 散点图与六边形图（7 分）¶

3.2 分位数趋势图（8 分）¶

3.3 实现 Pearson 相关系数（10 分）¶

3.4 实现 Spearman 等级相关系数（10 分）¶

计算并分析相关系数¶

任务 4：自助法统计推断（30 分）¶

任务背景¶

加载样本数据¶

4.1 样本中位数对比可视化（10 分）¶

4.2 自助法实现与置信区间估计（20 分）¶

计算置信区间并可视化¶

实验圆满结束！¶