import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

# 机器学习
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import log_loss
from sklearn.inspection import PartialDependenceDisplay

# 绘图全局参数
plt.rcParams['figure.figsize'] = [14, 6]
plt.rcParams['font.size'] = 11

print("✅ 环境准备完成！")


import featuretools as ft

orders         = pd.read_csv("data/orders.csv")
order_products = pd.read_csv("data/order_products.csv")
users          = pd.read_csv("data/users.csv")

print(f"用户数：{len(users)}，正样本（会买香蕉）：{users['label'].sum()} 人")
print(f"订单数：{len(orders)}")
print(f"订单商品明细数：{len(order_products)}")
print()
print("标签分布（1=会买香蕉，0=不会）：")
print(users["label"].value_counts())


def load_entityset(orders, order_products, users):
    """构建并返回包含三个实体的 EntitySet。"""
    # YOUR CODE HERE
    raise NotImplementedError()


# ===== 任务 1.1 测试 =====
es = load_entityset(orders, order_products, users)
assert es is not None, "load_entityset 返回了 None"
es_str = str(es)
for name in ["users", "orders", "order_products"]:
    assert name in es_str, f"EntitySet 中缺少实体：{name}"
print("✅ 任务 1.1 测试通过！")
print(es)


es = load_entityset(orders, order_products, users)

# YOUR CODE HERE
# feature_matrix, feature_defs = ft.dfs(...)
raise NotImplementedError()


# 查看生成的特征矩阵（前 5 行）
print(f"共生成候选特征数：{feature_matrix.shape[1]}")
feature_matrix.head()


# YOUR CODE HERE
# 选择 10 个特征，构建 X 和 y
# X = feature_matrix[selected_columns].fillna(0)
# y = users.set_index("user_id")["label"]
raise NotImplementedError()


# ===== 任务 1.2 测试 =====
assert X.shape == (767, 10), f"X 的形状应为 (767, 10)，当前为 {X.shape}"
assert len(y) == 767, "y 的长度应为 767"
print("✅ 任务 1.2 形状检验通过！")

# 模型评估（超参数已固定，不要修改）
clf = RandomForestClassifier(n_estimators=400, n_jobs=-1, random_state=42)
scores = cross_val_score(clf, X, y, cv=3, scoring="roc_auc")
auc = scores.mean()
print(f"\n3 折交叉验证 AUC = {auc:.4f}")
assert auc > 0.61, f"AUC 为 {auc:.4f}，未超过基线 0.61，请重新选择特征"
print(f"✅ 任务 1.2 测试通过！AUC = {auc:.4f}，成功超越基线 0.61")
print()
print("你选出的 10 个特征：")
for i, col in enumerate(X.columns, 1):
    print(f"  {i:2d}. {col}")


# 加载数据
data = pd.read_csv("data/bforest_sample.csv")
print(f"数据集：{data.shape[0]} 条样本，{data.shape[1]} 个特征列（含标签），正样本比例：{data.iloc[:, -1].mean():.3f}")

# 划分训练集和测试集（8:2）
train, test = train_test_split(data, test_size=0.2, random_state=733)
X_train, y_train = train.iloc[:, :-1], train.iloc[:, -1]
X_test,  y_test  = test.iloc[:, :-1],  test.iloc[:, -1]
feature_names = list(X_train.columns)

# 特征缩放到 [0, 1]
scaler = MinMaxScaler()
X_train = pd.DataFrame(scaler.fit_transform(X_train), columns=feature_names)
X_test  = pd.DataFrame(scaler.transform(X_test),      columns=feature_names)

# 训练三个模型
print("正在训练模型，请稍候…")
lr  = LogisticRegression(solver='liblinear').fit(X_train, y_train)
gb  = GradientBoostingClassifier(random_state=42).fit(X_train, y_train)
mlp = MLPClassifier(learning_rate_init=0.1, random_state=42).fit(X_train, y_train)

print(f"  逻辑回归   测试集准确率：{lr.score(X_test,  y_test):.4f}")
print(f"  梯度提升树 测试集准确率：{gb.score(X_test,  y_test):.4f}")
print(f"  多层感知机 测试集准确率：{mlp.score(X_test, y_test):.4f}")


plt.rcParams['figure.figsize'] = [16, 8]

def explain_logistic_regression(lr, feature_names):
    """以水平柱状图展示逻辑回归各特征的系数（全局解释）。"""
    # YOUR CODE HERE
    raise NotImplementedError()

def explain_logistic_regression_prediction(lr, feature_names, sample):
    """以水平柱状图展示该样本中各特征对预测的贡献（系数 × 特征值）（局部解释）。"""
    # YOUR CODE HERE
    raise NotImplementedError()

# 全局解释
explain_logistic_regression(lr, feature_names)

# 局部解释：对测试集第 0 条样本
explain_logistic_regression_prediction(lr, feature_names, (X_test.iloc[0, :], y_test.iloc[0]))


def permutation_importance(model, feature_names, X, y):
    """计算置换重要性并绘制前 5 个特征的柱状图。"""
    # YOUR CODE HERE
    raise NotImplementedError()

print("=== 梯度提升树的置换重要性 ===")
permutation_importance(gb, feature_names, X_test.to_numpy(), y_test.to_numpy())

print("\n=== 多层感知机的置换重要性 ===")
permutation_importance(mlp, feature_names, X_test.to_numpy(), y_test.to_numpy())


plt.rcParams['figure.figsize'] = [18, 10]

# YOUR CODE HERE
# 绘制梯度提升树对前 10 个数值特征的 PDP
raise NotImplementedError()


# YOUR CODE HERE
# 绘制多层感知机对前 10 个数值特征的 PDP
raise NotImplementedError()


plt.rcParams['figure.figsize'] = [16, 8]

# YOUR CODE HERE
# 对 gb 和 mlp 分别训练全局代理逻辑回归，调用 explain_logistic_regression() 展示
raise NotImplementedError()


import lime
import lime.lime_tabular

plt.rcParams['figure.figsize'] = [12, 5]

# YOUR CODE HERE
# 使用 LimeTabularExplainer 解释 mlp 对测试集第 0 条样本的预测
raise NotImplementedError()


search_df = pd.read_json("data/searchlog.json", orient='records', lines=True)
print(f"实验参与用户数：{len(search_df)} 人")
print(f"A 组：{(search_df['search_ui']=='A').sum()} 人，B 组：{(search_df['search_ui']=='B').sum()} 人")
print(f"教师用户：{search_df['is_instructor'].sum()} 人，学生用户：{(~search_df['is_instructor']).sum()} 人")
search_df.head()


# 分别提取两组的搜索次数
A_search_count = search_df[search_df['search_ui'] == 'A']['search_count']
B_search_count = search_df[search_df['search_ui'] == 'B']['search_count']

# YOUR CODE HERE
# delta = ...
raise NotImplementedError()

print(f"A 组平均搜索次数：{A_search_count.mean():.4f}")
print(f"B 组平均搜索次数：{B_search_count.mean():.4f}")
print(f"均值差 δ = {delta:.6f}")


# ===== 任务 3.1 测试 =====
assert isinstance(delta, (int, float, np.floating)), "delta 应为数值类型"
assert abs(delta - 0.135) < 0.01, f"delta 计算有误，期望约 0.135，实际为 {delta:.6f}"
print("✅ 任务 3.1 测试通过！")


def permutation_test(A_data, B_data, num_samples=10000):
    """
    置换检验：计算观察到的均值差 delta 对应的 p 值。

    参数：
        A_data: A 组数据（array-like）
        B_data: B 组数据（array-like）
        num_samples: 置换次数
    返回：
        p_value (float)
    """
    # YOUR CODE HERE
    raise NotImplementedError()

np.random.seed(42)
p_value = permutation_test(A_search_count.values, B_search_count.values)
print(f"p 值 = {p_value:.4f}")
if p_value < 0.05:
    print("结论：p < 0.05，拒绝零假设——界面改版带来的搜索量提升在统计上显著。")
else:
    print("结论：p ≥ 0.05，不能拒绝零假设——观察到的差异可能只是随机波动。")


# ===== 任务 3.2 测试 =====
assert isinstance(p_value, (int, float, np.floating)), "p_value 应为数值类型"
assert 0 <= p_value <= 1, f"p_value 应在 [0, 1] 之间，实际为 {p_value}"
print("✅ 任务 3.2 测试通过！")


from scipy.stats import chi2

def chi_squared_test(df, col1, col2):
    """
    卡方检验：检验 col1 和 col2 两个类别变量是否统计独立。

    参数：
        df: DataFrame
        col1, col2: 列名
    返回：
        (chi2_stat, p_value)
    """
    # YOUR CODE HERE
    raise NotImplementedError()

chi2_stat, chi2_pval = chi_squared_test(search_df, 'is_instructor', 'search_ui')
print(f"卡方统计量 χ² = {chi2_stat:.4f}")
print(f"p 值          = {chi2_pval:.4f}")
if chi2_pval < 0.05:
    print("结论：is_instructor 和 search_ui 存在显著关联——分组可能不均衡，需要关注。")
else:
    print("结论：is_instructor 和 search_ui 无显著关联——随机分组质量良好。")


# ===== 任务 3.4 测试 =====
assert isinstance(chi2_stat, (int, float, np.floating)), "chi2_stat 应为数值类型"
assert chi2_stat > 0, "卡方统计量应为正数"
assert 0 <= chi2_pval <= 1, "p 值应在 [0, 1] 之间"
print("✅ 任务 3.4 测试通过！")


import pandas as pd
import numpy as np
pd.options.mode.chained_assignment = None

lalonde = pd.read_csv("data/lalonde.csv", index_col=0)

treat_group   = lalonde[lalonde['treat'] == 1]
control_group = lalonde[lalonde['treat'] == 0]

print(f"总样本量：{len(lalonde)} 人")
print(f"处理组（参加培训，NSW）：{len(treat_group)} 人，平均 re78：${treat_group['re78'].mean():.2f}")
print(f"对照组（未参加，PSID）：{len(control_group)} 人，平均 re78：${control_group['re78'].mean():.2f}")
print(f"\n朴素均值差（有偏估计）：${treat_group['re78'].mean() - control_group['re78'].mean():.2f}")
lalonde.head()


from graphviz import Digraph

dot = Digraph(comment='Lalonde 因果图')
dot.attr(rankdir='LR')

# 声明节点
dot.node('treat',   'treat（参加培训）')
dot.node('re78',    're78（1978年收入）')
dot.node('age',     'age（年龄）')
dot.node('married', 'married（婚姻状况）')

# YOUR CODE HERE
# 添加正确的有向边，反映变量之间的因果关系
# 提示：混淆变量应各自有两条出边
raise NotImplementedError()

dot


lalonde_0 = lalonde[lalonde['treat'] == 0].reset_index()  # 对照组（PSID）
lalonde_1 = lalonde[lalonde['treat'] == 1].reset_index()  # 处理组（NSW）
covariates = ['age', 'educ', 'black', 'hispan', 'married', 'nodegree', 're74', 're75']

# YOUR CODE HERE
# 对每个对照组成员，在处理组中寻找协变量完全相同的人
# 统计 count（匹配数量）和 percentage（占所有对照组成员的比例）
raise NotImplementedError()


print(f"能进行精确匹配的对照组成员数：{count}")
print(f"占所有对照组成员的比例：{percentage:.4f}")


# YOUR CODE HERE
# 计算精确匹配的 ATE
# ATE = 平均（处理组匹配成员的 re78 - 对照组成员的 re78）
raise NotImplementedError()


# ===== 任务 4.2 测试 =====
print(f"精确匹配 ATE = ${ATE:.2f}")
assert isinstance(ATE, (int, float, np.floating)), "ATE 应为数值"
assert 500 < ATE < 3000, f"精确匹配 ATE 超出合理范围（500~3000），实际为 {ATE:.2f}"
print("✅ 任务 4.2 测试通过！")


# YOUR CODE HERE
# 实现近邻匹配（阈值 = 1000）
# 输出 count、percentage
raise NotImplementedError()


print(f"能进行近邻匹配的对照组成员数：{count}，比例：{percentage:.4f}")


# YOUR CODE HERE
# 计算近邻匹配的 ATE
raise NotImplementedError()


# ===== 任务 4.3 测试 =====
print(f"近邻匹配 ATE = ${ATE:.2f}")
assert isinstance(ATE, (int, float, np.floating)), "ATE 应为数值"
assert -500 < ATE < 2000, f"近邻匹配 ATE 超出合理范围，实际为 {ATE:.2f}"
print("✅ 任务 4.3 测试通过！")


# YOUR CODE HERE
# 第一步：用逻辑回归计算倾向得分，添加 "psm" 列
raise NotImplementedError()

lalonde.head()


# ===== 任务 4.4 倾向得分测试 =====
assert 'psm' in lalonde.columns, "lalonde 中缺少 'psm' 列"
assert ((lalonde['psm'] >= 0) & (lalonde['psm'] <= 1)).all(), "倾向得分应在 [0, 1] 之间"
print("✅ 倾向得分计算通过！")


# YOUR CODE HERE
# 第二步：基于 psm 进行近邻匹配（阈值 = 0.01），计算 count、percentage 和 ATE
raise NotImplementedError()


# ===== 任务 4.4 测试 =====
print(f"PSM 匹配数：{count}，比例：{percentage:.4f}")
print(f"倾向得分匹配 ATE = ${ATE:.2f}")
assert isinstance(ATE, (int, float, np.floating)), "ATE 应为数值"
assert -500 < ATE < 2000, f"PSM ATE 超出合理范围，实际为 {ATE:.2f}"
print("✅ 任务 4.4 测试通过！")


# YOUR CODE HERE
# 训练两个线性回归模型，对全体样本计算反事实，估计 ATE
raise NotImplementedError()


# ===== 任务 4.5 测试 =====
print(f"线性回归 ATE = ${ATE:.2f}")
assert isinstance(ATE, (int, float, np.floating)), "ATE 应为数值"
assert -500 < ATE < 3000, f"线性回归 ATE 超出合理范围，实际为 {ATE:.2f}"
print("✅ 任务 4.5 测试通过！")

任务	主题	分值
任务 1	自动化特征工程	20 分
任务 2	可解释机器学习	30 分
任务 3	假设检验	25 分
任务 4	因果推断	25 分
合计		100 分

子任务	方法	解释粒度	模型依赖	分值
2.1	透明模型（逻辑回归系数）	全局	透明模型	8
2.2	置换重要性	全局	与模型无关	8
2.3	部分依赖图（PDP）	全局	与模型无关	6
2.4	全局代理模型	全局	与模型无关	4
2.5	LIME	局部	与模型无关	4

字段	说明
`uid`	用户 ID
`is_instructor`	是否为教师用户（`True`）或学生用户（`False`）
`search_ui`	该用户被分配到的界面版本（`'A'` 或 `'B'`）
`search_count`	该用户在实验期间的总搜索次数

任务	主题	核心技术
任务 1	自动化特征工程	featuretools 深度特征合成
任务 2	可解释机器学习	系数解读、Permutation、PDP、LIME
任务 3	假设检验	置换检验、卡方检验、p-hacking 识别
任务 4	因果推断	精确匹配、近邻匹配、PSM、线性回归

Lab 5：数据分析进阶——模型、检验与因果推断实战¶

实验概述与学习目标¶

第 0 步：环境准备¶

任务 1：自动化特征工程（20 分）¶

任务背景¶

数据说明与加载¶

1.1 定义数据实体集（8 分）¶

1.2 深度特征合成与特征选择（12 分）¶

第一步：运行 DFS，生成候选特征¶

第二步：特征选择，击败基线¶

思考题（必填）¶

任务 2：可解释机器学习（30 分）¶

任务背景¶

数据加载与模型训练¶

2.1 透明模型解释（9 分）¶

2.2 置换重要性（9 分）¶

2.3 部分依赖图（6 分）¶

2.4 全局代理模型（4 分）¶

2.5 LIME 局部解释（2 分）¶

任务 3：假设检验（25 分）¶

任务背景¶

数据说明与加载¶

3.1 计算检验统计量（5 分）¶

3.2 置换检验（10 分）¶

3.3 p-hacking 风险讨论（5 分）¶

3.4 卡方检验（5 分）¶

任务 4：因果推断（25 分）¶

任务背景¶

4.1 绘制因果图（5 分）¶

4.2 精确匹配（5 分）¶

4.3 近邻匹配（5 分）¶

4.4 倾向得分匹配（5 分）¶

4.5 线性回归（5 分）¶

汇总与分析¶

实验圆满结束！¶