import re
import warnings
from pathlib import Path

import numpy as np
import pandas as pd
from IPython.display import display

warnings.filterwarnings("ignore")

PRODUCT_DATASET = "sample"  # 可选: "sample", "full"

PRODUCT_CONFIGS = {
    "sample": {
        "folder": "Amazon-Google-Sample",
        "amazon_file": "Amazon_sample.csv",
        "google_file": "Google_sample.csv",
        "truth_file": "Amazon_Google_perfectMapping_sample.csv",
        "label": "Amazon-Google-Sample",
    },
    "full": {
        "folder": "Amazon-Google",
        "amazon_file": "Amazon.csv",
        "google_file": "Google.csv",
        "truth_file": "Amazon_Google_perfectMapping.csv",
        "label": "Amazon-Google",
    },
}

if PRODUCT_DATASET not in PRODUCT_CONFIGS:
    raise ValueError(f"PRODUCT_DATASET 必须是 {list(PRODUCT_CONFIGS)} 之一")

product_cfg = PRODUCT_CONFIGS[PRODUCT_DATASET]
base_dir = Path("Lab-data")
product_dir = base_dir / product_cfg["folder"]

amazon = pd.read_csv(product_dir / product_cfg["amazon_file"])
google = pd.read_csv(product_dir / product_cfg["google_file"])
product_truth = pd.read_csv(product_dir / product_cfg["truth_file"])
product_truth_pairs = {
    tuple(x) for x in product_truth[["idAmazon", "idGoogle"]].astype(str).values.tolist()
}

MINHASH_PRIME = 10007
MINHASH_PARAMS = [
    (1825, 409), (4507, 4012), (3658, 2286), (1680, 8935), (1425, 9674),
    (6913, 520), (489, 1535), (3583, 3811), (8280, 9863), (435, 9195),
    (3258, 8928), (6874, 3611), (7360, 9654), (4558, 106), (2616, 6924),
    (5575, 4552), (2548, 3527), (5515, 1674), (1520, 6224), (1585, 5881),
    (5636, 9891), (4334, 711), (7528, 8785), (2046, 6201), (1292, 9044),
    (4804, 5925), (9460, 3150), (1140, 750), (3734, 4741), (1308, 3814),
    (1655, 6227), (4555, 7428), (5978, 2664), (6066, 5820), (3433, 4374),
    (1170, 9980), (2804, 8751), (4011, 2677), (7574, 6216), (4423, 9125),
    (3599, 5313), (917, 3752), (526, 5168), (6573, 4386), (1085, 3456),
    (9293, 5155), (3484, 8179), (6483, 7517), (2341, 4339), (2288, 4040),
    (9198, 8830), (4305, 9577), (7020, 9560), (6544, 5930), (3594, 2266),
    (8349, 8085), (1490, 771), (1797, 2504), (2622, 6916), (9772, 1040)
]
MINHASH_NUM_BANDS = 30
MINHASH_ROWS_PER_BAND = 2

print("商品数据集:", product_cfg["label"], f"({PRODUCT_DATASET})")
print("Amazon:", amazon.shape)
print("Google:", google.shape)
print("商品真值对数量:", len(product_truth_pairs))
print("MinHash 配置:", len(MINHASH_PARAMS), "个哈希函数,", MINHASH_NUM_BANDS, "个 bands, 每个 band", MINHASH_ROWS_PER_BAND, "行")


def normalize_text(text):
    # YOUR CODE HERE
    raise NotImplementedError()


def extract_version_token(text):
    # YOUR CODE HERE
    raise NotImplementedError()


def build_product_df(df, cols):
    # YOUR CODE HERE
    raise NotImplementedError()


amazon_prep = build_product_df(amazon, ["title", "manufacturer"])
google_prep = build_product_df(google, ["name", "manufacturer"])


assert normalize_text("A.B-C  12") == "a b c 12"
assert extract_version_token("Version V10.4.8") == "10.4.8"
assert extract_version_token("punch software 20100") is None

required_cols = {"id", "norm_text", "joinKey", "token_count", "version_token", "has_bracket_note"}
for raw_df, prep_df in [(amazon, amazon_prep), (google, google_prep)]:
    assert set(prep_df.columns) >= required_cols
    assert len(prep_df) == len(raw_df)
    assert prep_df["joinKey"].map(lambda x: isinstance(x, list) and len(x) > 0).all()

assert amazon_prep.loc[amazon_prep["id"] == "b0002mg5uk", "version_token"].iloc[0] == "2.5"
assert bool(google_prep.loc[google_prep["id"] == "http://www.google.com/base/feeds/snippets/7249154325906371083", "has_bracket_note"].iloc[0])


class JaccardJoin:
    def jaccard_similarity(self, tokens1, tokens2):
        # YOUR CODE HERE
        raise NotImplementedError()

    def generate_candidates(self, df1, df2):
        # YOUR CODE HERE
        raise NotImplementedError()

    def verify_candidates(self, cand_df, threshold):
        # YOUR CODE HERE
        raise NotImplementedError()


jaccard_join = JaccardJoin()

cand_pairs = jaccard_join.generate_candidates(amazon_prep, google_prep)
reduction_ratio = 1 - len(cand_pairs) / (len(amazon_prep) * len(google_prep))
scored_pairs, verified_pairs = jaccard_join.verify_candidates(cand_pairs, threshold=0.5)


assert np.isclose(jaccard_join.jaccard_similarity([1, 2, 3], [2, 3, 4]), 0.5)
assert isinstance(cand_pairs, pd.DataFrame) and len(cand_pairs) > 0
assert set(cand_pairs.columns) >= {"id1", "joinKey1", "id2", "joinKey2", "shared_token_count"}
assert not cand_pairs.duplicated(["id1", "id2"]).any()
assert 0 < reduction_ratio < 1
assert isinstance(scored_pairs, pd.DataFrame) and len(scored_pairs) == len(cand_pairs)
assert scored_pairs["jaccard"].between(0, 1).all()
assert isinstance(verified_pairs, pd.DataFrame) and (verified_pairs["jaccard"] >= 0.5).all()


class MinHashJoin:
    def __init__(self, hash_params, prime=MINHASH_PRIME, bands=MINHASH_NUM_BANDS, rows_per_band=MINHASH_ROWS_PER_BAND):
        self.hash_params = hash_params
        self.prime = prime
        self.bands = bands
        self.rows_per_band = rows_per_band
        self.token_to_id = {}
        self.left_token_sets = {}
        self.right_token_sets = {}
        self.left_signatures = {}
        self.right_signatures = {}

    def token_to_id_func(self, left_join_keys, right_join_keys):
        # YOUR CODE HERE
        raise NotImplementedError()

    def minhash_signature(self, token_id_set):
        # YOUR CODE HERE
        raise NotImplementedError()

    def sig_similarity(self, sig1, sig2):
        # YOUR CODE HERE
        raise NotImplementedError()

    def generate_candidates(self, df1, df2):
        # YOUR CODE HERE
        raise NotImplementedError()

    def verify_candidates(self, cand_df, threshold):
        # YOUR CODE HERE
        raise NotImplementedError()


minhash_join = MinHashJoin(MINHASH_PARAMS, MINHASH_PRIME, MINHASH_NUM_BANDS, MINHASH_ROWS_PER_BAND)
minhash_cand_pairs = minhash_join.generate_candidates(amazon_prep, google_prep)
minhash_reduction_ratio = 1 - len(minhash_cand_pairs) / (len(amazon_prep) * len(google_prep))
minhash_scored_pairs, minhash_verified_pairs = minhash_join.verify_candidates(minhash_cand_pairs, threshold=0.5)


assert np.isclose(minhash_join.sig_similarity([1, 2, 3], [1, 4, 3]), 2 / 3)
assert isinstance(minhash_join.token_to_id, dict) and minhash_join.token_to_id and min(minhash_join.token_to_id.values()) == 1

for signature_map, prep_df in [(minhash_join.left_signatures, amazon_prep), (minhash_join.right_signatures, google_prep)]:
    assert isinstance(signature_map, dict) and len(signature_map) == len(prep_df)
    assert all(len(sig) == len(MINHASH_PARAMS) for sig in signature_map.values())

assert isinstance(minhash_cand_pairs, pd.DataFrame) and len(minhash_cand_pairs) > 0
assert list(minhash_cand_pairs.columns) == ["id1", "id2", "estimated_jaccard"]
assert not minhash_cand_pairs.duplicated(["id1", "id2"]).any()
assert 0 < minhash_reduction_ratio < 1
assert isinstance(minhash_scored_pairs, pd.DataFrame) and len(minhash_scored_pairs) == len(minhash_cand_pairs)
assert minhash_scored_pairs["estimated_jaccard"].between(0, 1).all()
assert isinstance(minhash_verified_pairs, pd.DataFrame) and (minhash_verified_pairs["estimated_jaccard"] >= 0.5).all()


# 请在本单元完成以下内容：
# 1. 实现 compute_prf(pred_pairs, true_pairs)
# 2. 计算 jaccard_candidate_metrics 与 jaccard_metrics
# 3. 计算 minhash_candidate_metrics 与 minhash_metrics
# 4. 生成 comparison


assert np.allclose(compute_prf({("a", "b"), ("c", "d")}, {("a", "b"), ("x", "y")}), (0.5, 0.5, 0.5))
assert set(jaccard_candidate_metrics) == {"candidate_count", "reduction_ratio", "covered_true_pairs", "candidate_recall"}
assert set(minhash_candidate_metrics) == {"candidate_count", "reduction_ratio", "covered_true_pairs", "candidate_recall"}
assert set(jaccard_metrics) == {"precision", "recall", "f1"}
assert set(minhash_metrics) == {"precision", "recall", "f1"}
assert isinstance(comparison, pd.DataFrame)
assert list(comparison.index) == ["jaccard_join", "minhash_join"]
assert list(comparison.columns) == ["candidate_count", "reduction_ratio", "covered_true_pairs", "candidate_recall", "precision", "recall", "f1"]

all_pairs = len(amazon_prep) * len(google_prep)
expected_candidate_pairs = {
    "jaccard_join": {tuple(x) for x in cand_pairs[["id1", "id2"]].astype(str).values.tolist()},
    "minhash_join": {tuple(x) for x in minhash_cand_pairs[["id1", "id2"]].astype(str).values.tolist()},
}
expected_metrics = {
    "jaccard_join": jaccard_metrics,
    "minhash_join": minhash_metrics,
}

for method, pairs in expected_candidate_pairs.items():
    assert comparison.loc[method, "candidate_count"] == len(pairs)
    assert np.isclose(comparison.loc[method, "reduction_ratio"], 1 - len(pairs) / all_pairs)
    assert np.isclose(comparison.loc[method, "candidate_recall"], len(pairs & product_truth_pairs) / len(product_truth_pairs))
    assert np.allclose(
        comparison.loc[method, ["precision", "recall", "f1"]].to_numpy(dtype=float),
        [expected_metrics[method]["precision"], expected_metrics[method]["recall"], expected_metrics[method]["f1"]],
    )

Lab 3: 电商数据准备实战¶

实验目的与学习目标¶

实验背景¶

第 0 步：数据加载与环境准备¶

商品匹配任务主线¶

任务 1: 数据清洗 (20 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 2: 用 JaccardJoin 实现商品近似匹配 (30 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 3: 用 MinHashJoin 实现商品近似匹配 (30 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 4: 生成商品匹配效果对比报告 (20 分)¶

任务背景¶

你需要完成¶

`comparison` 表格要求¶

`sample` 数据示例¶

实验圆满结束！¶

index	candidate_count	reduction_ratio	covered_true_pairs	candidate_recall	precision	recall	f1
jaccard_join	84	0.671875	16	1.000000	1.000000	0.375000	0.545455
minhash_join	23	0.910156	15	0.937500	1.000000	0.500000	0.666667

Lab 3: 电商数据准备实战¶

实验目的与学习目标¶

实验背景¶

第 0 步：数据加载与环境准备¶

商品匹配任务主线¶

任务 1: 数据清洗 (20 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 2: 用 JaccardJoin 实现商品近似匹配 (30 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 3: 用 MinHashJoin 实现商品近似匹配 (30 分)¶

任务背景¶

你需要完成¶

最终产出¶

任务 4: 生成商品匹配效果对比报告 (20 分)¶

任务背景¶

你需要完成¶

comparison 表格要求¶

sample 数据示例¶

实验圆满结束！¶

`comparison` 表格要求¶

`sample` 数据示例¶