แชร์ผ่าน


ความสามารถในการแปล - Tabular SHAP explainer

ในตัวอย่างนี้ เราใช้ Kernel SHAP เพื่ออธิบายแบบจําลองการจัดประเภทแบบตารางที่สร้างขึ้นจากชุดข้อมูล Adults Census

ก่อนอื่นเรานําเข้าแพคเกจและกําหนด UDFs ที่เราต้องการในภายหลัง

import pyspark
from synapse.ml.explainers import *
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
from pyspark.sql.types import *
from pyspark.sql.functions import *
import pandas as pd
from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *




vec_access = udf(lambda v, i: float(v[i]), FloatType())
vec2array = udf(lambda vec: vec.toArray().tolist(), ArrayType(FloatType()))

ตอนนี้เรามาอ่านข้อมูลและฝึกแบบจําลองการจัดประเภทไบนารี

df = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/AdultCensusIncome.parquet"
)

labelIndexer = StringIndexer(
    inputCol="income", outputCol="label", stringOrderType="alphabetAsc"
).fit(df)
print("Label index assigment: " + str(set(zip(labelIndexer.labels, [0, 1]))))

training = labelIndexer.transform(df).cache()
display(training)
categorical_features = [
    "workclass",
    "education",
    "marital-status",
    "occupation",
    "relationship",
    "race",
    "sex",
    "native-country",
]
categorical_features_idx = [col + "_idx" for col in categorical_features]
categorical_features_enc = [col + "_enc" for col in categorical_features]
numeric_features = [
    "age",
    "education-num",
    "capital-gain",
    "capital-loss",
    "hours-per-week",
]

strIndexer = StringIndexer(
    inputCols=categorical_features, outputCols=categorical_features_idx
)
onehotEnc = OneHotEncoder(
    inputCols=categorical_features_idx, outputCols=categorical_features_enc
)
vectAssem = VectorAssembler(
    inputCols=categorical_features_enc + numeric_features, outputCol="features"
)
lr = LogisticRegression(featuresCol="features", labelCol="label", weightCol="fnlwgt")
pipeline = Pipeline(stages=[strIndexer, onehotEnc, vectAssem, lr])
model = pipeline.fit(training)

หลังจากที่แบบจําลองได้รับการฝึกแล้ว เราสุ่มเลือกข้อสังเกตบางอย่างที่จะอธิบาย

explain_instances = (
    model.transform(training).orderBy(rand()).limit(5).repartition(200).cache()
)
display(explain_instances)

เราสร้าง TabularSHAP อธิบาย ตั้งค่าคอลัมน์อินพุตเป็นคุณลักษณะทั้งหมดที่แบบจําลองใช้ ระบุแบบจําลองและคอลัมน์ผลลัพธ์เป้าหมายที่เรากําลังพยายามอธิบาย ในกรณีนี้ เรากําลังพยายามอธิบายเอาต์พุต "ความน่าจะเป็น" ซึ่งเป็นเวกเตอร์ของความยาว 2 และเราจะดูเฉพาะความน่าจะเป็นระดับ 1 เท่านั้น ระบุ targetClasses ไปยัง [0, 1] ถ้าคุณต้องการอธิบายความน่าจะเป็นของคลาส 0 และ 1 ในเวลาเดียวกัน สุดท้ายเราสุ่มตัวอย่าง 100 แถวจากข้อมูลการฝึกสําหรับข้อมูลพื้นหลังซึ่งใช้สําหรับการรวมคุณลักษณะใน Kernel SHAP เข้าด้วยกัน

shap = TabularSHAP(
    inputCols=categorical_features + numeric_features,
    outputCol="shapValues",
    numSamples=5000,
    model=model,
    targetCol="probability",
    targetClasses=[1],
    backgroundData=broadcast(training.orderBy(rand()).limit(100).cache()),
)

shap_df = shap.transform(explain_instances)

เมื่อเรามีดาต้าเฟรมผลลัพธ์แล้ว เราจะแยกความน่าจะเป็นคลาส 1 ของเอาต์พุตแบบจําลอง ค่า SHAP สําหรับคลาสเป้าหมาย คุณลักษณะเดิมและป้ายชื่อจริง จากนั้นเราแปลงเป็นกรอบข้อมูลของ pandas สําหรับการแสดงภาพ สําหรับการสังเกตการณ์แต่ละรายการ องค์ประกอบแรกในเวกเตอร์ค่า SHAP คือค่าฐาน (ผลลัพธ์เฉลี่ยของชุดข้อมูลพื้นหลัง) และแต่ละองค์ประกอบต่อไปนี้คือค่า SHAP สําหรับแต่ละคุณลักษณะ

shaps = (
    shap_df.withColumn("probability", vec_access(col("probability"), lit(1)))
    .withColumn("shapValues", vec2array(col("shapValues").getItem(0)))
    .select(
        ["shapValues", "probability", "label"] + categorical_features + numeric_features
    )
)

shaps_local = shaps.toPandas()
shaps_local.sort_values("probability", ascending=False, inplace=True, ignore_index=True)
pd.set_option("display.max_colwidth", None)
shaps_local

เราใช้การลงจุดย่อยลงจุดเพื่อแสดงค่า SHAP

from plotly.subplots import make_subplots
import plotly.graph_objects as go
import pandas as pd

features = categorical_features + numeric_features
features_with_base = ["Base"] + features

rows = shaps_local.shape[0]

fig = make_subplots(
    rows=rows,
    cols=1,
    subplot_titles="Probability: "
    + shaps_local["probability"].apply("{:.2%}".format)
    + "; Label: "
    + shaps_local["label"].astype(str),
)

for index, row in shaps_local.iterrows():
    feature_values = [0] + [row[feature] for feature in features]
    shap_values = row["shapValues"]
    list_of_tuples = list(zip(features_with_base, feature_values, shap_values))
    shap_pdf = pd.DataFrame(list_of_tuples, columns=["name", "value", "shap"])
    fig.add_trace(
        go.Bar(
            x=shap_pdf["name"],
            y=shap_pdf["shap"],
            hovertext="value: " + shap_pdf["value"].astype(str),
        ),
        row=index + 1,
        col=1,
    )

fig.update_yaxes(range=[-1, 1], fixedrange=True, zerolinecolor="black")
fig.update_xaxes(type="category", tickangle=45, fixedrange=True)
fig.update_layout(height=400 * rows, title_text="SHAP explanations")
fig.show()