HyperParameterTuning - การต่อสู้มะเร็งเต้านม
บทช่วยสอนนี้แสดงให้เห็นว่า SynapseML สามารถใช้เพื่อระบุการผสมผสานที่ดีที่สุดของ hyperparameters สําหรับตัวจําแนกประเภทที่คุณเลือกในท้ายที่สุดจะส่งผลให้แบบจําลองมีความแม่นยําและเชื่อถือได้มากขึ้น เพื่อสาธิตสิ่งนี้เราจะแสดงวิธีการดําเนินการแบบกระจายการค้นหา hyperparameter แบบสุ่มในการปรับแต่งเพื่อสร้างแบบจําลองเพื่อระบุมะเร็งเต้านม
1 - ตั้งค่าการขึ้นต่อกัน
เริ่มต้นด้วยการนําเข้า pandas และตั้งค่าเซสชัน Spark ของเรา
import pandas as pd
from pyspark.sql import SparkSession
# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()
ถัดไป อ่านข้อมูลและแยกข้อมูลออกเป็นชุดการปรับแต่งและการทดสอบ
data = spark.read.parquet(
"wasbs://publicwasb@mmlspark.blob.core.windows.net/BreastCancer.parquet"
).cache()
tune, test = data.randomSplit([0.80, 0.20])
tune.limit(10).toPandas()
กําหนดแบบจําลองที่จะใช้
from synapse.ml.automl import TuneHyperparameters
from synapse.ml.train import TrainClassifier
from pyspark.ml.classification import (
LogisticRegression,
RandomForestClassifier,
GBTClassifier,
)
logReg = LogisticRegression()
randForest = RandomForestClassifier()
gbt = GBTClassifier()
smlmodels = [logReg, randForest, gbt]
mmlmodels = [TrainClassifier(model=model, labelCol="Label") for model in smlmodels]
2 - ค้นหาแบบจําลองที่ดีที่สุดโดยใช้ AutoML
นําเข้าคลาส AutoML ของ SynapseML จากsynapse.ml.automl
ระบุ hyperparameters โดยใช้HyperparamBuilder
เพิ่ม hyperparameters อย่างใดอย่างหนึ่งDiscreteHyperParam
RangeHyperParam
TuneHyperparameters
จะสุ่มเลือกค่าจากการแจกแจงแบบเดียวกัน:
from synapse.ml.automl import *
paramBuilder = (
HyperparamBuilder()
.addHyperparam(logReg, logReg.regParam, RangeHyperParam(0.1, 0.3))
.addHyperparam(randForest, randForest.numTrees, DiscreteHyperParam([5, 10]))
.addHyperparam(randForest, randForest.maxDepth, DiscreteHyperParam([3, 5]))
.addHyperparam(gbt, gbt.maxBins, RangeHyperParam(8, 16))
.addHyperparam(gbt, gbt.maxDepth, DiscreteHyperParam([3, 5]))
)
searchSpace = paramBuilder.build()
# The search space is a list of params to tuples of estimator and hyperparam
print(searchSpace)
randomSpace = RandomSpace(searchSpace)
ถัดไป เรียกใช้ TuneHyperparameters เพื่อรับแบบจําลองที่ดีที่สุด
bestModel = TuneHyperparameters(
evaluationMetric="accuracy",
models=mmlmodels,
numFolds=2,
numRuns=len(mmlmodels) * 2,
parallelism=1,
paramSpace=randomSpace.space(),
seed=0,
).fit(tune)
3 - ประเมินแบบจําลอง
เราสามารถดูพารามิเตอร์ของแบบจําลองที่ดีที่สุดและเรียกใช้ไปป์ไลน์แบบจําลองที่ดีที่สุดต้นแบบ
print(bestModel.getBestModelInfo())
print(bestModel.getBestModel())
เราสามารถให้คะแนนกับชุดการทดสอบและดูเมตริกได้
from synapse.ml.train import ComputeModelStatistics
prediction = bestModel.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()