Spark での ONNX 推論

[アーティクル]
01/23/2024

この例では、LightGBM モデルをトレーニングし、モデルを ONNX 形式に変換します。変換が完了したら、モデルを使用して Spark でいくつかのテストデータを推論します。

この例では、次の Python パッケージとバージョンを使用します。

onnxmltools==1.7.0
lightgbm==3.2.1

前提条件

ノートブックをレイクハウスにアタッチします。左側で [追加] を選択して、既存のレイクハウスを追加するか、レイクハウスを作成します。
コードセルに !pip install onnxmltools==1.7.0 を追加し、そのセルを実行して onnxmltools をインストールする必要がある場合があります。

サンプルデータを読み込む

サンプルデータを読み込むには、ノートブック内のセルに次のコード例を追加し、セルを実行します。

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

df = (
    spark.read.format("csv")
    .option("header", True)
    .option("inferSchema", True)
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/company_bankruptcy_prediction_data.csv"
    )
)

display(df)

出力は次の表と同じようになりますが、値と行数は異なる場合があります。

インタレストカバレッジレシオ	純利益フラグ	負債に対する自己資本比率
0.5641	1.0	0.0165
0.5702	1.0	0.0208
0.5673	1.0	0.0165

LightGBM を使用してモデルをトレーニングする

from pyspark.ml.feature import VectorAssembler
from synapse.ml.lightgbm import LightGBMClassifier

feature_cols = df.columns[1:]
featurizer = VectorAssembler(inputCols=feature_cols, outputCol="features")

train_data = featurizer.transform(df)["Bankrupt?", "features"]

model = (
    LightGBMClassifier(featuresCol="features", labelCol="Bankrupt?", dataTransferMode="bulk")
    .setEarlyStoppingRound(300)
    .setLambdaL1(0.5)
    .setNumIterations(1000)
    .setNumThreads(-1)
    .setMaxDeltaStep(0.5)
    .setNumLeaves(31)
    .setMaxDepth(-1)
    .setBaggingFraction(0.7)
    .setFeatureFraction(0.7)
    .setBaggingFreq(2)
    .setObjective("binary")
    .setIsUnbalance(True)
    .setMinSumHessianInLeaf(20)
    .setMinGainToSplit(0.01)
)

model = model.fit(train_data)

モデルを ONNX 形式に変換する

次のコードでは、トレーニング済みのモデルを LightGBM ブースターにエクスポートし、ONNX 形式に変換します。

import lightgbm as lgb
from lightgbm import Booster, LGBMClassifier


def convertModel(lgbm_model: LGBMClassifier or Booster, input_size: int) -> bytes:
    from onnxmltools.convert import convert_lightgbm
    from onnxconverter_common.data_types import FloatTensorType

    initial_types = [("input", FloatTensorType([-1, input_size]))]
    onnx_model = convert_lightgbm(
        lgbm_model, initial_types=initial_types, target_opset=9
    )
    return onnx_model.SerializeToString()


booster_model_str = model.getLightGBMBooster().modelStr().get()
booster = lgb.Booster(model_str=booster_model_str)
model_payload_ml = convertModel(booster, len(feature_cols))

変換後、ONNX ペイロードを ONNXModel に読み込み、モデルの入力と出力を調べます。

from synapse.ml.onnx import ONNXModel

onnx_ml = ONNXModel().setModelPayload(model_payload_ml)

print("Model inputs:" + str(onnx_ml.getModelInputs()))
print("Model outputs:" + str(onnx_ml.getModelOutputs()))

モデル入力を入力データフレームの列名 (FeedDict) にマップし、出力データフレームの列名をモデル出力 (FetchDict) にマップします。

onnx_ml = (
    onnx_ml.setDeviceType("CPU")
    .setFeedDict({"input": "features"})
    .setFetchDict({"probability": "probabilities", "prediction": "label"})
    .setMiniBatchSize(5000)
)

推論にモデルを使用する

モデルを使用して推論を実行するために、次のコードではテストデータを作成し、ONNX モデル経由でデータを変換します。

from pyspark.ml.feature import VectorAssembler
import pandas as pd
import numpy as np

n = 1000 * 1000
m = 95
test = np.random.rand(n, m)
testPdf = pd.DataFrame(test)
cols = list(map(str, testPdf.columns))
testDf = spark.createDataFrame(testPdf)
testDf = testDf.union(testDf).repartition(200)
testDf = (
    VectorAssembler()
    .setInputCols(cols)
    .setOutputCol("features")
    .transform(testDf)
    .drop(*cols)
    .cache()
)

display(onnx_ml.transform(testDf))

出力は次の表と同じようになりますが、値と行数は異なる場合があります。

Index	機能	予測	確率
1	`"{"type":1,"values":[0.105...`	0	`"{"0":0.835...`
2	`"{"type":1,"values":[0.814...`	0	`"{"0":0.658...`

次の方法で共有

Spark での ONNX 推論

前提条件

サンプルデータを読み込む

LightGBM を使用してモデルをトレーニングする

モデルを ONNX 形式に変換する

推論にモデルを使用する

フィードバック

その他のリソース

次の方法で共有

Spark での ONNX 推論

前提条件

サンプル データを読み込む

LightGBM を使用してモデルをトレーニングする

モデルを ONNX 形式に変換する

推論にモデルを使用する

関連するコンテンツ

フィードバック

その他のリソース

サンプルデータを読み込む