Spark 上的 ONNX 推理

项目
01/23/2024

在此示例中，你将训练 LightGBM 模型并将它转换为 ONNX 格式。转换后，使用模型推断 Spark 上的一些测试数据。

此示例使用以下 Python 包和版本：

onnxmltools==1.7.0
lightgbm==3.2.1

先决条件

将笔记本附加到湖屋。在左侧，选择“添加”以添加现有湖屋或创建湖屋。
你可能需要安装 onnxmltools，方法是在代码单元格中添加 !pip install onnxmltools==1.7.0，然后运行该单元格。

加载示例数据

若要加载示例数据，请将以下代码示例添加到笔记本中的单元格，然后运行这些单元格：

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

df = (
    spark.read.format("csv")
    .option("header", True)
    .option("inferSchema", True)
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/company_bankruptcy_prediction_data.csv"
    )
)

display(df)

输出应类似于下表，但值和行数可能有所不同：

利息覆盖率	净收入标志	权益与负债
0.5641	1.0	0.0165
0.5702	1.0	0.0208
0.5673	1.0	0.0165

使用 LightGBM 训练模型

from pyspark.ml.feature import VectorAssembler
from synapse.ml.lightgbm import LightGBMClassifier

feature_cols = df.columns[1:]
featurizer = VectorAssembler(inputCols=feature_cols, outputCol="features")

train_data = featurizer.transform(df)["Bankrupt?", "features"]

model = (
    LightGBMClassifier(featuresCol="features", labelCol="Bankrupt?", dataTransferMode="bulk")
    .setEarlyStoppingRound(300)
    .setLambdaL1(0.5)
    .setNumIterations(1000)
    .setNumThreads(-1)
    .setMaxDeltaStep(0.5)
    .setNumLeaves(31)
    .setMaxDepth(-1)
    .setBaggingFraction(0.7)
    .setFeatureFraction(0.7)
    .setBaggingFreq(2)
    .setObjective("binary")
    .setIsUnbalance(True)
    .setMinSumHessianInLeaf(20)
    .setMinGainToSplit(0.01)
)

model = model.fit(train_data)

将模型转换为 ONNX 格式

以下代码将训练的模型导出到 LightGBM 增强程序，然后将其转换为 ONNX 格式：

import lightgbm as lgb
from lightgbm import Booster, LGBMClassifier


def convertModel(lgbm_model: LGBMClassifier or Booster, input_size: int) -> bytes:
    from onnxmltools.convert import convert_lightgbm
    from onnxconverter_common.data_types import FloatTensorType

    initial_types = [("input", FloatTensorType([-1, input_size]))]
    onnx_model = convert_lightgbm(
        lgbm_model, initial_types=initial_types, target_opset=9
    )
    return onnx_model.SerializeToString()


booster_model_str = model.getLightGBMBooster().modelStr().get()
booster = lgb.Booster(model_str=booster_model_str)
model_payload_ml = convertModel(booster, len(feature_cols))

转换后，将 ONNX 有效负载加载到 ONNXModel 中，并检查模型输入和输出：

from synapse.ml.onnx import ONNXModel

onnx_ml = ONNXModel().setModelPayload(model_payload_ml)

print("Model inputs:" + str(onnx_ml.getModelInputs()))
print("Model outputs:" + str(onnx_ml.getModelOutputs()))

将模型输入映射到输入数据帧的列名 (FeedDict)，并将输出数据帧的列名映射到模型输出 (FetchDict)。

onnx_ml = (
    onnx_ml.setDeviceType("CPU")
    .setFeedDict({"input": "features"})
    .setFetchDict({"probability": "probabilities", "prediction": "label"})
    .setMiniBatchSize(5000)
)

使用用于推理的模型

为了对模型执行推理，以下代码将创建测试数据并通过 ONNX 模型转换数据。

from pyspark.ml.feature import VectorAssembler
import pandas as pd
import numpy as np

n = 1000 * 1000
m = 95
test = np.random.rand(n, m)
testPdf = pd.DataFrame(test)
cols = list(map(str, testPdf.columns))
testDf = spark.createDataFrame(testPdf)
testDf = testDf.union(testDf).repartition(200)
testDf = (
    VectorAssembler()
    .setInputCols(cols)
    .setOutputCol("features")
    .transform(testDf)
    .drop(*cols)
    .cache()
)

display(onnx_ml.transform(testDf))

输出应类似于下表，但值和行数可能有所不同：

索引	功能	预测	概率
1	`"{"type":1,"values":[0.105...`	0	`"{"0":0.835...`
2	`"{"type":1,"values":[0.814...`	0	`"{"0":0.658...`

通过

Spark 上的 ONNX 推理

先决条件

加载示例数据

使用 LightGBM 训练模型

将模型转换为 ONNX 格式

使用用于推理的模型

反馈

其他资源

通过

Spark 上的 ONNX 推理

先决条件

加载示例数据

使用 LightGBM 训练模型

将模型转换为 ONNX 格式

使用用于推理的模型

相关内容

反馈

其他资源