Předběžné zpracování dat a konfigurace featurizace

Dokončeno

Než budete moct spustit experiment automatizovaného strojového učení (AutoML), musíte připravit data. Pokud chcete vytrénovat klasifikační model, budete muset poskytnout jenom trénovací data.

Po shromáždění dat je potřeba vytvořit datový asset ve službě Azure Machine Učení. Abyste mohli AutoML pochopit, jak číst data, musíte vytvořit datový asset MLTable , který obsahuje schéma dat.

Datový prostředek MLTable můžete vytvořit, když jsou data uložená ve složce společně se souborem MLTable. Po vytvoření datového assetu ho můžete zadat jako vstup pomocí následujícího kódu:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Po vytvoření datového assetu můžete experiment AutoML nakonfigurovat. Než AutoML trénuje klasifikační model, je možné u dat použít transformace předzpracování.

Principy škálování a normalizace

AutoML automaticky aplikuje škálování a normalizaci na číselná data, což pomáhá zabránit tomu, aby dominoval trénování všech rozsáhlých funkcí. Během experimentu AutoML se použije několik technik škálování nebo normalizace.

Konfigurace volitelné featurizace

Můžete zvolit, jestli má AutoML použít transformace předběžného zpracování, například:

  • Vložení chybějících hodnot s cílem eliminovat v trénovací datové sadě hodnoty null.
  • Kódování kategorií s cílem převést atributy kategorií na číselné indikátory.
  • Vynechání atributů s vysokou mírou kardinality, jako jsou například ID záznamů.
  • Vytvoření atributů (například odvození jednotlivých částí kalendářních dat z atributů DateTime).

AutoML ve výchozím nastavení provede featurizaci vašich dat. Pokud nechcete, aby se data transformovala, můžete ho zakázat.

Pokud chcete použít integrovanou funkci featurizace, můžete ji přizpůsobit. Můžete například určit, která metoda imputace se má použít pro konkrétní funkci.

Po dokončení experimentu AutoML budete moct zkontrolovat, které metody škálování a normalizace byly použity. Dostanete také upozornění, pokud AutoML zjistila problémy s daty, například jestli chybí hodnoty nebo nerovnováha tříd.