Pré-processar dados e configurar a featurização
Antes de executar um experimento de aprendizado de máquina automatizado (AutoML), você precisa preparar seus dados. Quando você quiser treinar um modelo de classificação, você só precisará fornecer os dados de treinamento.
Depois de coletar os dados, você precisa criar um ativo de dados no Azure Machine Learning. Para que o AutoML entenda como ler os dados, você precisa criar um ativo de dados MLTable que inclua o esquema dos dados.
Você pode criar um ativo de dados MLTable quando seus dados são armazenados em uma pasta junto com um arquivo MLTable. Depois de criar o ativo de dados, você pode especificá-lo como entrada com o seguinte código:
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input
my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")
Gorjeta
Saiba mais sobre como criar um ativo de dados MLTable no Azure Machine Learning.
Depois de criar o ativo de dados, você pode configurar o experimento AutoML. Antes de o AutoML treinar um modelo de classificação, as transformações de pré-processamento podem ser aplicadas aos seus dados.
Compreender o dimensionamento e a normalização
O AutoML aplica dimensionamento e normalização a dados numéricos automaticamente, ajudando a evitar que recursos de grande escala dominem o treinamento. Durante um experimento AutoML, várias técnicas de dimensionamento ou normalização serão aplicadas.
Configurar featurização opcional
Você pode optar por fazer com que o AutoML aplique transformações de pré-processamento, como:
- Imputação de valores em falta para eliminar nulos em conjuntos de dados de preparação.
- Codificação categórica para converter características categóricas em indicadores numéricos.
- Descartar características com elevada cardinalidade, como IDs de registos.
- Engenharia de características (por exemplo, deduzir partes de data individuais a partir de características DateTime)
Por padrão, o AutoML executará a featurização em seus dados. Você pode desativá-lo se não quiser que os dados sejam transformados.
Se você quiser fazer uso da função de featurização integrada, você pode personalizá-la. Por exemplo, você pode especificar qual método de imputação deve ser usado para um recurso específico.
Depois que um experimento AutoML for concluído, você poderá revisar quais métodos de dimensionamento e normalização foram aplicados. Você também será notificado se o AutoML detetar algum problema com os dados, como se há valores ausentes ou desequilíbrio de classe.