Pré-processar dados e configurar a transformação de características
Antes de executar um experimento de AutoML (machine learning automatizado), você precisa preparar seus dados. Quando quiser treinar um modelo de classificação, você só precisará fornecer os dados de treinamento.
Depois de coletar os dados, você precisa criar um ativo de dados no Azure Machine Learning. Para que o AutoML entenda como ler os dados, você precisa criar um recurso de dados MLTable que inclua o esquema dos dados.
Você pode criar um ativo de dados MLTable quando seus dados são armazenados em uma pasta junto com um arquivo MLTable. Ao criar o ativo de dados, você pode especificá-lo como entrada com o seguinte código:
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input
my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")
Dica
Saiba mais sobre como criar um ativo de dados MLTable no Azure Machine Learning.
Depois de criar o ativo de dados, você pode configurar o experimento AutoML. Antes que o AutoML treine um modelo de classificação, as transformações de pré-processamento podem ser aplicadas aos seus dados.
Entender o dimensionamento e a normalização
O AutoML aplica o dimensionamento e a normalização a dados numéricos automaticamente, ajudando a impedir que os recursos de grande escala dominem o treinamento. Durante um experimento autoML, várias técnicas de dimensionamento ou normalização serão aplicadas.
Configurar featurização opcional
Você pode optar por fazer com que o AutoML aplique transformações de pré-processamento, como:
- Imputação de valores ausentes para eliminar nulos no conjunto de dados de treinamento.
- Codificação categórica para converter recursos categóricos em indicadores numéricos.
- Descartando características de alta cardinalidade, como identificadores de registro.
- Engenharia de características (por exemplo, derivar partes individuais de data a partir de características de data e hora)
Por padrão, o AutoML executará a extração de características em seus dados. Você poderá desabilitá-lo se não quiser que os dados sejam transformados.
Se você quiser usar a função de featurização integrada, você pode personalizá-la. Por exemplo, você pode especificar qual método de imputação deve ser usado para um recurso específico.
Depois que um experimento AutoML for concluído, você poderá examinar quais métodos de dimensionamento e normalização foram aplicados. Você também será notificado se o AutoML tiver detectado problemas com os dados, como se há valores ausentes ou desequilíbrio de classe.