Przekształcenia danych

Artykuł
03/05/2024

Przekształcenia danych służą do:

Przygotowywanie danych do trenowania modelu.
Zastosuj zaimportowany model w formacie TensorFlow lub ONNX.
Po przetworzeniu danych po przekazaniu ich przez model.

Przekształcenia w tym przewodniku zwracają klasy implementujące interfejs IEstimator . Przekształcenia danych można łączyć w łańcuchy. Każda transformacja oczekuje i tworzy dane określonych typów i formatów, które są określone w dokumentacji połączonej dokumentacji referencyjnej.

Niektóre przekształcenia danych wymagają danych szkoleniowych w celu obliczenia ich parametrów. Na przykład: NormalizeMeanVariance transformator oblicza średnią i wariancję danych treningowych podczas Fit() operacji i używa tych parametrów w Transform() operacji.

Inne przekształcenia danych nie wymagają danych szkoleniowych. Na przykład: transformacja ConvertToGrayscale może wykonać operację Transform() bez jakichkolwiek danych treningowych Fit() podczas operacji.

Mapowanie kolumn i grupowanie

Przekształcanie	Definicja	Możliwość eksportowania ONNX
Concatenate	Łączenie co najmniej jednej kolumny wejściowej w nowej kolumnie wyjściowej	Tak
CopyColumns	Kopiowanie i zmienianie nazwy co najmniej jednej kolumny wejściowej	Tak
DropColumns	Upuść co najmniej jedną kolumnę wejściową	Tak
SelectColumns	Wybierz co najmniej jedną kolumnę, aby zachować dane wejściowe	Tak

Normalizacja i skalowanie

Przekształcanie	Definicja	Możliwość eksportowania ONNX
NormalizeMeanVariance	Odejmowanie średniej (danych treningowych) i podzielenie przez wariancję (danych treningowych)	Tak
NormalizeLogMeanVariance	Normalizacja na podstawie logarytmu danych treningowych	Tak
NormalizeLpNorm	Skaluj wektory wejściowe według ich lp-norm, gdzie p wynosi 1, 2 lub nieskończoność. Wartości domyślne normy l2 (odległość euklidesowa)	Tak
NormalizeGlobalContrast	Skaluj każdą wartość w wierszu, odejmując średnią danych wierszy i dzieląc przez odchylenie standardowe lub l2-normę (dane wierszy) i mnożąc przez konfigurowalny współczynnik skalowania (domyślnie 2)	Tak
NormalizeBinning	Przypisz wartość wejściową do indeksu pojemnika i podziel według liczby pojemników, aby wygenerować wartość zmiennoprzecinkową z zakresu od 0 do 1. Granice pojemnika są obliczane w celu równomiernego rozłożenia danych treningowych między pojemnikami	Tak
NormalizeSupervisedBinning	Przypisywanie wartości wejściowej do pojemnika na podstawie jego korelacji z kolumną etykiety	Tak
NormalizeMinMax	Skalowanie danych wejściowych według różnicy między wartościami minimalnymi i maksymalnymi w danych treningowych	Tak
NormalizeRobustScaling	Skaluj każdą wartość przy użyciu statystyk niezawodnych dla wartości odstających, które wyśrodkują dane około 0 i skalują dane zgodnie z zakresem kwantylu.	Tak

Konwersje między typami danych

Przekształcanie	Definicja	Możliwość eksportowania ONNX
ConvertType	Konwertowanie typu kolumny wejściowej na nowy typ	Tak
MapValue	Mapowanie wartości na klucze (kategorie) na podstawie dostarczonego słownika mapowań	Nie.
MapValueToKey	Mapowanie wartości na klucze (kategorie) przez utworzenie mapowania na podstawie danych wejściowych	Tak
MapKeyToValue	Konwertowanie kluczy z powrotem na ich oryginalne wartości	Tak
MapKeyToVector	Konwertowanie kluczy z powrotem na wektory oryginalnych wartości	Tak
MapKeyToBinaryVector	Konwertowanie kluczy z powrotem na wektor binarny oryginalnych wartości	Nie.
Hash	Skrót wartości w kolumnie wejściowej	Tak

Przekształcenia tekstu

Przekształcanie	Definicja	Możliwość eksportowania ONNX
FeaturizeText	Przekształcanie kolumny tekstowej w tablicę zmiennoprzecinkową znormalizowanych ngramów i gramów znaków	Nie.
TokenizeIntoWords	Dzielenie co najmniej jednej kolumny tekstowej na pojedyncze wyrazy	Tak
TokenizeIntoCharactersAsKeys	Podziel co najmniej jedną kolumnę tekstową na poszczególne znaki zmiennoprzecinkowe na zestaw tematów	Tak
NormalizeText	Zmień wielkość liter, usuń znaki diakrytyczne, znaki interpunkcyjne i liczby	Tak
ProduceNgrams	Przekształcanie kolumny tekstowej w torbę liczb ngramów (sekwencje kolejnych wyrazów)	Tak
ProduceWordBags	Przekształcanie kolumny tekstowej w torbę liczby wektorów ngramów	Tak
ProduceHashedNgrams	Przekształcanie kolumny tekstowej w wektor liczby skrótów ngramów	Nie.
ProduceHashedWordBags	Przekształcanie kolumny tekstowej w torbę skrótów liczb ngramu	Tak
RemoveDefaultStopWords	Usuń domyślne słowa zatrzymania dla określonego języka z kolumn wejściowych	Tak
RemoveStopWords	Usuwa określone słowa zatrzymania z kolumn wejściowych	Tak
LatentDirichletAllocation	Przekształcanie dokumentu (reprezentowanego jako wektor zmiennoprzecinków) w wektor zmiennoprzecinkowy na zestawie tematów	Tak
ApplyWordEmbedding	Konwertowanie wektorów tokenów tekstowych na wektory zdań przy użyciu wstępnie wytrenowanego modelu	Tak

Przekształcenia obrazów

Przekształcanie	Definicja	Możliwość eksportowania ONNX
ConvertToGrayscale	Konwertowanie obrazu na skala szarości	Nie.
ConvertToImage	Konwertowanie wektora pikseli na ImageDataViewType	Nie.
ExtractPixels	Konwertowanie pikseli z obrazu wejściowego na wektor liczb	Nie.
LoadImages	Ładowanie obrazów z folderu do pamięci	Nie.
LoadRawImageBytes	Ładuje obrazy nieprzetworzonych bajtów do nowej kolumny.	Nie.
ResizeImages	Zmienianie rozmiaru obrazów	Nie.
DnnFeaturizeImage	Stosuje wstępnie wytrenowany model głębokiej sieci neuronowej (DNN), aby przekształcić obraz wejściowy w wektor funkcji	Nie.