Regresja Poissona
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Tworzy model regresji, który zakłada, że dane mają rozkład Poissona
Kategoria: Machine Learning / Inicjowanie modelu / Regresja
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu regresji Poissona w programie Machine Learning Studio (klasycznej) do utworzenia modelu regresji Poissona.
Regresja Poissona jest przeznaczona do użycia w modelach regresji, które są używane do przewidywania wartości liczbowych, zwykle zliczanych. W związku z tym należy użyć tego modułu do utworzenia modelu regresji tylko wtedy, gdy wartości, które chcesz przewidzieć, pasują do następujących warunków:
Zmienna odpowiedzi ma rozkład Poissona.
Liczby nie mogą być ujemne. Metoda nie powiedzie się, jeśli spróbuje się jej użyć z etykietami negatywnymi.
Rozkład Poissona jest rozkładem dyskretnym; W związku z tym użycie tej metody w przypadku liczb innych niż liczby pełne nie ma znaczenia.
Porada
Jeśli element docelowy nie jest liczny, regresja Poissona prawdopodobnie nie jest odpowiednią metodą. Wypróbuj jeden z pozostałych modułów w tej kategorii. Aby uzyskać pomoc przy wybieraniu metody regresji, zobacz ściągawkę Machine Learning algorytmów.
Po skonfigurowaniu metody regresji musisz przeszkolić model przy użyciu zestawu danych zawierającego przykłady wartości, którą chcesz przewidzieć. Wytrenowany model może następnie służyć do przewidywania.
Więcej informacji na temat regresji Poissona
Regresja Poissona to specjalny typ analizy regresji, który jest zwykle używany do zliczania modeli. Na przykład regresja Poissona byłaby przydatna w tych scenariuszach:
Modelowanie liczby przeziębień skojarzonych z lotami samolotowymi
Szacowanie liczby wywołań usług awaryjnych podczas zdarzenia
Prognozowanie liczby zapytań klientów po promocji
Tworzenie tabel awaryjnych
Ponieważ zmienna odpowiedzi ma rozkład Poissona, model dokonuje różnych założeń dotyczących danych i ich rozkładu prawdopodobieństwa niż na przykład regresja najmniejszych kwadratów. W związku z tym modele Poissona powinny być interpretowane inaczej niż inne modele regresji.
Jak skonfigurować regresję Poissona
Dodaj moduł Regresja Poissona do eksperymentu w programie Studio (wersja klasyczna).
Ten moduł można znaleźć w Machine Learning — Inicjowanie w kategorii Regresja.
Dodaj zestaw danych, który zawiera dane szkoleniowe odpowiedniego typu.
Zalecamy użycie polecenia Normalize Data (Normalizacja danych ) do normalizacji wejściowego zestawu danych przed użyciem go do trenowania regressor.
W okienku Właściwości modułu Regresja Poissona określ sposób trenowania modelu, ustawiając opcję Utwórz tryb szkoleniowy .
Pojedynczy parametr: jeśli wiesz, jak chcesz skonfigurować model, podaj określony zestaw wartości jako argumenty.
Zakres parametrów. Jeśli nie masz pewności co do najlepszych parametrów, wykonaj czyszczenie parametrów przy użyciu modułu Hiperparametry modelu dostrajania. Instruktor iteruje po wielu wartościach, które określisz, aby znaleźć optymalną konfigurację.
Tolerancja optymalizacji: wpisz wartość, która definiuje interwał tolerancji podczas optymalizacji. Im niższa wartość, tym wolniejsze i dokładniejsze dopasowanie.
Waga regularyzacji L1 iwaga regularyzacji L2: wpisz wartości do użycia na użytek regularyzacji L1 i L2. Regularyzacja dodaje do algorytmu ograniczenia dotyczące aspektów modelu, które są niezależne od danych treningowych. Regularyzacja jest często używana w celu uniknięcia naddopasowania.
Regularyzacja L1 jest przydatna, jeśli celem jest, aby model był jak najrzebszy.
Regularyzacja L1 jest wykonywana przez odjęcie wagi L1 wektora wagi od wyrażenia straty, które u ucząca się próbuje zminimalizować. Norma L1 jest dobrym przybliżeniem normy L0, czyli liczby współrzędnych innych niż zero.
Regularyzacja L2 zapobiega nadmiernemu wzrostowi wielkości dowolnej pojedynczej współrzędnej w wektorze wagi. Regularyzacja L2 jest przydatna, jeśli celem jest model z małymi ogólnymi wagami.
W tym module można zastosować kombinację regularyzacji L1 i L2. Łącząc regularalizację L1 i L2, można nałożyć karę na wielkość wartości parametrów. U uczący się próbuje zminimalizować karę w kompromisie, minimalizując stratę.
Aby uzyskać dobre omówienie L1 i L2 regularization, zobacz L1 i L2 Regularization for Machine Learning (Regularyzacja L1 i L2).
Rozmiar pamięci dla L-BFGS: określ ilość pamięci do zarezerwowania w celu dopasowania i optymalizacji modelu.
L-BFGS to konkrecyjna metoda optymalizacji oparta na algorytmie Broydena–PlatformieTcher–Goldfarb–Shanno (BFGS). Metoda używa ograniczonej ilości pamięci (L) do obliczenia kierunku następnego kroku.
Zmieniając ten parametr, można wpłynąć na liczbę przeszłych pozycji i gradientów, które są przechowywane do obliczenia w następnym kroku.
Połączenie zestaw danych treningowych i nieprzetrenowany model do jednego z modułów szkoleniowych:
Jeśli ustawisz dla ustawienia Utwórz tryb szkoleniowy wartość Pojedynczy parametr, użyj modułu Train Model (Trenowanie modelu).
Jeśli ustawisz dla ustawienia Utwórz tryb szkoleniowy wartość Zakres parametrów, użyj modułu Hiperparametry modelu dostrajania.
Ostrzeżenie
W przypadku przekazania zakresu parametrów do funkcji Train Model jest używana tylko pierwsza wartość z listy zakresów parametrów.
Jeśli przekażemy pojedynczy zestaw wartości parametrów do modułu Dostrajanie hiperparametrów modelu, jeśli oczekuje on zakresu ustawień dla każdego parametru, zignoruje wartości i użyje wartości domyślnych dla uczących się.
Jeśli wybierzesz opcję Zakres parametrów i wpiszesz pojedynczą wartość dowolnego parametru, ta pojedyncza wartość, która zostanie określona, będzie używana podczas całego czyszczenie, nawet jeśli inne parametry zmienią się w zakresie wartości.
Uruchom eksperyment, aby wytszkolić model.
Przykłady
Aby uzyskać przykłady dotyczące sposobu, w jaki regresja Poissona jest używana w uczeniu maszynowym, zobacz Azure AI Gallery.
Przykład 6: Trenowanie, Testowanie, Ocena regresji: Zestaw danych automatycznego importu: Ten eksperyment porównuje wyniki dwóch algorytmów: regresji Poissona i regresjilasu decyzyjnego.
Konserwacja zapobiegawcza: rozszerzony przewodnik, który używa regresji Poissona do oceny ważności błędów przewidywanych przez model lasu decyzyjnego.
Uwagi techniczne
Regresja Poissona jest używana do modelowania danych zliczania przy założeniu, że etykieta ma rozkład Poissona. Można na przykład użyć jej do przewidywania liczby rozmów telefonicznych z centrum obsługi klienta w określonym dniu.
W przypadku tego algorytmu zakłada się, że nieznana funkcja, oznaczona Y, ma rozkład Poissona. Rozkład Poissona jest zdefiniowany w następujący sposób:
Biorąc pod uwagę wystąpienie x = (x0, ..., xd-1) dla każdego k=0,1, ..., moduł oblicza prawdopodobieństwo, że wartość wystąpienia wynosi k.
Biorąc pod uwagę zestaw przykładów treningowych, algorytm próbuje znaleźć optymalne wartości dla algorytmu algorytmu ... do 20, ..., do 1, próbując zmaksymalizować prawdopodobieństwo dziennika parametrów. Prawdopodobieństwo parametrów å0, ...,doD-1 jest prawdopodobieństwem, że dane treningowe były próbkowane z rozkładu z tymi parametrami.
Prawdopodobieństwo dziennika można wyświetlić jako logp(y = yi)
Funkcja prediction wyprowadza oczekiwaną wartość tego sparametryzowanego rozkładu Poissona, w szczególności: fw,b(x) = E[Y|x] = ewTx+b.
Aby uzyskać więcej informacji, zobacz wpis regresji Poissona w Wikipedii.
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Tolerancja optymalizacji | >= double. Epsilon | Float | 0.0000001 | Określ wartość tolerancji zbieżności optymalizacji. Im niższa wartość, tym wolniejsze i dokładniejsze dopasowanie. |
Waga regularyzacji L1 | >= 0,0 | Float | 1.0 | Określ wagę regularyzacji L1. Użyj wartości niezerowej, aby uniknąć naddopasowania modelu. |
Waga regularyzacji L2 | >= 0,0 | Float | 1.0 | Określ wagę regularyzacji L2. Użyj wartości niezerowej, aby uniknąć naddopasowania modelu. |
Rozmiar pamięci dla L-BFGS | >= 1 | Liczba całkowita | 20 | Wskaż ilość pamięci (w MB) do użycia dla optymalizatora L-BFGS. Przy mniejszej ilości pamięci trenowania jest szybsze, ale mniej dokładne. |
Iniekt liczb losowych | dowolny | Liczba całkowita | Wpisz wartość, aby zainicjować generator liczb losowych używany przez model. Pozostaw wartość domyślną jako pustą. | |
Zezwalaj na nieznane poziomy kategorii | dowolny | Wartość logiczna | true | Wskaż, czy należy utworzyć dodatkowy poziom dla każdej kolumny kategorii. Wszystkie poziomy w testowym zestawie danych niedostępne w zestawie danych treningowych są mapowane na ten dodatkowy poziom. |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Nie wytrenowany model | ILearner, interfejs | Nieprzeszkolony model regresji |