Algorytm klastrowanie Microsoft
The Microsoft klastrowanie algorithm is a segmentacja algorithm provided by SQL Server 2008 Analysis Services (SSAS). Algorytm korzysta z techniki iteracji do spraw grupy danych, w klastry, które zawierają podobne cechy.Te grupy są przydatne do eksplorowania danych, identyfikujący anomalii w danych i tworzenia prognoz.
klastrowanie modeli identyfikować relacje w zestawie danych, który użytkownik nie może być logicznie pochodzi za pośrednictwem przypadkowym obserwacji.Na przykład który może logicznie wykrycia czy osób, które commute do swoich zadań przez roweru nie zwykle aktywne na dużą odległość od ich działania.Algorytm mieszania, jednak można znaleźć inne cechy dotyczące commuters rowerów, które nie są tak oczywisty.Na poniższym diagramie klastra reprezentuje dane dotyczące osób, które mają tendencję do kierowania do pracy w czasie, gdy klaster B reprezentuje dane dotyczące osób, które mają na celu jazdy rowery do pracy.
klastrowanie Algorytm różni się od innych algorytmów wyszukiwanie danych, takich jak Microsoft Decyzja algorytmu drzewa, w tym, że nie trzeba wyznaczyć przewidywalne kolumna, aby możliwe było tworzenie klastrowanie modelu. Algorytm klastrowania przygotowuje modelu ściśle z relacji, które znajdują się w danych i klastry, które identyfikuje algorytm mieszania.
Przykład
Należy wziąć pod uwagę grupy osób, którzy udostępniać podobnych informacji demograficznych firmie i którzy kupują podobnych produktów z Adventure Works Firma. Ta grupa osób reprezentuje klastra danych.Istnieje kilka takich klastrów w bazie danych.Przez obserwowania kolumny wchodzące w skład klastra, można dokładniej zobaczyć, w jaki sposób rekordy danych są powiązane ze sobą.
Jak działa algorytmu
The Microsoft klastrowanie algorithm first identifies relationships in a dataset and generates a series of clusters based on those relationships. Wykres punktowy jest to przydatny sposób wizualnie reprezentują jak algorytm grupuje dane, jak pokazano na poniższym diagramie.Wykres punktowy reprezentuje wszystkich spraw do danych, a każda przypadek jest punkt na wykresie.Klastry grupy punktów na wykresie oraz ilustrują relacje, które identyfikuje algorytm mieszania.
Po pierwszym zdefiniowaniu klastrów, algorytm oblicza, jak również klastrów reprezentują grupy punktów, a następnie próbuje ponownie zdefiniować grupy do tworzenia klastrów, które lepiej przedstawiają dane.Algorytm wykonuje iteracje przez ten proces, dopóki go nie można bardziej zwiększyć wyniki przez przedefiniowanie klastrów.
Algorytm działania, wybierając, określanie na klastrowanie technika, ograniczanie maksymalnej liczby klastrów lub zmiany ilości obsługi wymaganych do tworzenia klastra można dostosować.Aby uzyskać więcej informacji zobaczInformacje techniczne algorytm klastrowanie Microsoft.
Dane wymagane dla klastrowanie modele
Przygotowywanie danych do użycia w szkolenia klastrowanie modelu, należy zrozumieć wymagania dotyczące określonego algorytmu, potrzebny jest ilości danych i sposób użycia danych.
Wymagania dotyczące klastrowanie modelu są następujące:
Pojedyncze key kolumna Każdy model musi zawierać jedną kolumna numerycznym lub tekstowym, które jednoznacznie identyfikują każdy rekord.Złożone klucze nie są dozwolone.
kolumna danych wejściowych Każdy model musi zawierać co najmniej jedną kolumna danych wejściowych, zawierającą wartości, które są używane do tworzenia klastrów.Może być dowolnie wiele kolumna s wprowadzania, ale w zależności od liczby wartości w każdym kolumna, dodanie dodatkowych kolumna s może wydłużyć czas potrzebny na szkolić w modelu.
Opcjonalne przewidywalna kolumna Algorytm nie jest konieczne przewidywalna kolumna do budowania modelu, ale można dodać przewidywalna kolumna niemal dowolnego typu danych.Wartości kolumna przewidywalne mogą być traktowane jako dane wejściowe klastrowanie modelu lub użytkownik może określić, że będą stosowane do przewidywanie tylko.Na przykład jeżeli chcemy prognozować dochód klienta przez klastrowanie na kryteria demograficzne, takie jak wiek lub region, czy określisz dochodu jako PredictOnly i Dodaj wszystkie pozostałe kolumny, takie jak wiek, lub region jako danych wejściowych.
Szczegółowe informacje na temat typów zawartości i typy danych obsługiwane w przypadku klastrowanie modeli, należy zapoznać z sekcją Wymagania dotyczące Informacje techniczne algorytm klastrowanie Microsoft.
Wyświetlanie modelu klastrowanie
Aby poznać modelu, można użyć Podgląd klastrowania firmy Microsoft.Po wyświetleniu klastrowanie modelu Analysis Services Pokazuje klastrów na diagramie, który przedstawia relacje między klastrów, a także zawiera szczegółowe profil każdy klaster listy atrybutów, które każdy klaster od siebie odróżnić i charakterystyki szkolenia całego zestaw danych. Aby uzyskać więcej informacji zobaczWyświetlanie model wyszukiwania z podglądem klastrowania firmy Microsoft.
Jeśli chcesz wiedzieć więcej szczegółów można przeglądać w modelu Podgląd zawartości drzewa rodzajowa firmy Microsoft.Zawartość przechowywaną modelu obejmuje dystrybucji dla wszystkich wartości w każdym węźle, prawdopodobieństwo każdy klaster, a także inne informacje.Aby uzyskać więcej informacji zobaczmodel wyszukiwania Zawartości dla klastrowanie modele (Analysis Services — wyszukiwanie danych).
Tworzenie prognoz
Model ma został wyszkolony, wyniki są przechowywane jako zbiór wzorce, które można eksplorować lub użyć do utworzenia prognoz.
Można tworzyć kwerendy, aby przywrócić prognoz dotyczących czy nowych danych jest dopasowywana do klastrów, które zostały wykryte lub uzyskać Statystyki opisowe informacje dotyczące klastrów.
Aby uzyskać informacje dotyczące tworzenia kwerend względem model wyszukiwanie danych zobacz Podczas badania modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych). Aby zapoznać się z przykładami używania kwerend z modelem klastrowania zobacz Podczas badania modelu klastrowanie (Analysis Services — wyszukiwanie danych).
Uwagi
Obsługuje korzystanie z przewidywanego modelu Markup Language (PMML) do tworzenia modeli wyszukiwania.
Obsługuje przeglądanie szczegółowe.
Obsługuje korzystanie z modeli wyszukiwania OLAP i tworzenia wymiary wyszukiwanie danych.
See Also