Dane zadanie profilowania
Profilowanie dane zadanie oblicza różne profile, ułatwiające zapoznanie się z danymi źródło i zidentyfikować problemy danych musi być stały.
Można użyć zadania profilowania danych wewnątrz Integration Services pakiet danych profilu, który jest przechowywany w SQL Server i zidentyfikować potencjalne problemy z jakości danych.
Ostrzeżenie
W tym temacie opisano tylko funkcje i wymagania profilowania dane zadanie.Instruktaż używania profilowania dane zadanie, można znaleźć w sekcji Profilowanie danych z danymi profilowania Podgląd i zadania.
![]() |
---|
Profilowanie danych zadań działa tylko z danych przechowywanych w SQL Server 2000 lub nowszej wersji.To zadanie nie działa ze źródłami danych firm lub plikach. Ponadto, aby uruchomić pakiet zawierający profilowania dane zadanie, należy użyć konta mającego uprawnienia do odczytu i zapisu, włączając uprawnienia CREATE TABLE na tempdb bazy danych. |
Po użyciu zadanie, aby obliczyć dane profilów i zapisać je w pliku, można użyć autonomiczną Przeglądarka profilu danych do przeglądania profilu wyjściowego.Przeglądarka profilu danych obsługuje również możliwość drążenia zrozumieć zagadnienia jakości danych tha są identyfikowane w profilu wyjściowego.Aby uzyskać więcej informacji, zobacz Wyświetlanie profilu wyjściowego wPrzeglądarka profilu danych.
![]() |
---|
Plik wyjściowy może zawierać dane poufne dotyczące bazy danych i baza danych zawiera dane.Aby sugestie, jak zabezpieczyć ten plik, zobacz Kontrolowanie dostępu do plików używanych przez pakiety. Funkcja drążenia, dostępnych w Przeglądarka profilu danych, wysyła kwerendy żywe do oryginalnego źródło danych. |
Opis dostępnych profilów
Zadania profilowania danych można obliczyć ośmiu różnych danych profilów.Pięć z tych profili analizowanie pojedynczych kolumn i pozostałe trzy analizowanie wiele kolumn lub relacje między kolumnami i tabel.
Następujące profile pięciu analizować poszczególnych kolumn.
Profile, które analizują poszczególnych kolumn |
Opis |
---|---|
Kolumna Długość dystrybucji profilu |
Raporty różne długości ciąg wartości w wybranym kolumna i procent wierszy w tabela reprezentuje każdej długości. Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu kodów stanu Stanów Zjednoczonych, które powinny być dwa znaki i odkrywać więcej niż dwóch znaków wartości kolumna. |
Kolumna Null stosunek profilu |
Raporty procent wartości null w wybranym kolumna. Ten profil pomaga zidentyfikować problemy, takie jak nieoczekiwanie wysokie stosunek wartości null kolumna danych.Na przykład kolumna Kod pocztowy i pocztowy kod profilu i odkrywać niedopuszczalnie wysoki procent brakujących kody. |
Profil wzorca kolumn |
Raporty zestaw wyrażeń regularnych, które obejmują określony procent wartości kolumna ciąg. Ten profil pomaga zidentyfikować problemy w danych, takie jak ciąg znaków, które są nieprawidłowe.Ten profil może również sugerować wyrażeń regularnych, które mogą być używane w przyszłości do sprawdzania poprawności nowych wartości.Na przykład profil deseń kolumna Kod pocztowy w Stanach Zjednoczonych może dawać wyrażeń regularnych: \d{5}-\d{4} \d{5} i \d{9}.Jeśli widzisz innych wyrażeń regularnych, prawdopodobnie dane zawierają wartości, które nie są prawidłowe lub niepoprawny format. |
Profil statystyki kolumn |
Raporty statystyczne, takie jak minimalna, maksymalna, średnia i odchylenie standardowe dla kolumny liczbowe i minimalna i maksymalna dla datetime kolumny. Ten profil pomaga zidentyfikować problemy w danych, takich jak daty, które nie są prawidłowe.Na przykład profil kolumna data historycznej i odnajdowanie maksymalnej data w przyszłości. |
Kolumna wartości dystrybucji profilu |
Raporty o różnych wartości w wybranym kolumna i procent wierszy w tabela reprezentuje wartość każdego.Możesz także zgłosić wartości, które stanowią ponad określony procent wierszy w tabela. Ten profil pomaga zidentyfikować problemy, takie jak niepoprawną liczbę różnych wartości kolumna danych.Na przykład profilu kolumna, która ma zawierać Państwa w Stanach Zjednoczonych i odkrywać więcej niż 50 różnych wartości. |
Następujące trzy profile analizować wiele kolumn lub relacje między kolumnami i tabel.
Profile, które analizują wielu kolumn |
Opis |
---|---|
Profil klucz Kandydat |
Raporty czy kolumna lub zestaw kolumn jest klucz lub przybliżone klucza zaznaczonej tabela. Ten profil pomaga zidentyfikować problemy w danych, takich jak zduplikowanych wartości kolumna klucz potencjału. |
Profil współzależności funkcjonalnych |
Raporty fragment wartości w jednej kolumnie (kolumny zależnej) zależy od wartości w innej kolumnie lub zestaw kolumn (kolumna decydującym). Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu zależność między kolumna, która zawiera kody pocztowe w Stanach Zjednoczonych i kolumna, która zawiera Państwa w Stanach Zjednoczonych.Ten sam kod pocztowy powinien zawsze były takie same, ale profil wykryje naruszenie tę zależność. |
Wartość włączenia profilu |
Oblicza nakładania się wartości między dwie kolumny lub zestawy kolumn.Ten profil można określić, czy kolumna lub zestaw kolumn jest służyć jako klucz obcy między wybranymi tabelami. Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład kolumna IDproduktu tabela Sprzedaż profilu i odkryć, że kolumna zawiera wartości, które nie zostały znalezione w tabela Produkty kolumna IDproduktu. |
Wymagania wstępne dotyczące prawidłowego profilu
Profil jest nieprawidłowy, chyba że można wybrać tabele i kolumny, które nie są puste i kolumny zawierają typy danych, które są ważne dla profilu.
Prawidłowe typy danych
Niektóre dostępne profile mają znaczenie tylko dla niektórych typów danych.Na przykład computing profilu deseń kolumna dla kolumna, która zawiera numeryczną lub datetime wartości nie ma sensu.Dlatego takie profilu jest nieprawidłowy.
Profil |
Prawidłowe typy danych * |
---|---|
ColumnStatisticsProfile |
kolumna typu numerycznego lub datetime typu (nie mean i stddev dla datetime kolumna) |
ColumnNullRatioProfile |
Wszystkie kolumny ** |
ColumnValueDistributionProfile |
Kolumny integer typu, char typu, a datetime typu |
ColumnLengthDistributionProfile |
Kolumny char typu |
ColumnPatternProfile |
Kolumny char typu |
CandidateKeyProfile |
Kolumny integer typu, char typu, a datetime typu |
FunctionalDependencyProfile |
Kolumny integer typu, char typu, a datetime typu |
InclusionProfile |
Kolumny integer typu, char typu, a datetime typu |
* W poprzedniej tabela prawidłowymi typami danych integer, char, datetime, i numeric należą następujące typy danych:
Integer types include bit, tinyint, smallint, int, and bigint.
Typy znaków: char, nchar, varchar, i nvarchar, , ale nie zawierają varchar(max) i nvarchar(max).
Data i czas należą datetime, smalldatetime, i timestamp.
Numeric types include integer types (except bit), money, smallmoney, decimal, float, real, and numeric.
** image, text, xml, udt, i variant nie są obsługiwane dla profilów innych niż zerowy współczynnik kolumny profilu.
Prawidłowe tabel i kolumn
Jeśli tabela lub kolumna jest pusta, profilowania danych wykonuje następujące akcje:
Przy zaznaczonej tabela lub widoku jest puste, zadanie profilowania danych nie obliczyć wszystkie profile.
Gdy wszystkie wartości w wybranej kolumnie są puste, zadanie profilowania danych oblicza tylko profil null współczynnik kolumna.Zadanie nie obliczyć rozkładu długości kolumny profilu, deseń kolumny profilu, Column Statistics profilu lub profilu dystrybucji wartość kolumny.
Funkcje dane zadanie profilowania
Profilowanie dane zadanie ma te opcje konfiguracja wygodne:
Symbol wieloznaczny kolumnkonfigurując żądanie profilu, akceptuje zadania (*) symboli wieloznacznych zamiast nazwy kolumna.Upraszcza konfiguracja i ułatwia odnajdowanie cechy nieznane dane.Po uruchomieniu zadania, zadanie profilów każdej kolumna, która ma odpowiedni typ danych.
Szybkie profilumożna wybrać profil szybkie szybko skonfigurować zadanie.Szybkie profilu profilów tabela lub widoku za pomocą domyślnych profilów i ustawienia domyślne.
Zadania Profililng danych niestandardowych komunikatów rejestrowania
W poniższej tabela przedstawiono wpisy dziennika niestandardowego zadania danych profilowania.Aby uzyskać więcej informacji, zobacz Implementowanie rejestrowania w opakowaniach i Niestandardowe komunikaty do rejestrowania.
Wpis dziennika |
Opis |
---|---|
DataProfilingTaskTrace |
Zawiera opisowe informacje dotyczące stanu zadania.Wiadomości zawierają następujące informacje:
|
Opis danych wyjściowych i jego schemat
Profilowanie dane zadanie wyprowadza wybranych profilów w formacie XML z właściwą strukturą, zgodnie ze schematem DataProfile.xsd.Można określić, czy te dane wyjściowe XML jest zapisany w pliku lub zmiennej pakiet.Można wyświetlić tego schematu online na https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.strona sieci Web można zapisać lokalną kopię schematu.Można wyświetlić lokalną kopię schematu w programie Microsoft Visual Studio lub innego edytora schematu w edytorze XML lub edytora tekstów, takiego jak Notatnik.
Ten schemat dla jakości danych mogą być przydatne dla:
Wymiany informacji o jakości danych w ramach i między organizacjami.
Tworzenie niestandardowych narzędzi z informacji o jakości danych.
miejsce docelowe obszar nazw jest identyfikowany w schemacie jako https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Przy użyciu danych wyjściowych w przepływie pracy warunkowe pakietu
Dane profilowania składniki nie zawierają wbudowane funkcje do wprowadzenia warunkowe logiki pracy Integration Services pakiet oparte na dane wyjściowe zadania danych profilowania.Jednakże można łatwo dodać tę logikę, z minimalną ilością programowania, zadania skryptu.Ten kod będzie wykonywać kwerendę XPath przeciwko dane wyjściowe XML, a następnie zapisz wynik w zmiennej pakiet.Ograniczenia pierwszeństwo połączyć zadania skryptu kolejnych zadań można użyć wyrażenie do określenia przepływu pracy.Na przykład zadania skryptu wykryje, że procent wartości null kolumna przekroczy określony próg.Jeżeli ten warunek jest spełniony, należy pakiet przerwania i rozwiązania problemu przed kontynuacją.
Konfigurowanie danych profilowania zadania
Zadanie profilowania danych można skonfigurować za pomocą Danych profilowania zadanie edytora.Edytor zawiera dwie strony:
Strony głównej
Na Ogólne strona, określ plik wyjściowy lub zmiennej.Można również wybrać Profilu szybkiego skonfigurować zadanie szybko obliczyć profile za pomocą ustawień domyślnych.Aby uzyskać więcej informacji, zobacz Pojedynczy formularz profilu szybkiego tabeli (dane profilowania zadania).Profil żąda strony
Na Żądania profilu strona, określ źródło danych i wybrać i skonfigurować profile danych, które chcesz obliczyć.Więcej informacji o różnych profilów, które można konfigurować zobacz następujące tematy:Opcje żądania klucza profilu kandydujących (dane profilowania zadania)
Opcje żądania dystrybucji profilu długości kolumny (dane profilowania zadania)
Opcje żądania profilu stosunek Null kolumny (dane profilowania zadania)
Profil wzorca kolumnŻądanie opcje (dane profilowania zadania)
Opcje żądania profilu statystyki kolumn (dane profilowania zadania)
Opcje żądania dystrybucji profilu wartość kolumny (dane profilowania zadania)
Opcje profilu żądanie zależności funkcjonalności (dane profilowania zadania)
Opcje wniosek włączenia profilu wartości (dane profilowania zadania)
|