Udostępnij za pośrednictwem


Dane zadanie profilowania

Profilowanie dane zadanie oblicza różne profile, ułatwiające zapoznanie się z danymi źródło i zidentyfikować problemy danych musi być stały.

Można użyć zadania profilowania danych wewnątrz Integration Services pakiet danych profilu, który jest przechowywany w SQL Server i zidentyfikować potencjalne problemy z jakości danych.

Ostrzeżenie

W tym temacie opisano tylko funkcje i wymagania profilowania dane zadanie.Instruktaż używania profilowania dane zadanie, można znaleźć w sekcji Profilowanie danych z danymi profilowania Podgląd i zadania.

Ważna informacjaWażne:

Profilowanie danych zadań działa tylko z danych przechowywanych w SQL Server 2000 lub nowszej wersji.To zadanie nie działa ze źródłami danych firm lub plikach.

Ponadto, aby uruchomić pakiet zawierający profilowania dane zadanie, należy użyć konta mającego uprawnienia do odczytu i zapisu, włączając uprawnienia CREATE TABLE na tempdb bazy danych.

Po użyciu zadanie, aby obliczyć dane profilów i zapisać je w pliku, można użyć autonomiczną Przeglądarka profilu danych do przeglądania profilu wyjściowego.Przeglądarka profilu danych obsługuje również możliwość drążenia zrozumieć zagadnienia jakości danych tha są identyfikowane w profilu wyjściowego.Aby uzyskać więcej informacji, zobacz Wyświetlanie profilu wyjściowego wPrzeglądarka profilu danych.

Ważna informacjaWażne:

Plik wyjściowy może zawierać dane poufne dotyczące bazy danych i baza danych zawiera dane.Aby sugestie, jak zabezpieczyć ten plik, zobacz Kontrolowanie dostępu do plików używanych przez pakiety.

Funkcja drążenia, dostępnych w Przeglądarka profilu danych, wysyła kwerendy żywe do oryginalnego źródło danych.

Opis dostępnych profilów

Zadania profilowania danych można obliczyć ośmiu różnych danych profilów.Pięć z tych profili analizowanie pojedynczych kolumn i pozostałe trzy analizowanie wiele kolumn lub relacje między kolumnami i tabel.

Następujące profile pięciu analizować poszczególnych kolumn.

Profile, które analizują poszczególnych kolumn

Opis

Kolumna Długość dystrybucji profilu

Raporty różne długości ciąg wartości w wybranym kolumna i procent wierszy w tabela reprezentuje każdej długości.

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu kodów stanu Stanów Zjednoczonych, które powinny być dwa znaki i odkrywać więcej niż dwóch znaków wartości kolumna.

Kolumna Null stosunek profilu

Raporty procent wartości null w wybranym kolumna.

Ten profil pomaga zidentyfikować problemy, takie jak nieoczekiwanie wysokie stosunek wartości null kolumna danych.Na przykład kolumna Kod pocztowy i pocztowy kod profilu i odkrywać niedopuszczalnie wysoki procent brakujących kody.

Profil wzorca kolumn

Raporty zestaw wyrażeń regularnych, które obejmują określony procent wartości kolumna ciąg.

Ten profil pomaga zidentyfikować problemy w danych, takie jak ciąg znaków, które są nieprawidłowe.Ten profil może również sugerować wyrażeń regularnych, które mogą być używane w przyszłości do sprawdzania poprawności nowych wartości.Na przykład profil deseń kolumna Kod pocztowy w Stanach Zjednoczonych może dawać wyrażeń regularnych: \d{5}-\d{4} \d{5} i \d{9}.Jeśli widzisz innych wyrażeń regularnych, prawdopodobnie dane zawierają wartości, które nie są prawidłowe lub niepoprawny format.

Profil statystyki kolumn

Raporty statystyczne, takie jak minimalna, maksymalna, średnia i odchylenie standardowe dla kolumny liczbowe i minimalna i maksymalna dla datetime kolumny.

Ten profil pomaga zidentyfikować problemy w danych, takich jak daty, które nie są prawidłowe.Na przykład profil kolumna data historycznej i odnajdowanie maksymalnej data w przyszłości.

Kolumna wartości dystrybucji profilu

Raporty o różnych wartości w wybranym kolumna i procent wierszy w tabela reprezentuje wartość każdego.Możesz także zgłosić wartości, które stanowią ponad określony procent wierszy w tabela.

Ten profil pomaga zidentyfikować problemy, takie jak niepoprawną liczbę różnych wartości kolumna danych.Na przykład profilu kolumna, która ma zawierać Państwa w Stanach Zjednoczonych i odkrywać więcej niż 50 różnych wartości.

Następujące trzy profile analizować wiele kolumn lub relacje między kolumnami i tabel.

Profile, które analizują wielu kolumn

Opis

Profil klucz Kandydat

Raporty czy kolumna lub zestaw kolumn jest klucz lub przybliżone klucza zaznaczonej tabela.

Ten profil pomaga zidentyfikować problemy w danych, takich jak zduplikowanych wartości kolumna klucz potencjału.

Profil współzależności funkcjonalnych

Raporty fragment wartości w jednej kolumnie (kolumny zależnej) zależy od wartości w innej kolumnie lub zestaw kolumn (kolumna decydującym).

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład profilu zależność między kolumna, która zawiera kody pocztowe w Stanach Zjednoczonych i kolumna, która zawiera Państwa w Stanach Zjednoczonych.Ten sam kod pocztowy powinien zawsze były takie same, ale profil wykryje naruszenie tę zależność.

Wartość włączenia profilu

Oblicza nakładania się wartości między dwie kolumny lub zestawy kolumn.Ten profil można określić, czy kolumna lub zestaw kolumn jest służyć jako klucz obcy między wybranymi tabelami.

Ten profil pomaga zidentyfikować problemy w danych, takie jak wartości, które nie są prawidłowe.Na przykład kolumna IDproduktu tabela Sprzedaż profilu i odkryć, że kolumna zawiera wartości, które nie zostały znalezione w tabela Produkty kolumna IDproduktu.

Wymagania wstępne dotyczące prawidłowego profilu

Profil jest nieprawidłowy, chyba że można wybrać tabele i kolumny, które nie są puste i kolumny zawierają typy danych, które są ważne dla profilu.

Prawidłowe typy danych

Niektóre dostępne profile mają znaczenie tylko dla niektórych typów danych.Na przykład computing profilu deseń kolumna dla kolumna, która zawiera numeryczną lub datetime wartości nie ma sensu.Dlatego takie profilu jest nieprawidłowy.

Profil

Prawidłowe typy danych *

ColumnStatisticsProfile

kolumna typu numerycznego lub datetime typu (nie mean i stddev dla datetime kolumna)

ColumnNullRatioProfile

Wszystkie kolumny **

ColumnValueDistributionProfile

Kolumny integer typu, char typu, a datetime typu

ColumnLengthDistributionProfile

Kolumny char typu

ColumnPatternProfile

Kolumny char typu

CandidateKeyProfile

Kolumny integer typu, char typu, a datetime typu

FunctionalDependencyProfile

Kolumny integer typu, char typu, a datetime typu

InclusionProfile

Kolumny integer typu, char typu, a datetime typu

* W poprzedniej tabela prawidłowymi typami danych integer, char, datetime, i numeric należą następujące typy danych:

Integer types include bit, tinyint, smallint, int, and bigint.

Typy znaków: char, nchar, varchar, i nvarchar, , ale nie zawierają varchar(max) i nvarchar(max).

Data i czas należą datetime, smalldatetime, i timestamp.

Numeric types include integer types (except bit), money, smallmoney, decimal, float, real, and numeric.

** image, text, xml, udt, i variant nie są obsługiwane dla profilów innych niż zerowy współczynnik kolumny profilu.

Prawidłowe tabel i kolumn

Jeśli tabela lub kolumna jest pusta, profilowania danych wykonuje następujące akcje:

  • Przy zaznaczonej tabela lub widoku jest puste, zadanie profilowania danych nie obliczyć wszystkie profile.

  • Gdy wszystkie wartości w wybranej kolumnie są puste, zadanie profilowania danych oblicza tylko profil null współczynnik kolumna.Zadanie nie obliczyć rozkładu długości kolumny profilu, deseń kolumny profilu, Column Statistics profilu lub profilu dystrybucji wartość kolumny.

Funkcje dane zadanie profilowania

Profilowanie dane zadanie ma te opcje konfiguracja wygodne:

  • Symbol wieloznaczny kolumnkonfigurując żądanie profilu, akceptuje zadania (*) symboli wieloznacznych zamiast nazwy kolumna.Upraszcza konfiguracja i ułatwia odnajdowanie cechy nieznane dane.Po uruchomieniu zadania, zadanie profilów każdej kolumna, która ma odpowiedni typ danych.

  • Szybkie profilumożna wybrać profil szybkie szybko skonfigurować zadanie.Szybkie profilu profilów tabela lub widoku za pomocą domyślnych profilów i ustawienia domyślne.

Zadania Profililng danych niestandardowych komunikatów rejestrowania

W poniższej tabela przedstawiono wpisy dziennika niestandardowego zadania danych profilowania.Aby uzyskać więcej informacji, zobacz Implementowanie rejestrowania w opakowaniach i Niestandardowe komunikaty do rejestrowania.

Wpis dziennika

Opis

DataProfilingTaskTrace

Zawiera opisowe informacje dotyczące stanu zadania.Wiadomości zawierają następujące informacje:

  • Uruchom przetwarzanie żądań

  • Start kwerendy

  • Koniec kwerendy

  • Zakończenie przetwarzania żądania

Opis danych wyjściowych i jego schemat

Profilowanie dane zadanie wyprowadza wybranych profilów w formacie XML z właściwą strukturą, zgodnie ze schematem DataProfile.xsd.Można określić, czy te dane wyjściowe XML jest zapisany w pliku lub zmiennej pakiet.Można wyświetlić tego schematu online na https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.strona sieci Web można zapisać lokalną kopię schematu.Można wyświetlić lokalną kopię schematu w programie Microsoft Visual Studio lub innego edytora schematu w edytorze XML lub edytora tekstów, takiego jak Notatnik.

Ten schemat dla jakości danych mogą być przydatne dla:

  • Wymiany informacji o jakości danych w ramach i między organizacjami.

  • Tworzenie niestandardowych narzędzi z informacji o jakości danych.

miejsce docelowe obszar nazw jest identyfikowany w schemacie jako https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Przy użyciu danych wyjściowych w przepływie pracy warunkowe pakietu

Dane profilowania składniki nie zawierają wbudowane funkcje do wprowadzenia warunkowe logiki pracy Integration Services pakiet oparte na dane wyjściowe zadania danych profilowania.Jednakże można łatwo dodać tę logikę, z minimalną ilością programowania, zadania skryptu.Ten kod będzie wykonywać kwerendę XPath przeciwko dane wyjściowe XML, a następnie zapisz wynik w zmiennej pakiet.Ograniczenia pierwszeństwo połączyć zadania skryptu kolejnych zadań można użyć wyrażenie do określenia przepływu pracy.Na przykład zadania skryptu wykryje, że procent wartości null kolumna przekroczy określony próg.Jeżeli ten warunek jest spełniony, należy pakiet przerwania i rozwiązania problemu przed kontynuacją.

Konfigurowanie danych profilowania zadania

Zadanie profilowania danych można skonfigurować za pomocą Danych profilowania zadanie edytora.Edytor zawiera dwie strony:

Ikona usług Integration Services (mała)Bieżąco z usług integracji

Najnowsze pliki do pobrania, artykuły, próbki i wideo firmy Microsoft, jak również wybranych rozwiązań ze Wspólnoty, odwiedź witrynę Integration Services strona na MSDN i TechNet:

Aby otrzymywać automatyczne powiadomienia dotyczące tych aktualizacji, zasubskrybuj źródła danych RSS dostępne na tej stronie.