Udostępnij za pośrednictwem


Kopiowanie i przekształcanie danych w usłudze Azure Synapse Analytics przy użyciu potoków usługi Azure Data Factory lub Synapse

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób używania działania kopiowania w potokach usługi Azure Data Factory lub Synapse do kopiowania danych z i do usługi Azure Synapse Analytics oraz używania Przepływ danych do przekształcania danych w usłudze Azure Data Lake Storage Gen2. Aby dowiedzieć się więcej o usłudze Azure Data Factory, przeczytaj artykuł wprowadzający.

Obsługiwane możliwości

Ten łącznik usługi Azure Synapse Analytics jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości IR Zarządzany prywatny punkt końcowy
działanie Kopiuj (źródło/ujście) (1) (2)
Przepływ danych mapowania (źródło/ujście) (1)
Działanie Lookup (1) (2)
Działanie GetMetadata (1) (2)
Działanie skryptu (1) (2)
Działanie procedury składowanej (1) (2)

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

W przypadku działanie Kopiuj ten łącznik usługi Azure Synapse Analytics obsługuje następujące funkcje:

  • Kopiowanie danych przy użyciu uwierzytelniania SQL i uwierzytelniania tokenu aplikacji Entra firmy Microsoft przy użyciu jednostki usługi lub tożsamości zarządzanych dla zasobów platformy Azure.
  • Jako źródło pobierz dane przy użyciu zapytania SQL lub procedury składowanej. Możesz również wybrać równoległe kopiowanie ze źródła usługi Azure Synapse Analytics. Aby uzyskać szczegółowe informacje, zobacz sekcję Kopia równoległa z usługi Azure Synapse Analytics .
  • Jako ujście załaduj dane przy użyciu instrukcji COPY lub programu PolyBase lub wstawiania zbiorczego. Zalecamy użycie instrukcji COPY lub technologii PolyBase w celu uzyskania lepszej wydajności kopiowania. Łącznik obsługuje również automatyczne tworzenie tabeli docelowej przy użyciu funkcji DISTRIBUTION = ROUND_ROBIN, jeśli nie istnieje na podstawie schematu źródłowego.

Ważne

Jeśli skopiujesz dane przy użyciu środowiska Azure Integration Runtime, skonfiguruj regułę zapory na poziomie serwera, aby usługi platformy Azure mogły uzyskiwać dostęp do logicznego serwera SQL. Jeśli skopiujesz dane przy użyciu własnego środowiska Integration Runtime, skonfiguruj zaporę tak, aby zezwalała na odpowiedni zakres adresów IP. Ten zakres obejmuje adres IP maszyny używany do nawiązywania połączenia z usługą Azure Synapse Analytics.

Rozpocznij

Napiwek

Aby uzyskać najlepszą wydajność, użyj instrukcji PolyBase lub COPY, aby załadować dane do usługi Azure Synapse Analytics. Sekcje Ładowanie danych do usługi Azure Synapse Analytics za pomocą technologii PolyBase i Używanie instrukcji COPY do ładowania danych do sekcji usługi Azure Synapse Analytics zawierają szczegółowe informacje. Aby zapoznać się z przewodnikiem z przypadkiem użycia, zobacz Ładowanie 1 TB do usługi Azure Synapse Analytics poniżej 15 minut za pomocą usługi Azure Data Factory.

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi Azure Synapse Analytics przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę Azure Synapse Analytics w interfejsie użytkownika witryny Azure Portal.

  1. Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj usługę Synapse i wybierz łącznik usługi Azure Synapse Analytics.

    Zrzut ekranu przedstawiający łącznik usługi Azure Synapse Analytics.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Zrzut ekranu przedstawiający konfigurację połączonej usługi Azure Synapse Analytics.

Szczegóły konfiguracji łącznika

Poniższe sekcje zawierają szczegółowe informacje o właściwościach definiujących jednostki potoku usługi Data Factory i Synapse specyficzne dla łącznika usługi Azure Synapse Analytics.

Właściwości połączonej usługi

Zalecana wersja łącznika usługi Azure Synapse Analytics obsługuje protokół TLS 1.3. Zapoznaj się z tą sekcją, aby uaktualnić wersję łącznika usługi Azure Synapse Analytics ze starszej wersji. Aby uzyskać szczegółowe informacje o właściwości, zobacz odpowiednie sekcje.

Napiwek

Podczas tworzenia połączonej usługi dla bezserwerowej puli SQL w usłudze Azure Synapse w witrynie Azure Portal:

  1. W polu Metoda wyboru konta wybierz pozycję Wprowadź ręcznie.
  2. Wklej w pełni kwalifikowaną nazwę domeny punktu końcowego bezserwerowego. Tę pozycję można znaleźć na stronie Przegląd witryny Azure Portal dla obszaru roboczego usługi Synapse we właściwościach w obszarze Bezserwerowy punkt końcowy SQL. Na przykład myserver-ondemand.sql-azuresynapse.net.
  3. W polu Nazwa bazy danych podaj nazwę bazy danych w bezserwerowej puli SQL.

Napiwek

Jeśli wystąpi błąd z kodem błędu "UserErrorFailedToConnectToSqlServer" i komunikatem, na przykład "Limit sesji dla bazy danych to XXX i został osiągnięty"., dodaj Pooling=false go do parametry połączenia i spróbuj ponownie.

Te właściwości ogólne są obsługiwane w przypadku połączonej usługi Azure Synapse Analytics w przypadku zastosowania zalecanej wersji:

Właściwości Opis Wymagania
type Właściwość type musi być ustawiona na AzureSqlDW. Tak
serwer Nazwa lub adres sieciowy wystąpienia programu SQL Server, z którym chcesz nawiązać połączenie. Tak
database Nazwa bazy danych. Tak
authenticationType Typ używany do uwierzytelniania. Dozwolone wartości to SQL (wartość domyślna), ServicePrincipal, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. Przejdź do odpowiedniej sekcji uwierzytelniania dotyczącej określonych właściwości i wymagań wstępnych. Tak
szyfrowanie Określ, czy szyfrowanie TLS jest wymagane dla wszystkich danych wysyłanych między klientem a serwerem. Opcje: obowiązkowe (dla wartości true, default)/optional (dla wartości false)/strict. Nie.
trustServerCertificate Określ, czy kanał zostanie zaszyfrowany podczas pomijania łańcucha certyfikatów w celu zweryfikowania zaufania. Nie.
hostNameInCertificate Nazwa hosta do użycia podczas weryfikowania certyfikatu serwera dla połączenia. Jeśli nie zostanie określona, nazwa serwera jest używana do weryfikacji certyfikatu. Nie.
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime (jeśli magazyn danych znajduje się w sieci prywatnej). Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Aby uzyskać dodatkowe właściwości połączenia, zobacz poniższą tabelę:

Właściwości Opis Wymagania
applicationIntent Typ obciążenia aplikacji podczas nawiązywania połączenia z serwerem. Dozwolone wartości to ReadOnly i ReadWrite. Nie.
connectTimeout Czas oczekiwania na połączenie z serwerem (w sekundach) przed zakończeniem próby i wygenerowaniem błędu. Nie.
connectRetryCount Liczba ponownych połączeń podjęta po zidentyfikowaniu błędu bezczynności połączenia. Wartość powinna być liczbą całkowitą z zakresu od 0 do 255. Nie.
connectRetryInterval Czas (w sekundach) między każdą ponowną próbą nawiązania połączenia po zidentyfikowaniu błędu bezczynności połączenia. Wartość powinna być liczbą całkowitą z zakresu od 1 do 60. Nie.
loadBalanceTimeout Minimalny czas (w sekundach) połączenia na żywo w puli połączeń przed zniszczeniem połączenia. Nie.
commandTimeout Domyślny czas oczekiwania (w sekundach) przed zakończeniem próby wykonania polecenia i wygenerowaniem błędu. Nie.
integratedSecurity Dozwolone wartości to true lub false. Podczas określania falseparametru określ, czy nazwa użytkownika i hasło są określone w połączeniu. Podczas określania trueparametru wskazuje, czy bieżące poświadczenia konta systemu Windows są używane do uwierzytelniania. Nie.
failoverPartner Nazwa lub adres serwera partnerskiego do nawiązania połączenia, jeśli serwer podstawowy nie działa. Nie.
maxPoolSize Maksymalna liczba połączeń dozwolonych w puli połączeń dla określonego połączenia. Nie.
minPoolSize Minimalna liczba połączeń dozwolonych w puli połączeń dla określonego połączenia. Nie.
multipleActiveResultSets Dozwolone wartości to true lub false. Po określeniu trueparametru aplikacja może obsługiwać wiele aktywnych zestawów wyników (MARS). Po określeniu falseparametru aplikacja musi przetworzyć lub anulować wszystkie zestawy wyników z jednej partii, zanim będzie mogła wykonać inne partie w tym połączeniu. Nie.
multiSubnetFailover Dozwolone wartości to true lub false. Jeśli aplikacja łączy się z zawsze włączoną grupą dostępności w różnych podsieciach, ustawienie tej właściwości w celu true zapewnienia szybszego wykrywania aktualnie aktywnego serwera i nawiązywania połączenia z tym serwerem. Nie.
packetSize Rozmiar w bajtach pakietów sieciowych używanych do komunikowania się z wystąpieniem serwera. Nie.
Buforowanie Dozwolone wartości to true lub false. Po określeniu trueparametru połączenie zostanie w puli. Po określeniu falseparametru połączenie zostanie jawnie otwarte przy każdym żądaniu połączenia. Nie.

Uwierzytelnianie SQL

Aby użyć uwierzytelniania SQL, oprócz właściwości ogólnych opisanych w poprzedniej sekcji, określ następujące właściwości:

Właściwości Opis Wymagania
userName Nazwa użytkownika używana do nawiązywania połączenia z serwerem. Tak
hasło Hasło dla nazwy użytkownika. Oznacz to pole jako SecureString , aby bezpiecznie je przechowywać. Możesz też odwołać się do wpisu tajnego przechowywanego w usłudze Azure Key Vault. Tak

Przykład: używanie uwierzytelniania SQL

{
    "name": "AzureSqlDWLinkedService",
    "properties": {
        "type": "AzureSqlDW",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SQL",
            "userName": "<user name>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Przykład: hasło w usłudze Azure Key Vault

{
    "name": "AzureSqlDWLinkedService",
    "properties": {
        "type": "AzureSqlDW",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SQL",
            "userName": "<user name>",
            "password": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>",
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Uwierzytelnianie nazwy głównej usługi

Aby użyć uwierzytelniania jednostki usługi, oprócz właściwości ogólnych opisanych w poprzedniej sekcji, określ następujące właściwości:

Właściwości Opis Wymagania
servicePrincipalId Określ identyfikator klienta aplikacji. Tak
servicePrincipalCredential Poświadczenie jednostki usługi. Określ klucz aplikacji. Oznacz to pole jako SecureString , aby bezpiecznie je przechowywać lub odwołuje się do wpisu tajnego przechowywanego w usłudze Azure Key Vault. Tak
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Tak
azureCloudType W przypadku uwierzytelniania jednostki usługi określ typ środowiska chmury platformy Azure, do którego zarejestrowano aplikację Firmy Microsoft Entra.
Dozwolone wartości to AzurePublic, , AzureUsGovernmentAzureChinai AzureGermany. Domyślnie jest używane środowisko chmury potoku usługi Synapse lub fabryki danych.
Nie.

Należy również wykonać poniższe kroki:

  1. Utwórz aplikację Firmy Microsoft Entra w witrynie Azure Portal. Zanotuj nazwę aplikacji i następujące wartości, które definiują połączoną usługę:

    • Application ID
    • Klucz aplikacji
    • Identyfikator dzierżawy
  2. Aprowizuj administratora firmy Microsoft Entra dla serwera w witrynie Azure Portal, jeśli jeszcze tego nie zrobiono. Administrator firmy Microsoft Entra może być użytkownikiem entra firmy Microsoft lub grupą Microsoft Entra. Jeśli przyznasz grupie rolę administratora tożsamości zarządzanej, pomiń kroki 3 i 4. Administrator będzie miał pełny dostęp do bazy danych.

  3. Utwórz użytkowników zawartej bazy danych dla jednostki usługi. Połącz się z magazynem danych z lub do którego chcesz skopiować dane przy użyciu narzędzi, takich jak SSMS, z tożsamością firmy Microsoft Entra, która ma co najmniej uprawnienie ALTER ANY USER. Uruchom następujący kod T-SQL:

    CREATE USER [your_application_name] FROM EXTERNAL PROVIDER;
    
  4. Przyznaj jednostce usługi wymagane uprawnienia , tak jak zwykle w przypadku użytkowników SQL lub innych użytkowników. Uruchom poniższy kod lub zapoznaj się z więcej opcji tutaj. Jeśli chcesz załadować dane przy użyciu technologii PolyBase, zapoznaj się z wymaganymi uprawnieniami bazy danych.

    EXEC sp_addrolemember db_owner, [your application name];
    
  5. Konfigurowanie połączonej usługi Azure Synapse Analytics w obszarze roboczym usługi Azure Data Factory lub Synapse.

Przykład połączonej usługi korzystającej z uwierzytelniania jednostki usługi

{
    "name": "AzureSqlDWLinkedService",
    "properties": {
        "type": "AzureSqlDW",
        "typeProperties": {
            "connectionString": "Server=tcp:<servername>.database.windows.net,1433;Database=<databasename>;Connection Timeout=30",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<application key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Tożsamości zarządzane przypisane przez system na potrzeby uwierzytelniania zasobów platformy Azure

Obszar roboczy fabryki danych lub usługi Synapse może być skojarzony z tożsamością zarządzaną przypisaną przez system dla zasobów platformy Azure reprezentujących zasób. Tej tożsamości zarządzanej można użyć do uwierzytelniania usługi Azure Synapse Analytics. Wyznaczony zasób może uzyskiwać dostęp do danych i kopiować je z lub do magazynu danych przy użyciu tej tożsamości.

Aby użyć uwierzytelniania tożsamości zarządzanej przypisanej przez system, określ właściwości ogólne opisane w poprzedniej sekcji i wykonaj następujące kroki.

  1. Aprowizuj administratora firmy Microsoft Entra dla serwera w witrynie Azure Portal, jeśli jeszcze tego nie zrobiono. Administrator firmy Microsoft Entra może być użytkownikiem entra firmy Microsoft lub grupą Microsoft Entra. Jeśli przyznasz grupie tożsamość zarządzaną przypisaną przez system rolę administratora, pomiń kroki 3 i 4. Administrator będzie miał pełny dostęp do bazy danych.

  2. Utwórz użytkowników zawartej bazy danych dla tożsamości zarządzanej przypisanej przez system. Połącz się z magazynem danych z lub do którego chcesz skopiować dane przy użyciu narzędzi, takich jak SSMS, z tożsamością firmy Microsoft Entra, która ma co najmniej uprawnienie ALTER ANY USER. Uruchom następujący kod T-SQL.

    CREATE USER [your_resource_name] FROM EXTERNAL PROVIDER;
    
  3. Udziel przypisanej przez system tożsamości zarządzanej wymaganych uprawnień , tak jak zwykle dla użytkowników SQL i innych użytkowników. Uruchom poniższy kod lub zapoznaj się z więcej opcji tutaj. Jeśli chcesz załadować dane przy użyciu technologii PolyBase, zapoznaj się z wymaganymi uprawnieniami bazy danych.

    EXEC sp_addrolemember db_owner, [your_resource_name];
    
  4. Konfigurowanie połączonej usługi Azure Synapse Analytics.

Przykład:

{
    "name": "AzureSqlDWLinkedService",
    "properties": {
        "type": "AzureSqlDW",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SystemAssignedManagedIdentity"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Uwierzytelnianie tożsamości zarządzanej przypisanej przez użytkownika

Obszar roboczy fabryki danych lub usługi Synapse może być skojarzony z tożsamościami zarządzanymi przypisanymi przez użytkownika, które reprezentują zasób. Tej tożsamości zarządzanej można użyć do uwierzytelniania usługi Azure Synapse Analytics. Wyznaczony zasób może uzyskiwać dostęp do danych i kopiować je z lub do magazynu danych przy użyciu tej tożsamości.

Aby użyć uwierzytelniania tożsamości zarządzanej przypisanej przez użytkownika, oprócz właściwości ogólnych opisanych w poprzedniej sekcji, określ następujące właściwości:

Właściwości Opis Wymagania
poświadczenia Określ tożsamość zarządzaną przypisaną przez użytkownika jako obiekt poświadczeń. Tak

Należy również wykonać poniższe kroki:

  1. Aprowizuj administratora firmy Microsoft Entra dla serwera w witrynie Azure Portal, jeśli jeszcze tego nie zrobiono. Administrator firmy Microsoft Entra może być użytkownikiem entra firmy Microsoft lub grupą Microsoft Entra. Jeśli przyznasz grupie tożsamość zarządzaną przypisaną przez użytkownika rolę administratora, pomiń kroki 3. Administrator będzie miał pełny dostęp do bazy danych.

  2. Utwórz użytkowników zawartej bazy danych dla tożsamości zarządzanej przypisanej przez użytkownika. Połącz się z magazynem danych z lub do którego chcesz skopiować dane przy użyciu narzędzi, takich jak SSMS, z tożsamością firmy Microsoft Entra, która ma co najmniej uprawnienie ALTER ANY USER. Uruchom następujący kod T-SQL.

    CREATE USER [your_resource_name] FROM EXTERNAL PROVIDER;
    
  3. Utwórz jedną lub wiele tożsamości zarządzanych przypisanych przez użytkownika i przyznaj tożsamości zarządzanej przypisanej przez użytkownika wymagane uprawnienia , tak jak zwykle dla użytkowników SQL i innych. Uruchom poniższy kod lub zapoznaj się z więcej opcji tutaj. Jeśli chcesz załadować dane przy użyciu technologii PolyBase, zapoznaj się z wymaganymi uprawnieniami bazy danych.

    EXEC sp_addrolemember db_owner, [your_resource_name];
    
  4. Przypisz jedną lub wiele tożsamości zarządzanych przypisanych przez użytkownika do fabryki danych i utwórz poświadczenia dla każdej tożsamości zarządzanej przypisanej przez użytkownika.

  5. Konfigurowanie połączonej usługi Azure Synapse Analytics.

Przykład

{
    "name": "AzureSqlDWLinkedService",
    "properties": {
        "type": "AzureSqlDW",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "UserAssignedManagedIdentity",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Starsza wersja

Te właściwości ogólne są obsługiwane w przypadku połączonej usługi Azure Synapse Analytics po zastosowaniu starszej wersji:

Właściwości Opis Wymagania
type Właściwość type musi być ustawiona na AzureSqlDW. Tak
Parametry połączenia Określ informacje potrzebne do nawiązania połączenia z wystąpieniem usługi Azure Synapse Analytics dla właściwości connectionString .
Oznacz to pole jako element SecureString, aby przechowywać je bezpiecznie. Możesz również umieścić klucz hasła/jednostki usługi w usłudze Azure Key Vault, a jeśli jest to uwierzytelnianie SQL, pobierz konfigurację password z parametry połączenia. Aby uzyskać więcej informacji, zobacz artykuł Przechowywanie poświadczeń w usłudze Azure Key Vault .
Tak
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime (jeśli magazyn danych znajduje się w sieci prywatnej). Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

W przypadku różnych typów uwierzytelniania zapoznaj się z następującymi sekcjami dotyczącymi odpowiednio określonych właściwości i wymagań wstępnych:

Uwierzytelnianie SQL dla starszej wersji

Aby użyć uwierzytelniania SQL, określ właściwości ogólne opisane w poprzedniej sekcji.

Uwierzytelnianie jednostki usługi dla starszej wersji

Aby użyć uwierzytelniania jednostki usługi, oprócz właściwości ogólnych opisanych w poprzedniej sekcji, określ następujące właściwości:

Właściwości Opis Wymagania
servicePrincipalId Określ identyfikator klienta aplikacji. Tak
servicePrincipalKey Określ klucz aplikacji. Oznacz to pole jako element SecureString w celu bezpiecznego przechowywania go lub odwołuj się do wpisu tajnego przechowywanego w usłudze Azure Key Vault. Tak
tenant Określ informacje o dzierżawie, takie jak nazwa domeny lub identyfikator dzierżawy, w którym znajduje się aplikacja. Pobierz go, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Tak
azureCloudType W przypadku uwierzytelniania jednostki usługi określ typ środowiska chmury platformy Azure, do którego zarejestrowano aplikację Firmy Microsoft Entra.
Dozwolone wartości to AzurePublic, AzureChina, AzureUsGovernment i AzureGermany. Domyślnie jest używane środowisko chmury potoku usługi Synapse lub fabryki danych.
Nie.

Należy również wykonać kroki opisane w temacie Uwierzytelnianie jednostki usługi, aby udzielić odpowiedniego uprawnienia.

Uwierzytelnianie tożsamości zarządzanej przypisanej przez system dla starszej wersji

Aby użyć uwierzytelniania tożsamości zarządzanej przypisanej przez system, wykonaj ten sam krok dla zalecanej wersji w uwierzytelnianiu tożsamości zarządzanej przypisanej przez system.

Uwierzytelnianie tożsamości zarządzanej przypisanej przez użytkownika dla starszej wersji

Aby użyć uwierzytelniania tożsamości zarządzanej przypisanej przez użytkownika, wykonaj ten sam krok dla zalecanej wersji w uwierzytelnianiu tożsamości zarządzanej przypisanej przez użytkownika.

Właściwości zestawu danych

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz artykuł Zestawy danych.

Następujące właściwości są obsługiwane w przypadku zestawu danych usługi Azure Synapse Analytics:

Właściwości Opis Wymagania
type Właściwość type zestawu danych musi być ustawiona na Wartość AzureSqlDWTable. Tak
schema Nazwa schematu. Nie dla źródła, Tak dla ujścia
table Nazwa tabeli/widoku. Nie dla źródła, Tak dla ujścia
tableName Nazwa tabeli/widoku ze schematem. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. W przypadku nowego obciążenia użyj polecenia schema i table. Nie dla źródła, Tak dla ujścia

Przykład właściwości zestawu danych

{
    "name": "AzureSQLDWDataset",
    "properties":
    {
        "type": "AzureSqlDWTable",
        "linkedServiceName": {
            "referenceName": "<Azure Synapse Analytics linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "schema": "<schema_name>",
            "table": "<table_name>"
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło i ujście usługi Azure Synapse Analytics.

Usługa Azure Synapse Analytics jako źródło

Napiwek

Aby wydajnie ładować dane z usługi Azure Synapse Analytics przy użyciu partycjonowania danych, dowiedz się więcej na temat kopiowania równoległego z usługi Azure Synapse Analytics.

Aby skopiować dane z usługi Azure Synapse Analytics, ustaw właściwość type w źródle działania kopiowania na wartość SqlDWSource. Następujące właściwości są obsługiwane w sekcji Źródło działania kopiowania:

Właściwości Opis Wymagania
type Właściwość type źródła działania kopiowania musi być ustawiona na SqlDWSource. Tak
sqlReaderQuery Użyj niestandardowego zapytania SQL, aby odczytać dane. Przykład: select * from MyTable. Nie.
sqlReaderStoredProcedureName Nazwa procedury składowanej, która odczytuje dane z tabeli źródłowej. Ostatnia instrukcja SQL musi być instrukcją SELECT w procedurze składowanej. Nie.
storedProcedureParameters Parametry procedury składowanej.
Dozwolone wartości to pary nazw lub wartości. Nazwy i wielkość liter parametrów muszą być zgodne z nazwami i wielkością parametrów procedury składowanej.
Nie.
isolationLevel Określa zachowanie blokowania transakcji dla źródła SQL. Dozwolone wartości to: ReadCommitted, ReadUncommitted, RepeatableRead, Serializable, Snapshot. Jeśli nie zostanie określony, zostanie użyty domyślny poziom izolacji bazy danych. Aby uzyskać więcej informacji, zobacz system.data.isolationlevel. Nie.
partitionOptions Określa opcje partycjonowania danych używane do ładowania danych z usługi Azure Synapse Analytics.
Dozwolone wartości to: Brak (wartość domyślna), PhysicalPartitionsOfTable i DynamicRange.
Jeśli opcja partycji jest włączona (czyli nie None), stopień równoległości równoczesnego ładowania danych z usługi Azure Synapse Analytics jest kontrolowany przez parallelCopies ustawienie działania kopiowania.
Nie.
partitionSettings Określ grupę ustawień partycjonowania danych.
Zastosuj, gdy opcja partycji nie Nonejest .
Nie.
W obszarze partitionSettings:
partitionColumnName Określ nazwę kolumny źródłowej w liczbą całkowitą lub typu daty/daty/godziny (int, smallint, smalldatetimedatedatetimebigintdatetime2lub datetimeoffset), która będzie używana przez partycjonowanie zakresu na potrzeby kopiowania równoległego. Jeśli nie zostanie określony, indeks lub klucz podstawowy tabeli jest wykrywany automatycznie i używany jako kolumna partycji.
Zastosuj, gdy opcja partycji to DynamicRange. Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?DfDynamicRangePartitionCondition się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopiowanie równoległe z bazy danych SQL.
Nie.
partitionUpperBound Maksymalna wartość kolumny partycji dla podziału zakresu partycji. Ta wartość służy do decydowania o kroku partycji, a nie do filtrowania wierszy w tabeli. Wszystkie wiersze w tabeli lub wyniku zapytania zostaną podzielone na partycje i skopiowane. Jeśli nie zostanie określony, działanie kopiowania automatycznie wykrywa wartość.
Zastosuj, gdy opcja partycji to DynamicRange. Aby zapoznać się z przykładem, zobacz sekcję Kopiowanie równoległe z bazy danych SQL.
Nie.
partitionLowerBound Minimalna wartość kolumny partycji dla podziału zakresu partycji. Ta wartość służy do decydowania o kroku partycji, a nie do filtrowania wierszy w tabeli. Wszystkie wiersze w tabeli lub wyniku zapytania zostaną podzielone na partycje i skopiowane. Jeśli nie zostanie określony, działanie kopiowania automatycznie wykrywa wartość.
Zastosuj, gdy opcja partycji to DynamicRange. Aby zapoznać się z przykładem, zobacz sekcję Kopiowanie równoległe z bazy danych SQL.
Nie.

Zwróć uwagę na następujący punkt:

  • W przypadku używania procedury składowanej w źródle do pobierania danych należy pamiętać, że procedura składowana jest zaprojektowana jako zwracanie innego schematu po przekazaniu innej wartości parametru, może wystąpić błąd lub nieoczekiwany wynik podczas importowania schematu z interfejsu użytkownika lub kopiowania danych do bazy danych SQL z automatycznym tworzeniem tabeli.

Przykład: używanie zapytania SQL

"activities":[
    {
        "name": "CopyFromAzureSQLDW",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Azure Synapse Analytics input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlDWSource",
                "sqlReaderQuery": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Przykład: używanie procedury składowanej

"activities":[
    {
        "name": "CopyFromAzureSQLDW",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Azure Synapse Analytics input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlDWSource",
                "sqlReaderStoredProcedureName": "CopyTestSrcStoredProcedureWithParameters",
                "storedProcedureParameters": {
                    "stringData": { "value": "str3" },
                    "identifier": { "value": "$$Text.Format('{0:yyyy}', <datetime parameter>)", "type": "Int"}
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Przykładowa procedura składowana:

CREATE PROCEDURE CopyTestSrcStoredProcedureWithParameters
(
    @stringData varchar(20),
    @identifier int
)
AS
SET NOCOUNT ON;
BEGIN
    select *
    from dbo.UnitTestSrcTable
    where dbo.UnitTestSrcTable.stringData != stringData
    and dbo.UnitTestSrcTable.identifier != identifier
END
GO

Usługa Azure Synapse Analytics jako ujście

Potoki usług Azure Data Factory i Synapse obsługują trzy sposoby ładowania danych do usługi Azure Synapse Analytics.

Najszybszym i najbardziej skalowalnym sposobem ładowania danych jest instrukcja COPY lub technologia PolyBase.

Aby skopiować dane do usługi Azure Synapse Analytics, ustaw typ ujścia w działaniu kopiowania na wartość SqlDWSink. Następujące właściwości są obsługiwane w sekcji ujścia działania kopiowania:

Właściwości Opis Wymagania
type Właściwość type ujścia działania kopiowania musi być ustawiona na SqlDWSink. Tak
allowPolyBase Wskazuje, czy używać technologii PolyBase do ładowania danych do usługi Azure Synapse Analytics. allowCopyCommand i allowPolyBase nie może być zarówno prawdziwe.

Aby uzyskać szczegółowe informacje, zobacz Sekcję Ładowanie danych do usługi Azure Synapse Analytics przy użyciu technologii PolyBase.

Dozwolone wartości to True i False (wartość domyślna).
L.p.
Zastosuj w przypadku korzystania z technologii PolyBase.
polyBaseSettings Grupa właściwości, które można określić, gdy allowPolybase właściwość jest ustawiona na wartość true. L.p.
Zastosuj w przypadku korzystania z technologii PolyBase.
allowCopyCommand Wskazuje, czy używać instrukcji COPY do ładowania danych do usługi Azure Synapse Analytics. allowCopyCommand i allowPolyBase nie może być zarówno prawdziwe.

Aby uzyskać szczegółowe informacje, zobacz Sekcję Używanie instrukcji COPY do ładowania danych do usługi Azure Synapse Analytics .

Dozwolone wartości to True i False (wartość domyślna).
L.p.
Zastosuj w przypadku korzystania z funkcji COPY.
copyCommandSettings Grupa właściwości, które można określić, gdy allowCopyCommand właściwość jest ustawiona na wartość TRUE. L.p.
Zastosuj w przypadku korzystania z funkcji COPY.
writeBatchSize Liczba wierszy do wstawiania do tabeli SQL na partię.

Dozwolona wartość to liczba całkowita (liczba wierszy). Domyślnie usługa dynamicznie określa odpowiedni rozmiar partii na podstawie rozmiaru wiersza.
L.p.
Zastosuj w przypadku użycia operacji wstawiania zbiorczego.
writeBatchTimeout Czas oczekiwania na ukończenie operacji wstawiania, operacji upsert i procedury składowanej przed przekroczeniem limitu czasu.
Dozwolone wartości są dla przedziału czasu. Przykładem jest "00:30:00" przez 30 minut. Jeśli żadna wartość nie jest określona, limit czasu jest domyślnie ustawiona na "00:30:00".
L.p.
Zastosuj w przypadku użycia operacji wstawiania zbiorczego.
preCopyScript Określ zapytanie SQL dla działania kopiowania, które ma zostać uruchomione przed zapisaniem danych w usłudze Azure Synapse Analytics w każdym przebiegu. Użyj tej właściwości, aby wyczyścić wstępnie załadowane dane. Nie.
tableOption Określa, czy automatycznie utworzyć tabelę ujścia, jeśli nie istnieje, na podstawie schematu źródłowego. Dozwolone wartości to: none (wartość domyślna), autoCreate. Nie.
disableMetricsCollection Usługa zbiera metryki, takie jak jednostki DWU usługi Azure Synapse Analytics w celu optymalizacji wydajności kopiowania i rekomendacji, które wprowadzają dodatkowy dostęp do głównej bazy danych. Jeśli interesuje Cię to zachowanie, określ true , aby go wyłączyć. Nie (wartość domyślna to false)
 maxConcurrentConnections Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.  Nie
WriteBehavior Określ zachowanie zapisu dla działania kopiowania w celu załadowania danych do usługi Azure Synapse Analytics.
Dozwolona wartość to Insert i Upsert. Domyślnie usługa używa wstawiania do ładowania danych.
Nie.
upsertSettings Określ grupę ustawień zachowania zapisu.
Zastosuj, gdy opcja WriteBehavior ma wartość Upsert.
Nie.
W obszarze upsertSettings:
keys Określ nazwy kolumn dla unikatowej identyfikacji wierszy. Można użyć pojedynczego klucza lub serii kluczy. Jeśli nie zostanie określony, używany jest klucz podstawowy. Nie.
interimSchemaName Określ schemat tymczasowy do tworzenia tabeli tymczasowej. Uwaga: użytkownik musi mieć uprawnienia do tworzenia i usuwania tabeli. Domyślnie tabela tymczasowa będzie współdzielić ten sam schemat co tabela ujścia. Nie.

Przykład 1. Ujście usługi Azure Synapse Analytics

"sink": {
    "type": "SqlDWSink",
    "allowPolyBase": true,
    "polyBaseSettings":
    {
        "rejectType": "percentage",
        "rejectValue": 10.0,
        "rejectSampleValue": 100,
        "useTypeDefault": true
    }
}

Przykład 2. Dane upsert

"sink": {
    "type": "SqlDWSink",
    "writeBehavior": "Upsert",
    "upsertSettings": {
        "keys": [
             "<column name>"
        ],
        "interimSchemaName": "<interim schema name>"
    },
}

Kopiowanie równoległe z usługi Azure Synapse Analytics

Łącznik usługi Azure Synapse Analytics w działaniu kopiowania zapewnia wbudowane partycjonowanie danych w celu równoległego kopiowania danych. Opcje partycjonowania danych można znaleźć na karcie Źródło działania kopiowania.

Zrzut ekranu przedstawiający opcje partycji

Po włączeniu kopii partycjonowanej działanie kopiowania uruchamia zapytania równoległe względem źródła usługi Azure Synapse Analytics w celu załadowania danych według partycji. Stopień równoległy jest kontrolowany przez parallelCopies ustawienie działania kopiowania. Jeśli na przykład ustawiono parallelCopies wartość cztery, usługa jednocześnie generuje i uruchamia cztery zapytania na podstawie określonej opcji partycji i ustawień, a każde zapytanie pobiera część danych z usługi Azure Synapse Analytics.

Zaleca się włączenie kopiowania równoległego przy użyciu partycjonowania danych, szczególnie w przypadku ładowania dużej ilości danych z usługi Azure Synapse Analytics. Poniżej przedstawiono sugerowane konfiguracje dla różnych scenariuszy. Podczas kopiowania danych do magazynu danych opartego na plikach zaleca się zapisywanie w folderze jako wielu plików (tylko określ nazwę folderu), w tym przypadku wydajność jest lepsza niż zapisywanie w jednym pliku.

Scenariusz Sugerowane ustawienia
Pełne ładowanie z dużej tabeli z partycjami fizycznymi. Opcja partycji: fizyczne partycje tabeli.

Podczas wykonywania usługa automatycznie wykrywa partycje fizyczne i kopiuje dane według partycji.

Aby sprawdzić, czy tabela ma partycję fizyczną, czy nie, możesz odwołać się do tego zapytania.
Pełne ładowanie z dużej tabeli, bez partycji fizycznych, podczas gdy z liczbą całkowitą lub kolumną datetime na potrzeby partycjonowania danych. Opcje partycji: partycja zakresu dynamicznego.
Kolumna partycji (opcjonalnie): określ kolumnę używaną do partycjonowania danych. Jeśli nie zostanie określony, zostanie użyta kolumna indeksu lub klucza podstawowego.
Górna granica partycji i dolna granica partycji (opcjonalnie): określ, czy chcesz określić krok partycji. Nie dotyczy to filtrowania wierszy w tabeli. Wszystkie wiersze w tabeli zostaną podzielone na partycje i skopiowane. Jeśli nie zostanie określony, działanie kopiowania automatycznie wykrywa wartości.

Jeśli na przykład kolumna partycji "ID" zawiera wartości z zakresu od 1 do 100, a dolna granica zostanie ustawiona na wartość 20, a górna granica to 80, z kopią równoległą jako 4, usługa pobiera dane według 4 partycji — identyfikatory w zakresie <=20, [21, 50], [51, 80] i >=81.
Załaduj dużą ilość danych przy użyciu zapytania niestandardowego, bez partycji fizycznych, natomiast z liczbą całkowitą lub kolumną date/datetime na potrzeby partycjonowania danych. Opcje partycji: partycja zakresu dynamicznego.
Zapytanie: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>.
Kolumna partycji: określ kolumnę używaną do partycjonowania danych.
Górna granica partycji i dolna granica partycji (opcjonalnie): określ, czy chcesz określić krok partycji. Nie jest to przeznaczone do filtrowania wierszy w tabeli, wszystkie wiersze w wyniku zapytania zostaną partycjonowane i skopiowane. Jeśli nie zostanie określony, działanie kopiowania automatycznie wykrywa wartość.

Jeśli na przykład kolumna partycji "ID" zawiera wartości z zakresu od 1 do 100, a dolna granica zostanie ustawiona jako 20 i górna granica jako 80, z kopią równoległą jako 4, usługa pobiera dane według 4 partycji — identyfikatory w zakresie <=20, [21, 50], [51, 80] i >=81.

Poniżej przedstawiono więcej przykładowych zapytań dla różnych scenariuszy:
1. Wykonaj zapytanie względem całej tabeli:
SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition
2. Kwerenda z tabeli z zaznaczeniem kolumny i dodatkowymi filtrami klauzuli where:
SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>
3. Kwerenda z podzapytaniami:
SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>
4. Kwerenda z partycją w podzapytaniu:
SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T

Najlepsze rozwiązania dotyczące ładowania danych z opcją partycji:

  1. Wybierz charakterystyczną kolumnę jako kolumnę partycji (np. klucz podstawowy lub unikatowy klucz), aby uniknąć niesymetryczności danych.
  2. Jeśli tabela ma wbudowaną partycję, użyj opcji partycji "Partycje fizyczne tabeli", aby uzyskać lepszą wydajność.
  3. Jeśli używasz środowiska Azure Integration Runtime do kopiowania danych, możesz ustawić większe wartości "Integracja danych Units (DIU)" (>4) w celu korzystania z większej liczby zasobów obliczeniowych. Sprawdź odpowiednie scenariusze.
  4. "Stopień równoległości kopiowania" steruje numerami partycji, ustawiając tę liczbę zbyt dużą, czasami boli wydajność, zaleca się ustawienie tej liczby jako (DIU lub liczba węzłów własnego środowiska IR) * (od 2 do 4).
  5. Uwaga Usługa Azure Synapse Analytics może wykonywać maksymalnie 32 zapytania w danym momencie, ustawiając zbyt duży stopień równoległości kopiowania, może spowodować problem z ograniczaniem przepustowości usługi Synapse.

Przykład: pełne ładowanie z dużej tabeli z partycjami fizycznymi

"source": {
    "type": "SqlDWSource",
    "partitionOption": "PhysicalPartitionsOfTable"
}

Przykład: zapytanie z partycją zakresu dynamicznego

"source": {
    "type": "SqlDWSource",
    "query": "SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>",
    "partitionOption": "DynamicRange",
    "partitionSettings": {
        "partitionColumnName": "<partition_column_name>",
        "partitionUpperBound": "<upper_value_of_partition_column (optional) to decide the partition stride, not as data filter>",
        "partitionLowerBound": "<lower_value_of_partition_column (optional) to decide the partition stride, not as data filter>"
    }
}

Przykładowe zapytanie do sprawdzania partycji fizycznej

SELECT DISTINCT s.name AS SchemaName, t.name AS TableName, c.name AS ColumnName, CASE WHEN c.name IS NULL THEN 'no' ELSE 'yes' END AS HasPartition
FROM sys.tables AS t
LEFT JOIN sys.objects AS o ON t.object_id = o.object_id
LEFT JOIN sys.schemas AS s ON o.schema_id = s.schema_id
LEFT JOIN sys.indexes AS i ON t.object_id = i.object_id
LEFT JOIN sys.index_columns AS ic ON ic.partition_ordinal > 0 AND ic.index_id = i.index_id AND ic.object_id = t.object_id
LEFT JOIN sys.columns AS c ON c.object_id = ic.object_id AND c.column_id = ic.column_id
LEFT JOIN sys.types AS y ON c.system_type_id = y.system_type_id
WHERE s.name='[your schema]' AND t.name = '[your table name]'

Jeśli tabela ma partycję fizyczną, zostanie wyświetlona wartość "HasPartition" jako "tak".

Ładowanie danych do usługi Azure Synapse Analytics przy użyciu instrukcji COPY

Użycie instrukcji COPY to prosty i elastyczny sposób ładowania danych do usługi Azure Synapse Analytics z wysoką przepływnością. Aby dowiedzieć się więcej, zobacz Zbiorcze ładowanie danych przy użyciu instrukcji COPY

  • Jeśli dane źródłowe są w usłudze Azure Blob lub Azure Data Lake Storage Gen2, a format jest zgodny z instrukcją COPY, możesz użyć działania kopiowania, aby bezpośrednio wywołać instrukcję COPY, aby umożliwić usłudze Azure Synapse Analytics ściąganie danych ze źródła. Aby uzyskać szczegółowe informacje, zobacz Direct copy by using COPY statement (Kopiowanie bezpośrednie przy użyciu instrukcji COPY).
  • Jeśli źródłowy magazyn danych i format nie są pierwotnie obsługiwane przez instrukcję COPY, użyj funkcji kopiowania etapowego przy użyciu funkcji instrukcji COPY. Funkcja kopiowania etapowego zapewnia również lepszą przepływność. Automatycznie konwertuje dane na format zgodny z instrukcją COPY, przechowuje dane w usłudze Azure Blob Storage, a następnie wywołuje instrukcję COPY, aby załadować dane do usługi Azure Synapse Analytics.

Napiwek

W przypadku korzystania z instrukcji COPY w środowisku Azure Integration Runtime obowiązująca liczba jednostek Integracja danych (DIU) zawsze wynosi 2. Dostrajanie jednostek DIU nie ma wpływu na wydajność, ponieważ ładowanie danych z magazynu jest obsługiwane przez aparat usługi Azure Synapse.

Kopiowanie bezpośrednie przy użyciu instrukcji COPY

Instrukcja COPY usługi Azure Synapse Analytics obsługuje bezpośrednio usługi Azure Blob i Azure Data Lake Storage Gen2. Jeśli dane źródłowe spełniają kryteria opisane w tej sekcji, użyj instrukcji COPY, aby skopiować bezpośrednio ze źródłowego magazynu danych do usługi Azure Synapse Analytics. W przeciwnym razie użyj instrukcji COPY z instrukcją COPY. Usługa sprawdza ustawienia i kończy się niepowodzeniem działania kopiowania, jeśli kryteria nie zostały spełnione.

  1. Źródłowa połączona usługa i format mają następujące typy i metody uwierzytelniania:

    Obsługiwany typ magazynu danych źródłowych Obsługiwany format Obsługiwany typ uwierzytelniania źródłowego
    Azure Blob Rozdzielany tekst Uwierzytelnianie klucza konta, uwierzytelnianie za pomocą sygnatury dostępu współdzielonego, uwierzytelnianie jednostki usługi (przy użyciu klucza usługi ServicePrincipalKey), uwierzytelnianie tożsamości zarządzanej przypisanej przez system
      Parkiet Uwierzytelnianie klucza konta, uwierzytelnianie za pomocą sygnatury dostępu współdzielonego
      ORK Uwierzytelnianie klucza konta, uwierzytelnianie za pomocą sygnatury dostępu współdzielonego
    Azure Data Lake Storage Gen2 Rozdzielany tekst
    Parkiet
    ORK
    Uwierzytelnianie klucza konta, uwierzytelnianie jednostki usługi (przy użyciu klucza usługi ServicePrincipalKey), uwierzytelnianie sygnatury dostępu współdzielonego, uwierzytelnianie tożsamości zarządzanej przypisanej przez system

    Ważne

  2. Ustawienia formatu są następujące:

    1. W przypadku parquet: compression nie może być kompresją, snappy lub GZip.
    2. W przypadku ORC: compression nie może być kompresją, zliblub Snappy.
    3. W przypadku tekstu rozdzielanego:
      1. rowDelimiter jest jawnie ustawiana jako pojedynczy znak lub "\r\n", wartość domyślna nie jest obsługiwana.
      2. nullValue jest pozostawiony jako domyślny lub ustawiony na pusty ciąg ("").
      3. encodingName jest pozostawiony jako domyślny lub ustawiony na utf-8 lub utf-16.
      4. escapeChar musi być taka sama jak quoteChar, i nie jest pusta.
      5. skipLineCount jest pozostawiona jako domyślna lub ustawiona na 0.
      6. compression nie może być kompresją ani GZip.
  3. Jeśli źródło jest folderem, recursive w działaniu kopiowania musi być ustawiona wartość true i wildcardFilename musi mieć * wartość lub *.*.

  4. wildcardFolderPath, wildcardFilename (inne niż *lub *.*), modifiedDateTimeStart, modifiedDateTimeEnd, prefixenablePartitionDiscovery i additionalColumns nie są określone.

Następujące ustawienia instrukcji COPY są obsługiwane allowCopyCommand w działaniu kopiowania:

Właściwości Opis Wymagania
defaultValues Określa wartości domyślne dla każdej kolumny docelowej w usłudze Azure Synapse Analytics. Wartości domyślne we właściwości zastępują ograniczenie DOMYŚLNE ustawione w magazynie danych, a kolumna tożsamości nie może mieć wartości domyślnej. Nie.
additionalOptions Dodatkowe opcje, które zostaną przekazane do instrukcji COPY usługi Azure Synapse Analytics bezpośrednio w klauzuli "With" w instrukcji COPY. Podaj wartość zgodnie z potrzebami, aby dopasować się do wymagań instrukcji COPY. Nie.
"activities":[
    {
        "name": "CopyFromAzureBlobToSQLDataWarehouseViaCOPY",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "ParquetDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "ParquetSource",
                "storeSettings":{
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            "sink": {
                "type": "SqlDWSink",
                "allowCopyCommand": true,
                "copyCommandSettings": {
                    "defaultValues": [
                        {
                            "columnName": "col_string",
                            "defaultValue": "DefaultStringValue"
                        }
                    ],
                    "additionalOptions": {
                        "MAXERRORS": "10000",
                        "DATEFORMAT": "'ymd'"
                    }
                }
            },
            "enableSkipIncompatibleRow": true
        }
    }
]

Kopiowanie etapowe przy użyciu instrukcji COPY

Jeśli dane źródłowe nie są natywnie zgodne z instrukcją COPY, włącz kopiowanie danych za pośrednictwem tymczasowego przejściowego obiektu blob platformy Azure lub usługi Azure Data Lake Storage Gen2 (nie może to być usługa Azure Premium Storage). W takim przypadku usługa automatycznie konwertuje dane w celu spełnienia wymagań dotyczących formatu danych instrukcji COPY. Następnie wywołuje instrukcję COPY w celu załadowania danych do usługi Azure Synapse Analytics. Na koniec czyści dane tymczasowe z magazynu. Zobacz Kopiowanie etapowe, aby uzyskać szczegółowe informacje na temat kopiowania danych za pośrednictwem przemieszczania.

Aby użyć tej funkcji, utwórz połączoną usługę Azure Blob Storage lub połączoną usługę Azure Data Lake Storage Gen2 z kluczem konta lub uwierzytelnianiem tożsamości zarządzanej przez system, które odnosi się do konta usługi Azure Storage jako magazynu tymczasowego.

Ważne

  • Korzystając z uwierzytelniania tożsamości zarządzanej dla połączonej usługi przejściowej, zapoznaj się z wymaganymi konfiguracjami odpowiednio dla usług Azure Blob i Azure Data Lake Storage Gen2 . Musisz również udzielić uprawnień tożsamości zarządzanej obszaru roboczego usługi Azure Synapse Analytics na przejściowym koncie usługi Azure Blob Storage lub Azure Data Lake Storage Gen2. Aby dowiedzieć się, jak udzielić tego uprawnienia, zobacz Udzielanie uprawnień tożsamości zarządzanej obszaru roboczego.
  • Jeśli tymczasowa usługa Azure Storage jest skonfigurowana z punktem końcowym usługi sieci wirtualnej, musisz użyć uwierzytelniania tożsamości zarządzanej z włączoną funkcją "zezwalaj na zaufaną usługę firmy Microsoft" na koncie magazynu, zapoznaj się z tematem Wpływ używania punktów końcowych usługi sieci wirtualnej z usługą Azure Storage.

Ważne

Jeśli tymczasowa usługa Azure Storage jest skonfigurowana przy użyciu zarządzanego prywatnego punktu końcowego i ma włączoną zaporę magazynu, musisz użyć uwierzytelniania tożsamości zarządzanej i przyznać uprawnienia Czytelnik danych obiektu blob usługi Storage do programu Synapse SQL Server, aby upewnić się, że będzie on mógł uzyskać dostęp do plików przygotowanych podczas ładowania instrukcji COPY.

"activities":[
    {
        "name": "CopyFromSQLServerToSQLDataWarehouseViaCOPYstatement",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "SQLServerDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlSource",
            },
            "sink": {
                "type": "SqlDWSink",
                "allowCopyCommand": true
            },
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingStorage",
                    "type": "LinkedServiceReference"
                }
            }
        }
    }
]

Ładowanie danych do usługi Azure Synapse Analytics przy użyciu technologii PolyBase

Korzystanie z technologii PolyBase to wydajny sposób ładowania dużej ilości danych do usługi Azure Synapse Analytics z wysoką przepływnością. Zobaczysz duży wzrost przepływności przy użyciu technologii PolyBase zamiast domyślnego mechanizmu BULKINSERT.

  • Jeśli dane źródłowe są w usłudze Azure Blob lub Azure Data Lake Storage Gen2, a format jest zgodny z technologią PolyBase, możesz użyć działania kopiowania, aby bezpośrednio wywołać program PolyBase, aby umożliwić usłudze Azure Synapse Analytics ściąganie danych ze źródła. Aby uzyskać szczegółowe informacje, zobacz Direct copy by using PolyBase (Kopiowanie bezpośrednie przy użyciu technologii PolyBase).
  • Jeśli źródłowy magazyn danych i format nie są pierwotnie obsługiwane przez program PolyBase, zamiast tego użyj funkcji PolyBase przygotowanej do kopiowania. Funkcja kopiowania etapowego zapewnia również lepszą przepływność. Automatycznie konwertuje dane na format zgodny z technologią PolyBase, przechowuje dane w usłudze Azure Blob Storage, a następnie wywołuje program PolyBase, aby załadować dane do usługi Azure Synapse Analytics.

Napiwek

Dowiedz się więcej na temat najlepszych rozwiązań dotyczących korzystania z technologii PolyBase. W przypadku korzystania z technologii PolyBase z usługą Azure Integration Runtime efektywne jednostki Integracja danych (DIU) dla magazynu bezpośredniego lub etapowego do usługi Synapse zawsze wynosi 2. Dostrajanie jednostki DIU nie wpływa na wydajność, ponieważ ładowanie danych z magazynu jest obsługiwane przez aparat synapse.

Następujące ustawienia programu PolyBase są obsługiwane polyBaseSettings w działaniu kopiowania:

Właściwości Opis Wymagania
rejectValue Określa liczbę lub procent wierszy, które można odrzucić przed niepowodzeniem zapytania.

Dowiedz się więcej o opcjach odrzucania technologii PolyBase w sekcji Argumenty w temacie CREATE EXTERNAL TABLE (Transact-SQL).

Dozwolone wartości to 0 (wartość domyślna), 1, 2 itd.
Nie.
rejectType Określa, czy opcja rejectValue jest wartością literału, czy wartością procentową.

Dozwolone wartości to Wartość (wartość domyślna) i Wartość procentowa.
Nie.
rejectSampleValue Określa liczbę wierszy do pobrania przed ponownym obliczeniu wartości procentowej odrzuconych wierszy przez program PolyBase.

Dozwolone wartości to 1, 2 itd.
Tak, jeśli parametr rejectType ma wartość procentową.
useTypeDefault Określa sposób obsługi brakujących wartości w rozdzielanych plikach tekstowych, gdy program PolyBase pobiera dane z pliku tekstowego.

Dowiedz się więcej o tej właściwości w sekcji Argumenty w temacie CREATE EXTERNAL FILE FORMAT (Transact-SQL).

Dozwolone wartości to True i False (wartość domyślna).

Nie.

Kopiowanie bezpośrednie przy użyciu technologii PolyBase

Usługa Azure Synapse Analytics PolyBase bezpośrednio obsługuje usługi Azure Blob i Azure Data Lake Storage Gen2. Jeśli dane źródłowe spełniają kryteria opisane w tej sekcji, użyj technologii PolyBase, aby skopiować bezpośrednio ze źródłowego magazynu danych do usługi Azure Synapse Analytics. W przeciwnym razie użyj kopiowania etapowego przy użyciu technologii PolyBase.

Jeśli wymagania nie zostaną spełnione, usługa sprawdza ustawienia i automatycznie wraca do mechanizmu BULKINSERT na potrzeby przenoszenia danych.

  1. Źródłowa połączona usługa ma następujące typy i metody uwierzytelniania:

    Obsługiwany typ magazynu danych źródłowych Obsługiwany typ uwierzytelniania źródłowego
    Azure Blob Uwierzytelnianie za pomocą klucza konta, uwierzytelnianie tożsamości zarządzanej przypisanej przez system
    Azure Data Lake Storage Gen2 Uwierzytelnianie za pomocą klucza konta, uwierzytelnianie tożsamości zarządzanej przypisanej przez system

    Ważne

  2. Format danych źródłowych to tekst Parquet, ORC lub rozdzielany, z następującymi konfiguracjami:

    1. Ścieżka folderu nie zawiera filtru z symbolami wieloznacznymi.
    2. Nazwa pliku jest pusta lub wskazuje pojedynczy plik. Jeśli określisz nazwę pliku z symbolami wieloznacznymi w działaniu kopiowania, może to być * tylko wartość lub *.*.
    3. rowDelimiter wartość domyślna, \n, \r\n lub \r.
    4. nullValue jest pozostawiona jako domyślna lub ustawiona na pusty ciąg ("") i treatEmptyAsNull jest pozostawiona jako domyślna lub ustawiona na true.
    5. encodingName jest pozostawiona jako domyślna lub ustawiona na wartość utf-8.
    6. quoteChar, escapeChari skipLineCount nie są określone. Obsługa technologii PolyBase pomija wiersz nagłówka, który można skonfigurować jako firstRowAsHeader.
    7. compression nie może być kompresją, GZiplub deflate.
  3. Jeśli źródło jest folderem, recursive w działaniu kopiowania musi być ustawiona wartość true.

  4. wildcardFolderPath, , wildcardFilenamemodifiedDateTimeStartprefixmodifiedDateTimeEndenablePartitionDiscoveryi additionalColumns nie są określone.

Uwaga

Jeśli źródło jest folderem, należy pamiętać, że program PolyBase pobiera pliki z folderu i wszystkich jego podfolderów i nie pobiera danych z plików, dla których nazwa pliku zaczyna się podkreślenia (_) lub kropki (.), zgodnie z opisem w tym miejscu — argument LOCATION.

"activities":[
    {
        "name": "CopyFromAzureBlobToSQLDataWarehouseViaPolyBase",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "ParquetDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "ParquetSource",
                "storeSettings":{
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            "sink": {
                "type": "SqlDWSink",
                "allowPolyBase": true
            }
        }
    }
]

Kopiowanie etapowe przy użyciu technologii PolyBase

Jeśli dane źródłowe nie są natywnie zgodne z technologią PolyBase, włącz kopiowanie danych za pośrednictwem tymczasowego przejściowego obiektu blob platformy Azure lub usługi Azure Data Lake Storage Gen2 (nie może to być usługa Azure Premium Storage). W takim przypadku usługa automatycznie konwertuje dane, aby spełniały wymagania dotyczące formatu danych programu PolyBase. Następnie wywołuje program PolyBase w celu załadowania danych do usługi Azure Synapse Analytics. Na koniec czyści dane tymczasowe z magazynu. Zobacz Kopiowanie etapowe, aby uzyskać szczegółowe informacje na temat kopiowania danych za pośrednictwem przemieszczania.

Aby użyć tej funkcji, utwórz połączoną usługę Azure Blob Storage lub połączoną usługę Azure Data Lake Storage Gen2 z kluczem konta lub uwierzytelnianiem tożsamości zarządzanej, które odnosi się do konta usługi Azure Storage jako magazynu tymczasowego.

Ważne

  • Korzystając z uwierzytelniania tożsamości zarządzanej dla połączonej usługi przejściowej, zapoznaj się z wymaganymi konfiguracjami odpowiednio dla usług Azure Blob i Azure Data Lake Storage Gen2 . Musisz również udzielić uprawnień tożsamości zarządzanej obszaru roboczego usługi Azure Synapse Analytics na przejściowym koncie usługi Azure Blob Storage lub Azure Data Lake Storage Gen2. Aby dowiedzieć się, jak udzielić tego uprawnienia, zobacz Udzielanie uprawnień tożsamości zarządzanej obszaru roboczego.
  • Jeśli tymczasowa usługa Azure Storage jest skonfigurowana z punktem końcowym usługi sieci wirtualnej, musisz użyć uwierzytelniania tożsamości zarządzanej z włączoną funkcją "zezwalaj na zaufaną usługę firmy Microsoft" na koncie magazynu, zapoznaj się z tematem Wpływ używania punktów końcowych usługi sieci wirtualnej z usługą Azure Storage.

Ważne

Jeśli tymczasowa usługa Azure Storage jest skonfigurowana przy użyciu zarządzanego prywatnego punktu końcowego i ma włączoną zaporę magazynu, musisz użyć uwierzytelniania tożsamości zarządzanej i przyznać czytelnikowi danych obiektu blob usługi Storage uprawnienia do programu Synapse SQL Server, aby zapewnić dostęp do plików etapowych podczas ładowania programu PolyBase.

"activities":[
    {
        "name": "CopyFromSQLServerToSQLDataWarehouseViaPolyBase",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "SQLServerDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlSource",
            },
            "sink": {
                "type": "SqlDWSink",
                "allowPolyBase": true
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingStorage",
                    "type": "LinkedServiceReference"
                }
            }
        }
    }
]

Najlepsze rozwiązania dotyczące korzystania z technologii PolyBase

Poniższe sekcje zawierają najlepsze rozwiązania oprócz tych rozwiązań wymienionych w artykule Best practices for Azure Synapse Analytics (Najlepsze rozwiązania dotyczące usługi Azure Synapse Analytics).

Wymagane uprawnienie bazy danych

Aby korzystać z technologii PolyBase, użytkownik, który ładuje dane do usługi Azure Synapse Analytics, musi mieć uprawnienie "CONTROL" w docelowej bazie danych. Jednym ze sposobów osiągnięcia tego celu jest dodanie użytkownika jako członka roli db_owner . Dowiedz się, jak to zrobić w omówieniu usługi Azure Synapse Analytics.

Limity rozmiaru wiersza i typu danych

Obciążenia programu PolyBase są ograniczone do wierszy mniejszych niż 1 MB. Nie można go użyć do załadowania do VARCHR(MAX), NVARCHAR(MAX) lub VARBINARY(MAX). Aby uzyskać więcej informacji, zobacz Limity pojemności usługi Azure Synapse Analytics.

Jeśli dane źródłowe mają wiersze większe niż 1 MB, możesz podzielić tabele źródłowe w pionie na kilka małych. Upewnij się, że największy rozmiar każdego wiersza nie przekracza limitu. Mniejsze tabele można następnie załadować przy użyciu technologii PolyBase i scalić je razem w usłudze Azure Synapse Analytics.

Alternatywnie w przypadku danych z takimi szerokimi kolumnami można użyć technologii innej niż PolyBase, aby załadować dane, wyłączając ustawienie "zezwalaj na program PolyBase".

Klasa zasobów usługi Azure Synapse Analytics

Aby uzyskać najlepszą możliwą przepływność, przypisz większą klasę zasobów do użytkownika, który ładuje dane do usługi Azure Synapse Analytics za pośrednictwem technologii PolyBase.

Rozwiązywanie problemów z programem PolyBase

Ładowanie do kolumny dziesiętnej

Jeśli dane źródłowe są w formacie tekstowym lub w innych magazynach niezgodnych z technologią PolyBase (przy użyciu kopii etapowej i technologii PolyBase) i zawierają pustą wartość do załadowania do kolumny dziesiętnej usługi Azure Synapse Analytics, może zostać wyświetlony następujący błąd:

ErrorCode=FailedDbOperation, ......HadoopSqlException: Error converting data type VARCHAR to DECIMAL.....Detailed Message=Empty string can't be converted to DECIMAL.....

Rozwiązaniem jest usunięcie zaznaczenia opcji "Użyj domyślnego typu" (jako fałsz) w ujściu działania kopiowania —> ustawienia programu PolyBase. "USE_TYPE_DEFAULT" to natywna konfiguracja programu PolyBase, która określa sposób obsługi brakujących wartości w rozdzielanych plikach tekstowych, gdy technologia PolyBase pobiera dane z pliku tekstowego.

Sprawdzanie właściwości tableName w usłudze Azure Synapse Analytics

W poniższej tabeli przedstawiono przykłady sposobu określania właściwości tableName w zestawie danych JSON. Przedstawia kilka kombinacji nazw schematów i tabel.

Schemat bazy danych Nazwa tabeli tableName , właściwość JSON
dbo MyTable MyTable lub dbo. MyTable lub [dbo]. [MyTable]
dbo1 MyTable dbo1. MyTable lub [dbo1]. [MyTable]
dbo My.Table [My.Table] lub [dbo]. [My.Table]
dbo1 My.Table [dbo1]. [My.Table]

Jeśli zostanie wyświetlony następujący błąd, problem może być wartością określoną dla właściwości tableName . Zapoznaj się z poprzednią tabelą, aby uzyskać prawidłowy sposób określania wartości właściwości tableName JSON.

Type=System.Data.SqlClient.SqlException,Message=Invalid object name 'stg.Account_test'.,Source=.Net SqlClient Data Provider

Kolumny z wartościami domyślnymi

Obecnie funkcja PolyBase akceptuje tylko tę samą liczbę kolumn co w tabeli docelowej. Przykładem jest tabela z czterema kolumnami, w których jedna z nich jest definiowana z wartością domyślną. Dane wejściowe nadal muszą mieć cztery kolumny. Zestaw danych wejściowych z trzema kolumnami zwraca błąd podobny do następującego komunikatu:

All columns of the table must be specified in the INSERT BULK statement.

Wartość NULL jest specjalną formą wartości domyślnej. Jeśli kolumna jest dopuszczana do wartości null, dane wejściowe w obiekcie blob dla tej kolumny mogą być puste. Nie może jednak brakować go w wejściowym zestawie danych. Program PolyBase wstawia wartość NULL dla brakujących wartości w usłudze Azure Synapse Analytics.

Dostęp do pliku zewnętrznego nie powiódł się

Jeśli zostanie wyświetlony następujący błąd, upewnij się, że używasz uwierzytelniania tożsamości zarządzanej i udzielono uprawnień Czytelnik danych obiektu blob usługi Storage do tożsamości zarządzanej obszaru roboczego usługi Azure Synapse.

Job failed due to reason: at Sink '[SinkName]': shaded.msdataflow.com.microsoft.sqlserver.jdbc.SQLServerException: External file access failed due to internal error: 'Error occurred while accessing HDFS: Java exception raised on call to HdfsBridge_IsDirExist. Java exception message:\r\nHdfsBridge::isDirExist 

Aby uzyskać więcej informacji, zobacz Udzielanie uprawnień tożsamości zarządzanej po utworzeniu obszaru roboczego.

Właściwości przepływu mapowania danych

Podczas przekształcania danych w przepływie mapowania danych można odczytywać i zapisywać w tabelach z usługi Azure Synapse Analytics. Aby uzyskać więcej informacji, zobacz przekształcanie źródła i przekształcanie ujścia w przepływach danych mapowania.

Przekształcanie źródła

Ustawienia specyficzne dla usługi Azure Synapse Analytics są dostępne na karcie Opcje źródła przekształcenia źródła.

Dane wejściowe Wybierz, czy wskazujesz źródło w tabeli (odpowiednik Select * from <table-name>) lub wprowadź niestandardowe zapytanie SQL.

Włącz przemieszczanie Zdecydowanie zaleca się użycie tej opcji w obciążeniach produkcyjnych ze źródłami usługi Azure Synapse Analytics. Po wykonaniu działania przepływu danych ze źródłami usługi Azure Synapse Analytics z potoku zostanie wyświetlony monit o konto magazynu lokalizacji przejściowej i będzie używany do ładowania danych etapowych. Jest to najszybszy mechanizm ładowania danych z usługi Azure Synapse Analytics.

  • Jeśli używasz uwierzytelniania tożsamości zarządzanej dla połączonej usługi magazynu, zapoznaj się z wymaganymi konfiguracjami odpowiednio dla usług Azure Blob i Azure Data Lake Storage Gen2 .
  • Jeśli usługa Azure Storage jest skonfigurowana z punktem końcowym usługi sieci wirtualnej, musisz użyć uwierzytelniania tożsamości zarządzanej z włączoną funkcją "zezwalaj na zaufaną usługę firmy Microsoft" na koncie magazynu, zapoznaj się z tematem Wpływ używania punktów końcowych usługi sieci wirtualnej z usługą Azure Storage.
  • W przypadku korzystania z bezserwerowej puli SQL usługi Azure Synapse jako źródła nie jest obsługiwana funkcja przemieszczania.

Zapytanie: w przypadku wybrania pozycji Zapytanie w polu wejściowym wprowadź zapytanie SQL dla źródła. To ustawienie zastępuje dowolną tabelę wybraną w zestawie danych. Klauzule Order By nie są obsługiwane w tym miejscu, ale można ustawić pełną instrukcję SELECT FROM. Można również użyć funkcji tabeli zdefiniowanych przez użytkownika. select * from udfGetData() to funkcja zdefiniowana przez użytkownika w języku SQL, która zwraca tabelę. To zapytanie utworzy tabelę źródłową, której można użyć w przepływie danych. Korzystanie z zapytań to również doskonały sposób na zmniejszenie liczby wierszy na potrzeby testowania lub wyszukiwania.

Przykład sql: Select * from MyTable where customerId > 1000 and customerId < 2000

Rozmiar partii: wprowadź rozmiar partii, aby podzielić duże dane na odczyty. W przepływach danych to ustawienie będzie używane do ustawiania buforowania kolumn platformy Spark. Jest to pole opcji, które będzie używać wartości domyślnych platformy Spark, jeśli pozostanie puste.

Poziom izolacji: wartość domyślna dla źródeł SQL w przepływie mapowania danych jest odczytywana jako niezatwierdzona. W tym miejscu można zmienić poziom izolacji na jedną z następujących wartości:

  • Odczyt zatwierdzony
  • Odczyt niezatwierdzony
  • Powtarzalny odczyt
  • Serializacji
  • Brak (ignoruj poziom izolacji)

Poziom izolacji

Przekształcenie ujścia

Ustawienia specyficzne dla usługi Azure Synapse Analytics są dostępne na karcie Ustawienia przekształcenia ujścia.

Metoda aktualizacji: określa, jakie operacje są dozwolone w miejscu docelowym bazy danych. Ustawieniem domyślnym jest zezwalanie tylko na wstawianie. Aby zaktualizować, upsert lub usunąć wiersze, do tagowania wierszy dla tych akcji jest wymagane przekształcenie alter-row. W przypadku aktualizacji, operacji upsert i usuwania należy ustawić kolumnę klucza lub kolumny w celu określenia, który wiersz ma zostać zmieniony.

Akcja tabeli: określa, czy należy ponownie utworzyć lub usunąć wszystkie wiersze z tabeli docelowej przed zapisem.

  • Brak: żadna akcja nie zostanie wykonana w tabeli.
  • Utwórz ponownie: tabela zostanie porzucona i utworzona ponownie. Wymagane w przypadku dynamicznego tworzenia nowej tabeli.
  • Obcinanie: wszystkie wiersze z tabeli docelowej zostaną usunięte.

Włącz przemieszczanie: umożliwia ładowanie do pul SQL usługi Azure Synapse Analytics przy użyciu polecenia kopiowania i jest zalecane w przypadku większości ujść usługi Synapse. Magazyn przejściowy jest skonfigurowany w działaniu Wykonaj Przepływ danych.

Rozmiar partii: określa liczbę wierszy zapisywanych w każdym zasobniku. Większe rozmiary partii zwiększają kompresję i optymalizację pamięci, ale ryzykuj z wyjątków pamięci podczas buforowania danych.

Użyj schematu ujścia: domyślnie zostanie utworzona tabela tymczasowa w schemacie ujścia jako przejściowe. Alternatywnie można usunąć zaznaczenie opcji Użyj schematu ujścia, a zamiast tego w obszarze Wybierz schemat bazy danych użytkownika określ nazwę schematu, w którym usługa Data Factory utworzy tabelę przejściową w celu załadowania danych nadrzędnych i automatycznego czyszczenia ich po zakończeniu. Upewnij się, że masz uprawnienie do tworzenia tabeli w bazie danych i zmień uprawnienia w schemacie.

Zrzut ekranu przedstawiający przepływ danych

Skrypty wstępne i post sql: wprowadź wielowierszowe skrypty SQL, które będą wykonywane przed (przetwarzanie wstępne) i po (przetwarzaniu po przetworzeniu) dane są zapisywane w bazie danych ujścia

Zrzut ekranu przedstawiający skrypty przetwarzania wstępnie i po ich opublikowaniu w przepływie danych usługi Azure Synapse Analytics.

Napiwek

  1. Zaleca się podzielenie pojedynczych skryptów wsadowych z wieloma poleceniami na wiele partii.
  2. W ramach partii można uruchamiać tylko instrukcje języka DDL (Data Definition Language) i Języka manipulowania danymi (DML), które zwracają prostą liczbę aktualizacji. Dowiedz się więcej na temat wykonywania operacji wsadowych

Obsługa wierszy błędów

Podczas zapisywania w usłudze Azure Synapse Analytics niektóre wiersze danych mogą zakończyć się niepowodzeniem z powodu ograniczeń ustawionych przez miejsce docelowe. Niektóre typowe błędy to:

  • Ciąg lub dane binarne zostaną obcięte w tabeli
  • Nie można wstawić wartości NULL do kolumny
  • Konwersja nie powiodła się podczas konwertowania wartości na typ danych

Domyślnie uruchomienie przepływu danych zakończy się niepowodzeniem podczas pierwszego błędu, który zostanie wyświetlony. Możesz wybrać opcję Kontynuuj przy błędzie , który umożliwia ukończenie przepływu danych, nawet jeśli poszczególne wiersze zawierają błędy. Usługa udostępnia różne opcje obsługi tych wierszy błędów.

Zatwierdzenie transakcji: wybierz, czy dane są zapisywane w jednej transakcji, czy w partiach. Pojedyncza transakcja zapewni lepszą wydajność i żadne zapisane dane nie będą widoczne dla innych do momentu zakończenia transakcji. Transakcje wsadowe mają słabszą wydajność, ale mogą działać w przypadku dużych zestawów danych.

Dane wyjściowe odrzucone: jeśli to ustawienie jest włączone, możesz wyświetlić wiersze błędów w pliku csv w usłudze Azure Blob Storage lub na wybranym koncie usługi Azure Data Lake Storage Gen2. Spowoduje to zapisanie wierszy błędów z trzema dodatkowymi kolumnami: operacją SQL, taką jak INSERT lub UPDATE, kodem błędu przepływu danych i komunikatem o błędzie w wierszu.

Zgłoś powodzenie w przypadku błędu: w przypadku włączenia przepływu danych przepływ danych zostanie oznaczony jako powodzenie, nawet jeśli zostaną znalezione wiersze błędów.

Diagram przedstawiający obsługę wierszy błędów w przekształceniu ujścia przepływu danych mapowania.

Właściwości działania wyszukiwania

Aby dowiedzieć się więcej o właściwościach, sprawdź działanie Wyszukiwania.

Właściwości działania GetMetadata

Aby dowiedzieć się więcej o właściwościach, sprawdź działanie GetMetadata

Mapowanie typów danych dla usługi Azure Synapse Analytics

Podczas kopiowania danych z lub do usługi Azure Synapse Analytics następujące mapowania są używane z typów danych usługi Azure Synapse Analytics do tymczasowych typów danych usługi Azure Data Factory. Te mapowania są również używane podczas kopiowania danych z lub do usługi Azure Synapse Analytics przy użyciu potoków usługi Synapse, ponieważ potoki implementują również usługę Azure Data Factory w usłudze Azure Synapse. Zobacz mapowania schematu i typu danych, aby dowiedzieć się, jak działanie kopiowania mapuje schemat źródłowy i typ danych na ujście.

Typ danych usługi Azure Synapse Analytics Typ danych tymczasowych usługi Data Factory
bigint Int64
dane binarne Bajt[]
bitowe Wartość logiczna
char Ciąg, Znak[]
data DateTime
Datetime DateTime
datetime2 DateTime
Datetimeoffset DateTimeOffset
Dziesiętne Dziesiętne
ATRYBUT FILESTREAM (varbinary(max)) Bajt[]
Liczba zmiennoprzecinkowa Liczba rzeczywista
obraz Bajt[]
int Int32
pieniędzy Dziesiętne
nchar Ciąg, Znak[]
numeryczne Dziesiętne
nvarchar Ciąg, Znak[]
rzeczywiste Pojedynczy
rowversion Bajt[]
smalldatetime DateTime
smallint Int16
smallmoney Dziesiętne
time przedział_czasu
tinyint Byte
uniqueidentifier Identyfikator GUID
varbinary Bajt[]
varchar Ciąg, Znak[]

Uaktualnianie wersji usługi Azure Synapse Analytics

Aby uaktualnić wersję usługi Azure Synapse Analytics, na stronie Edytuj połączoną usługę wybierz pozycję Zalecane w obszarze Wersja i skonfiguruj połączoną usługę, odwołując się do właściwości połączonej usługi dla zalecanej wersji.

W poniższej tabeli przedstawiono różnice między usługą Azure Synapse Analytics przy użyciu zalecanej i starszej wersji.

Zalecana wersja Starsza wersja
Obsługa protokołu TLS 1.3 za pośrednictwem encrypt jako strict. Protokół TLS 1.3 nie jest obsługiwany.

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia według działania kopiowania, zobacz obsługiwane magazyny danych i formaty.