Udostępnij za pośrednictwem


Analizowanie danych przy użyciu bezserwerowej puli SQL

Z tego samouczka dowiesz się, jak analizować dane przy użyciu bezserwerowej puli SQL.

Wbudowana bezserwerowa pula SQL

Bezserwerowe pule SQL umożliwiają korzystanie z bazy danych SQL bez konieczności rezerwowania pojemności. Rozliczenia dla bezserwerowej puli SQL są oparte na ilości przetwarzanych danych w celu uruchomienia zapytania, a nie liczby węzłów używanych do uruchamiania zapytania.

Każdy obszar roboczy zawiera wstępnie skonfigurowaną bezserwerową pulę SQL o nazwie Wbudowana.

Analizowanie danych taksówek w Nowym Jorku przy użyciu bezserwerowej puli SQL

Uwaga

Upewnij się, że przykładowe dane zostały umieszczone na podstawowym koncie magazynu

  1. W programie Synapse Studio przejdź do centrum Programowanie

  2. Utwórz nowy skrypt SQL.

  3. Wklej następujący kod do skryptu. (Zaktualizuj contosolake nazwę konta magazynu i users nazwę kontenera).

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Wybierz Uruchom.

Eksploracja danych to uproszczony scenariusz, w którym można zrozumieć podstawowe cechy danych. Dowiedz się więcej o eksploracji i analizie danych w tym samouczku.

Tworzenie bazy danych eksploracji danych

Zawartość plików można przeglądać bezpośrednio za pośrednictwem master bazy danych. W przypadku niektórych prostych scenariuszy eksploracji danych nie trzeba tworzyć oddzielnej bazy danych. Jednak w miarę kontynuowania eksploracji danych warto utworzyć niektóre obiekty narzędziowe, takie jak:

  • Zewnętrzne źródła danych reprezentujące nazwane odwołania dla kont magazynu.
  • Poświadczenia w zakresie bazy danych, które umożliwiają określenie sposobu uwierzytelniania w zewnętrznym źródle danych.
  • Użytkownicy bazy danych z uprawnieniami dostępu do niektórych źródeł danych lub obiektów bazy danych.
  • Widoki narzędzi, procedury i funkcje, których można używać w zapytaniach.
  1. master Użyj bazy danych, aby utworzyć oddzielną bazę danych dla niestandardowych obiektów bazy danych. Nie można utworzyć niestandardowych obiektów bazy danych w master bazie danych.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Ważne

    Użyj sortowania z sufiksem _UTF8 , aby upewnić się, że tekst UTF-8 jest poprawnie konwertowany na VARCHAR kolumny. Latin1_General_100_BIN2_UTF8 zapewnia najlepszą wydajność zapytań odczytujących dane z plików Parquet i kontenerów usługi Azure Cosmos DB. Aby uzyskać więcej informacji na temat zmieniania sortowania, zobacz Typy sortowania obsługiwane dla usługi Synapse SQL.

  2. Przełącz kontekst bazy danych z master na DataExplorationDB przy użyciu następującego polecenia. Możesz również użyć kontrolki interfejsu użytkownika, aby przełączyć bieżącą bazę danych:

    USE DataExplorationDB
    
  3. Na podstawie DataExplorationDB tworzenia obiektów narzędziowych, takich jak poświadczenia i źródła danych.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Uwaga

    Zewnętrzne źródło danych można utworzyć bez poświadczeń. Jeśli poświadczenie nie istnieje, tożsamość obiektu wywołującego będzie używana do uzyskiwania dostępu do zewnętrznego źródła danych.

  4. Opcjonalnie użyj nowo utworzonej DataExplorationDB bazy danych, aby utworzyć identyfikator logowania dla użytkownika w DataExplorationDB programie , który będzie uzyskiwać dostęp do danych zewnętrznych:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Następnie utwórz użytkownika bazy danych dla DataExplorationDB powyższego identyfikatora logowania i przyznaj ADMINISTER DATABASE BULK OPERATIONS uprawnienie.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Zapoznaj się z zawartością pliku przy użyciu ścieżki względnej i źródła danych:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Opublikuj zmiany w obszarze roboczym.

Baza danych eksploracji danych to prosty symbol zastępczy, w którym można przechowywać obiekty narzędziowe. Pula SQL usługi Synapse umożliwia wykonywanie znacznie więcej zadań i tworzenie magazynu danych logicznych — warstwy relacyjnej opartej na źródłach danych platformy Azure. Dowiedz się więcej o tworzeniu logicznego magazynu danych w tym samouczku.

Następne kroki