Udostępnij za pośrednictwem


Nawiązywanie połączenia ze źródłami danych

Ten artykuł zawiera rekomendacje opinii dotyczące sposobu konfigurowania połączeń między usługą Azure Databricks i źródłami danych przez administratorów i innych użytkowników. Jeśli próbujesz określić, czy masz dostęp do odczytu danych z systemu zewnętrznego, zacznij od przejrzenia danych, do których masz dostęp w obszarze roboczym. Zobacz Odnajdywanie danych.

Uwaga

Aby uzyskać informacje na temat nawiązywania połączenia z usługami zewnętrznymi, które nie muszą być źródłami danych, zobacz Zarządzanie dostępem do zewnętrznych usług w chmurze przy użyciu poświadczeń usługi.

Konto usługi Azure Databricks można połączyć ze źródłami danych, takimi jak magazyn obiektów w chmurze, systemy zarządzania relacyjnymi bazami danych, usługi przesyłania strumieniowego i platformy przedsiębiorstwa, takie jak CRMs. Określone uprawnienia wymagane do skonfigurowania połączeń zależą od źródła danych, sposobu konfigurowania uprawnień w obszarze roboczym usługi Azure Databricks, wymaganych uprawnień do interakcji z danymi w źródle, modelu ładu danych i preferowanej metody nawiązywania połączenia.

Większość metod wymaga podniesionych uprawnień zarówno w źródle danych, jak i w obszarze roboczym usługi Azure Databricks, aby skonfigurować niezbędne uprawnienia do integracji systemów. Użytkownicy bez tych uprawnień powinni poprosić o pomoc. Zobacz Żądanie dostępu do źródeł danych.

Konfigurowanie połączeń magazynu obiektów

Magazyn obiektów w chmurze zapewnia podstawę do przechowywania większości danych w usłudze Azure Databricks. Aby dowiedzieć się więcej na temat magazynu obiektów w chmurze i miejsca przechowywania danych w usłudze Azure Databricks, zobacz Gdzie usługa Azure Databricks zapisuje dane?.

Usługa Databricks zaleca używanie wykazu aparatu Unity do konfigurowania dostępu do magazynu obiektów w chmurze. Wykaz aparatu Unity zapewnia nadzór nad danymi zarówno ze strukturą, jak i bez struktury w magazynie obiektów w chmurze. Zobacz Łączenie z magazynem obiektów w chmurze i usługami przy użyciu wykazu aparatu Unity.

Klienci, którzy nie korzystają z wykazu aparatu Unity, muszą konfigurować połączenia przy użyciu starszych metod. Zobacz Konfigurowanie dostępu do magazynu obiektów w chmurze dla usługi Azure Databricks.

Aby skonfigurować sieć do magazynu obiektów w chmurze, zobacz Sieć.

Konfigurowanie połączeń z zewnętrznymi systemami danych

Usługa Databricks zaleca kilka opcji konfigurowania połączeń z zewnętrznymi systemami danych w zależności od potrzeb. Poniższa tabela zawiera ogólne omówienie tych opcji:

Opcja Opis
Federacja Lakehouse Zapewnia dostęp tylko do odczytu do danych w systemach danych przedsiębiorstwa. Połączenia są konfigurowane za pośrednictwem wykazu aparatu Unity na poziomie wykazu lub schematu, synchronizując wiele tabel z jedną konfiguracją. Zobacz Co to jest Federacja Lakehouse?.
Partner Connect Wykorzystuje rozwiązania partnerskie technologii do łączenia się z zewnętrznymi źródłami danych i automatyzowania pozyskiwania danych z usługą Lakehouse. Niektóre rozwiązania obejmują również odwrotny proces ETL i bezpośredni dostęp do danych typu lakehouse z systemów zewnętrznych. Zobacz Co to jest usługa Databricks Partner Connect?
Sterowniki Usługa Azure Databricks zawiera sterowniki dla zewnętrznych systemów danych w każdym środowisku Databricks Runtime. Opcjonalnie można zainstalować sterowniki innych firm w celu uzyskania dostępu do danych w innych systemach. Należy skonfigurować połączenia dla każdej tabeli. Niektóre sterowniki obejmują dostęp do zapisu. Zobacz Łączenie z systemami zewnętrznymi.
JDBC Kilka dołączonych sterowników dla systemów zewnętrznych opiera się na natywnej obsłudze JDBC, a opcja JDBC zapewnia rozszerzalne opcje konfigurowania połączeń z innymi systemami. Należy skonfigurować połączenia dla każdej tabeli. Zobacz Tworzenie zapytań dotyczących baz danych przy użyciu sterownika JDBC.

Nawiązywanie połączenia ze źródłami danych przesyłanymi strumieniowo

Usługa Azure Databricks udostępnia zoptymalizowane łączniki dla wielu systemów danych przesyłanych strumieniowo.

W przypadku wszystkich źródeł danych przesyłanych strumieniowo należy wygenerować poświadczenia, które zapewniają dostęp i ładują te poświadczenia do usługi Azure Databricks. Usługa Databricks zaleca przechowywanie poświadczeń przy użyciu wpisów tajnych, ponieważ można używać wpisów tajnych dla wszystkich opcji konfiguracji i we wszystkich trybach dostępu.

Wszystkie łączniki danych dla źródeł przesyłania strumieniowego obsługują przekazywanie poświadczeń przy użyciu opcji podczas definiowania zapytań przesyłania strumieniowego. Zobacz Konfigurowanie źródeł danych przesyłanych strumieniowo.

Żądanie dostępu do źródeł danych

W wielu organizacjach większość użytkowników nie ma wystarczających uprawnień w usłudze Azure Databricks lub zewnętrznych źródłach danych w celu skonfigurowania połączeń danych.

Organizacja mogła już skonfigurować dostęp do źródła danych przy użyciu jednego z wzorców opisanych w artykułach połączonych z tej strony. Jeśli Organizacja ma dobrze zdefiniowany proces żądania dostępu do danych, usługa Databricks zaleca wykonanie tego procesu.

Jeśli nie masz pewności, jak uzyskać dostęp do źródła danych, ta procedura może ci pomóc:

  1. Użyj Eksploratora wykazu, aby wyświetlić tabele i woluminy, do których można uzyskać dostęp. Zobacz Co to jest Eksplorator wykazu?.
  2. Zapytaj członków zespołu lub menedżerów o źródła danych, do których mogą uzyskiwać dostęp.
    • Większość organizacji używa grup synchronizowanych z dostawcą tożsamości (na przykład: Okta lub Microsoft Entra ID), aby zarządzać uprawnieniami użytkowników obszaru roboczego. Jeśli inni członkowie zespołu mogą uzyskiwać dostęp do źródeł danych, do których potrzebujesz dostępu, administrator obszaru roboczego doda Cię do odpowiedniej grupy w celu udzielenia Ci dostępu.
    • Jeśli określona tabela, wolumin lub źródło danych zostały skonfigurowane przez współpracownika, osoba ta powinna mieć uprawnienia, aby udzielić Ci dostępu do danych.
  3. Niektóre organizacje konfigurują uprawnienia dostępu do danych za pomocą ustawień klastrów obliczeniowych i magazynów SQL.
    • Dostęp do źródeł danych może się różnić w zależności od zasobów obliczeniowych.
    • Możesz wyświetlić twórcę zasobów obliczeniowych na karcie Obliczenia . Skontaktuj się z twórcą, aby zapytać o źródła danych, które powinny być dostępne.