Udostępnij za pośrednictwem


Eksplorowanie danych w dublowanej bazie danych za pomocą notesów

Możesz eksplorować dane replikowane z dublowanej bazy danych za pomocą zapytań platformy Spark w notesach.

Notesy to zaawansowany element kodu umożliwiający opracowywanie zadań platformy Apache Spark i eksperymentów uczenia maszynowego na danych. Notesy w usłudze Fabric Lakehouse umożliwiają eksplorowanie tabel dublowanych.

Wymagania wstępne

Tworzenie skrótu

Najpierw należy utworzyć skrót z dublowanych tabel do usługi Lakehouse, a następnie utworzyć notesy za pomocą zapytań platformy Spark w usłudze Lakehouse.

  1. W portalu sieci szkieletowej otwórz inżynierowie danych ing.

  2. Jeśli nie masz już utworzonego magazynu Lakehouse, wybierz pozycję Lakehouse i utwórz nową usługę Lakehouse, podając jej nazwę.

  3. Wybierz pozycję Pobierz dane —> nowy skrót.

  4. Wybierz pozycję Microsoft OneLake.

  5. Wszystkie dublowane bazy danych są widoczne w obszarze roboczym Sieć szkieletowa.

  6. Wybierz dublowaną bazę danych, którą chcesz dodać do usługi Lakehouse, jako skrót.

  7. Wybierz żądane tabele z dublowanej bazy danych.

  8. Wybierz pozycję Dalej, a następnie pozycję Utwórz.

  9. W Eksploratorze możesz teraz wyświetlić wybrane dane tabeli w usłudze Lakehouse. Zrzut ekranu z portalu sieci szkieletowej przedstawiający Eksplorator usługi Lakehouse wyświetlający zdublowane tabele i dane bazy danych.

    Napiwek

    Inne dane można dodać bezpośrednio w usłudze Lakehouse lub prowadzić skróty, takie jak S3, ADLS Gen2. Możesz przejść do punktu końcowego analizy SQL usługi Lakehouse i bezproblemowo połączyć dane we wszystkich tych źródłach z dublowanych danych.

  10. Aby eksplorować te dane na platformie Spark, wybierz kropki ... obok dowolnej tabeli. Wybierz pozycję Nowy notes lub Istniejący notes , aby rozpocząć analizę. Zrzut ekranu z portalu sieci szkieletowej przedstawiający menu kontekstowe umożliwiające otwarcie dublowanej tabeli bazy danych w notesie.

  11. Notes zostanie otwarty automatycznie i załaduje ramkę danych za pomocą SELECT ... LIMIT 1000 zapytania Spark SQL.

    • Ładowanie nowych notesów może potrwać do dwóch minut. To opóźnienie można uniknąć, używając istniejącego notesu z aktywną sesją. Zrzut ekranu z portalu sieci szkieletowej przedstawiający dane z dublowanej tabeli bazy danych w nowym notesie z zapytaniem Spark SQL.