Samouczek: wykonywanie zapytań dotyczących bazy danych KQL przy użyciu notesu z platformą Apache Spark
Notesy to zarówno czytelne dokumenty zawierające opisy analizy danych, jak i wyniki oraz dokumenty wykonywalne, które można uruchomić w celu przeprowadzenia analizy danych. Z tego artykułu dowiesz się, jak używać notesu usługi Microsoft Fabric do odczytywania i zapisywania danych w bazie danych KQL przy użyciu platformy Apache Spark. W tym samouczku użyto wstępnie utworzonych zestawów danych i notesów zarówno w środowisku analizy w czasie rzeczywistym, jak i środowiskach inżynierowie danych ing w usłudze Microsoft Fabric. Aby uzyskać więcej informacji na temat notesów, zobacz How to use Microsoft Fabric notebooks (Jak używać notesów usługi Microsoft Fabric).
W szczególności dowiesz się, jak wykonywać następujące działania:
- Tworzenie bazy danych KQL
- Importowanie notesu
- Zapisywanie danych w bazie danych KQL przy użyciu platformy Apache Spark
- Wykonywanie zapytań dotyczących danych z bazy danych KQL
Wymagania wstępne
- Obszar roboczy z pojemnością z włączoną usługą Microsoft Fabric
1 — Tworzenie bazy danych KQL
Otwórz przełącznik środowiska w dolnej części okienka nawigacji i wybierz pozycję Analiza w czasie rzeczywistym.
Wybierz kafelek Baza danych KQL.
W polu Nazwa bazy danych KQL wprowadź ciąg nycGreenTaxi, a następnie wybierz pozycję Utwórz.
Baza danych KQL jest tworzona w kontekście wybranego obszaru roboczego.
Skopiuj identyfikator URI zapytania z karty szczegółów bazy danych na pulpicie nawigacyjnym bazy danych i wklej go gdzieś, jak notatnik, aby użyć go w późniejszym kroku.
2 — Pobieranie notesu NYC GreenTaxi
Utworzyliśmy przykładowy notes, który przeprowadzi Cię przez wszystkie niezbędne kroki ładowania danych do bazy danych przy użyciu łącznika Spark.
Otwórz repozytorium przykładów sieci Szkieletowej w witrynie GitHub, aby pobrać notes KQL GreenTaxi w Nowym Jorku.
Zapisz notes lokalnie na urządzeniu.
Uwaga
Notes musi być zapisany w
.ipynb
formacie pliku.
3 — Importowanie notesu
Pozostała część tego przepływu pracy występuje w sekcji inżynierowie danych produktu i używa notesu platformy Spark do ładowania i wykonywania zapytań dotyczących danych w bazie danych KQL.
Otwórz przełącznik środowiska w dolnej części okienka nawigacji, a następnie wybierz pozycję Opracuj , a następnie obszar roboczy.
Wybierz pozycję Importuj>notes>z tego komputera>Przekaż, a następnie wybierz notes GreenTaxi NYC pobrany w poprzednim kroku.
Po zakończeniu importowania otwórz notes z obszaru roboczego.
4 — Pobieranie danych
Aby wykonać zapytanie dotyczące bazy danych przy użyciu łącznika Spark, musisz udzielić dostępu do odczytu i zapisu kontenerowi obiektów blob NYC GreenTaxi.
Wybierz przycisk odtwarzania, aby uruchomić następujące komórki, lub wybierz komórkę i naciśnij Shift+ Enter. Powtórz ten krok dla każdej komórki kodu.
Uwaga
Poczekaj na wyświetlenie znacznika wyboru ukończenia przed uruchomieniem następnej komórki.
Uruchom następującą komórkę, aby włączyć dostęp do kontenera obiektów blob GreenTaxi w Nowym Jorku.
W polu KustoURI wklej skopiowany wcześniej identyfikator URI zapytania zamiast tekstu zastępczego.
Zmień nazwę zastępczej bazy danych na nycGreenTaxi.
Zmień nazwę tabeli zastępczej na GreenTaxiData.
Uruchom komórkę.
Uruchom następną komórkę, aby zapisać dane w bazie danych. Wykonanie tego kroku może potrwać kilka minut.
Baza danych zawiera teraz dane załadowane w tabeli o nazwie GreenTaxiData.
5 — Uruchamianie notesu
Uruchom pozostałe dwie komórki sekwencyjnie, aby wykonać zapytanie o dane z tabeli. Wyniki pokazują 20 najlepszych i najniższych opłat za taksówki i odległości odnotowane według roku.
6 — Czyszczenie zasobów
Wyczyść utworzone elementy, przechodząc do obszaru roboczego, w którym zostały utworzone.
W obszarze roboczym umieść kursor nad notesem, który chcesz usunąć, wybierz menu Więcej [...] >Usuń.
Wybierz Usuń. Nie można odzyskać notesu po jego usunięciu.