Co to jest Photon?
W tym artykule wyjaśniono zalety uruchamiania obciążeń w aucie zapytań Photon.
Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia. Aplikacja Photon jest zgodna z interfejsami API platformy Apache Spark, dlatego działa z istniejącym kodem.
Funkcje photon
Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.
- Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
- Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
- Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
- Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
- Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu tabel
UPDATE
, ,DELETE
MERGE INTO
,INSERT
iCREATE TABLE AS SELECT
, w tym szerokich tabel zawierających tysiące kolumn. - Zamienia sprzężenia sort-merge na sprzężenia skrótów.
- W przypadku obciążeń sztucznej inteligencji i uczenia maszynowego narzędzie Photon zwiększa wydajność aplikacji przy użyciu platformy Spark SQL, ramek danych Spark, inżynierii cech, elementów GraphFrame i xgboost4j.
Włączanie funkcji Photon
Włączanie funkcji Photon różni się w zależności od typu obliczeniowego:
Narzędzie Photon jest domyślnie uruchamiane w usłudze SQL Warehouse i bezserwerowych obliczeniach dla notesów i przepływów pracy.
Funkcja Photon jest domyślnie włączona na obliczeniach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.
Funkcję Photon można włączyć ręcznie na obliczeniach z uruchomionym środowiskiem Databricks Runtime 15.2 na potrzeby uczenia maszynowego lub nowszego.
Konfigurowanie włączania aplikacji Photon
Aby włączyć lub wyłączyć funkcję Photon w obliczeniach wszystkich celów i zadań, zaznacz pole wyboru Użyj przyspieszania photon w interfejsie użytkownika obliczeniowego.
Funkcja Photon nie jest domyślnie włączona dla żadnych zasobów obliczeniowych utworzonych za pomocą interfejsu API klastrów lub interfejsu API zadań. Aby włączyć funkcję Photon, należy ustawić runtime_engine
atrybut na PHOTON
.
Obsługiwane typy wystąpień
Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.
Obsługiwane operatory, wyrażenia i typy danych
Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.
Operatory
- Skanowanie, filtrowanie, projekt
- Agregowanie skrótów/sprzężenia/shuffle
- Sprzężenia zagnieżdżonej pętli
- Antysprzężenia z obsługą wartości null
- Union, Expand, ScalarSubquery
- Ujście zapisu delta/Parquet
- Sortuj
- Funkcja okna
Wyrażenia
- Porównanie/logika
- Arytmetyka/Matematyka (większość)
- Warunkowe (IF, CASE itp.)
- Ciąg (typowe)
- Rzuca
- Agregacje (najczęściej używane)
- Znacznik daty/godziny
Typy danych
- Byte/Short/Int/Long
- Wartość logiczna
- Ciąg/plik binarny
- Dziesiętne
- Zmiennoprzecinkowy/podwójny
- Znacznik daty/godziny
- Struktura
- Tablica
- Mapowanie
Funkcje wymagające aplikacji Photon
Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.
- Predykcyjne operacje we/wy na potrzeby odczytu i zapisu. Zobacz Co to jest predykcyjne we/wy?
- Wyrażenia geoprzestrzenne H3. Zobacz Funkcje geoprzestrzenne H3.
- Dynamiczne oczyszczanie plików. Zobacz Dynamiczne oczyszczanie plików.
Ograniczenia
- Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
- Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika ani interfejsów API RDD.
- Photon nie ma wpływu na zapytania, które zwykle działają w ciągu dwóch sekund.
Jeśli obciążenie osiągnie nieobsługiwaną operację, zasób obliczeniowy przełączy się do standardowego aparatu środowiska uruchomieniowego dla pozostałej części obciążenia.