Udostępnij za pośrednictwem


Co to jest Photon?

W tym artykule wyjaśniono zalety uruchamiania obciążeń w aucie zapytań Photon.

Photon to natywny aparat zapytań usługi Azure Databricks o wysokiej wydajności, który uruchamia obciążenia SQL i wywołania interfejsu API ramki danych szybciej, aby zmniejszyć całkowity koszt obciążenia. Aplikacja Photon jest zgodna z interfejsami API platformy Apache Spark, dlatego działa z istniejącym kodem.

Funkcje photon

Poniżej przedstawiono kluczowe funkcje i zalety korzystania z aplikacji Photon.

  • Obsługa operacji SQL i równoważnych ramek danych z tabelami delta i Parquet.
  • Przyspieszone zapytania, które przetwarzają dane szybciej i zawierają agregacje i sprzężenia.
  • Szybsza wydajność w przypadku wielokrotnego uzyskiwania dostępu do danych z pamięci podręcznej dysku.
  • Niezawodna wydajność skanowania w tabelach z wieloma kolumnami i wieloma małymi plikami.
  • Szybsze zapisywanie w usłudze Delta i Parquet przy użyciu tabel UPDATE, , DELETEMERGE INTO, INSERTi CREATE TABLE AS SELECT, w tym szerokich tabel zawierających tysiące kolumn.
  • Zamienia sprzężenia sort-merge na sprzężenia skrótów.
  • W przypadku obciążeń sztucznej inteligencji i uczenia maszynowego narzędzie Photon zwiększa wydajność aplikacji przy użyciu platformy Spark SQL, ramek danych Spark, inżynierii cech, elementów GraphFrame i xgboost4j.

Włączanie funkcji Photon

Włączanie funkcji Photon różni się w zależności od typu obliczeniowego:

  • Narzędzie Photon jest domyślnie uruchamiane w usłudze SQL Warehouse i bezserwerowych obliczeniach dla notesów i przepływów pracy.

  • Funkcja Photon jest domyślnie włączona na obliczeniach z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym.

  • Funkcję Photon można włączyć ręcznie na obliczeniach z uruchomionym środowiskiem Databricks Runtime 15.2 na potrzeby uczenia maszynowego lub nowszego.

Konfigurowanie włączania aplikacji Photon

Aby włączyć lub wyłączyć funkcję Photon w obliczeniach wszystkich celów i zadań, zaznacz pole wyboru Użyj przyspieszania photon w interfejsie użytkownika obliczeniowego.

Funkcja Photon nie jest domyślnie włączona dla żadnych zasobów obliczeniowych utworzonych za pomocą interfejsu API klastrów lub interfejsu API zadań. Aby włączyć funkcję Photon, należy ustawić runtime_engine atrybut na PHOTON.

Obsługiwane typy wystąpień

Aplikacja Photon obsługuje wiele typów wystąpień w węzłach sterowników i procesów roboczych. Typy wystąpień photon używają jednostek DBU w innej szybkości niż tego samego typu wystąpienia z uruchomionym środowiskiem uruchomieniowym innym niż Photon. Aby uzyskać więcej informacji na temat wystąpień usługi Photon i użycia jednostek DBU, zobacz stronę cennika usługi Azure Databricks.

Obsługiwane operatory, wyrażenia i typy danych

Poniżej przedstawiono operatory, wyrażenia i typy danych, które obejmuje aplikacja Photon.

Operatory

  • Skanowanie, filtrowanie, projekt
  • Agregowanie skrótów/sprzężenia/shuffle
  • Sprzężenia zagnieżdżonej pętli
  • Antysprzężenia z obsługą wartości null
  • Union, Expand, ScalarSubquery
  • Ujście zapisu delta/Parquet
  • Sortuj
  • Funkcja okna

Wyrażenia

  • Porównanie/logika
  • Arytmetyka/Matematyka (większość)
  • Warunkowe (IF, CASE itp.)
  • Ciąg (typowe)
  • Rzuca
  • Agregacje (najczęściej używane)
  • Znacznik daty/godziny

Typy danych

  • Byte/Short/Int/Long
  • Wartość logiczna
  • Ciąg/plik binarny
  • Dziesiętne
  • Zmiennoprzecinkowy/podwójny
  • Znacznik daty/godziny
  • Struktura
  • Tablica
  • Mapowanie

Funkcje wymagające aplikacji Photon

Poniżej przedstawiono funkcje, które wymagają aplikacji Photon.

Ograniczenia

  • Przesyłanie strumieniowe ze strukturą: aplikacja Photon obecnie obsługuje przesyłanie strumieniowe bezstanowe za pomocą funkcji Delta, Parquet, CSV i JSON. Bezstanowe przesyłanie strumieniowe platform Kafka i Kinesis jest obsługiwane podczas zapisywania w ujściu delta lub Parquet.
  • Aplikacja Photon nie obsługuje funkcji zdefiniowanych przez użytkownika ani interfejsów API RDD.
  • Photon nie ma wpływu na zapytania, które zwykle działają w ciągu dwóch sekund.

Jeśli obciążenie osiągnie nieobsługiwaną operację, zasób obliczeniowy przełączy się do standardowego aparatu środowiska uruchomieniowego dla pozostałej części obciążenia.