Udostępnij za pośrednictwem


Zbieranie dzienników i metryk aplikacji platformy Apache Spark przy użyciu usługi Azure Event Hubs (wersja zapoznawcza)

Rozszerzenie emitera diagnostycznego platformy Apache Spark sieci szkieletowej platformy Apache Spark to biblioteka umożliwiająca aplikacjom platformy Apache Spark emitowanie dzienników, dzienników zdarzeń i metryk do różnych miejsc docelowych, w tym usług Azure Log Analytics, Azure Storage i Azure Event Hubs.

Z tego samouczka dowiesz się, jak wysyłać dzienniki aplikacji, dzienniki zdarzeń i metryki do usługi Azure Event Hubs przy użyciu rozszerzenia diagnostycznego platformy Apache Spark.

Zbieranie dzienników i metryk w usłudze Azure Event Hubs

Krok 1. Tworzenie wystąpienia usługi Azure Event Hubs

Aby zebrać dzienniki diagnostyczne i metryki, możesz użyć istniejącego wystąpienia usługi Azure Event Hubs. Jeśli go nie masz, możesz utworzyć centrum zdarzeń.

Krok 2. Tworzenie artefaktu środowiska sieci szkieletowej przy użyciu konfiguracji platformy Apache Spark

Opcja 1. Konfigurowanie przy użyciu parametrów połączenia usługi Azure Event Hubs

  1. Tworzenie artefaktu środowiska sieci szkieletowej w sieci szkieletowej

  2. Dodaj następujące właściwości platformy Spark z odpowiednimi wartościami do artefaktu środowiska lub wybierz pozycję Dodaj z .yml na wstążce, aby pobrać przykładowy plik yaml zawierający już następujące właściwości.

    spark.synapse.diagnostic.emitters: MyEventHub
    spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub"
    spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics"
    spark.synapse.diagnostic.emitter.MyEventHub.secret: <connection-string>
    spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.
    

    <connection-string> Wypełnij parametry w pliku konfiguracji. Aby uzyskać więcej informacji, zobacz Konfiguracje usługi Azure Event Hubs.

Opcja 2. Konfigurowanie przy użyciu usługi Azure Key Vault

Uwaga

Znany problem: Nie można uruchomić sesji przy użyciu opcji 2 tymczasowo. Obecnie przechowywanie wpisów tajnych w usłudze Key Vault uniemożliwia uruchamianie sesji platformy Spark. Określ priorytety konfiguracji przy użyciu metody opisanej w opcji 1.

Upewnij się, że użytkownicy przesyłający aplikacje platformy Apache Spark mają przyznane uprawnienia do odczytu wpisów tajnych. Aby uzyskać więcej informacji, zobacz Zapewnianie dostępu do kluczy, certyfikatów i wpisów tajnych usługi Key Vault za pomocą kontroli dostępu opartej na rolach platformy Azure.

Aby skonfigurować usługę Azure Key Vault do przechowywania klucza obszaru roboczego:

  1. Utwórz magazyn kluczy i przejdź do magazynu kluczy w witrynie Azure Portal.

  2. Na stronie ustawień magazynu kluczy wybierz pozycję Wpisy tajne, a następnie pozycję Generuj/Importuj.

  3. Na ekranie Tworzenie wpisu tajnego wybierz następujące wartości:

    • Nazwa: Wprowadź nazwę wpisu tajnego.
    • Wartość: wprowadź wartość <connection-string> wpisu tajnego.
    • Dla pozostałych opcji zostaw wartości domyślne. Następnie wybierz Utwórz.
  4. Utwórz artefakt środowiska sieci szkieletowej w sieci szkieletowej.

  5. Dodaj następujące właściwości platformy Spark. Możesz też wybrać pozycję Dodaj z .yml na wstążce, aby pobrać przykładowy plik yaml zawierający następujące właściwości platformy Spark.

    spark.synapse.diagnostic.emitters: MyEventHub
    spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub"
    spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics"
    spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault: <AZURE_KEY_VAULT_NAME>
    spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault.secretName: <AZURE_KEY_VAULT_SECRET_KEY_NAME>
    spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.
    

    Wypełnij następujące parametry w pliku konfiguracji: <AZURE_KEY_VAULT_NAME>, <AZURE_KEY_VAULT_SECRET_KEY_NAME>. Aby uzyskać więcej informacji na temat tych parametrów, zobacz Konfiguracje usługi Azure Event Hubs.

  6. Zapisz i opublikuj zmiany.

Krok 3. Dołączanie artefaktu środowiska do notesów lub definicji zadań platformy Spark lub ustawianie go jako domyślnego obszaru roboczego

Aby dołączyć środowisko do notesów lub definicji zadań platformy Spark:

  1. Przejdź do określonego notesu lub definicji zadania platformy Spark w usłudze Fabric.
  2. Wybierz menu Środowisko na karcie Narzędzia główne i wybierz środowisko ze skonfigurowanymi właściwościami diagnostyki Spark.
  3. Konfiguracja jest stosowana podczas uruchamiania sesji platformy Spark.

Aby ustawić środowisko jako domyślne:

  1. Przejdź do obszaru roboczego Ustawienia w sieci szkieletowej.
  2. Znajdź ustawienia platformy Spark w ustawieniach obszaru roboczego (ustawienie Obszar roboczy —> inżynierowie danych/Nauka —> Ustawienia platformy Spark).
  3. Wybierz kartę Środowisko i wybierz środowisko ze skonfigurowanymi właściwościami platformy Spark diagnostyki, a następnie kliknij przycisk Zapisz.

Uwaga

Tylko administratorzy obszaru roboczego mogą zarządzać konfiguracjami obszaru roboczego. Zmiany wprowadzone w tym miejscu będą stosowane do wszystkich notesów i definicji zadań platformy Spark dołączonych do ustawień obszaru roboczego. Aby uzyskać więcej informacji, zobacz Ustawienia obszaru roboczego sieci szkieletowej.

Dostępne konfiguracje

Konfigurowanie opis
spark.synapse.diagnostic.emitters Wymagane. Rozdzielane przecinkami nazwy docelowe emiterów diagnostycznych.
spark.synapse.diagnostic.emitter.<destination>.type Wymagany. Wbudowany typ miejsca docelowego. Aby włączyć miejsce docelowe usługi Azure Event Hubs, wartość powinna mieć wartość AzureEventHub.
spark.synapse.diagnostic.emitter.<destination>.categories Opcjonalny. Rozdzielone przecinkami kategorie dzienników. Dostępne wartości obejmują DriverLog, , EventLogExecutorLog, Metrics. Jeśli nie zostanie ustawiona, wartość domyślna to wszystkie kategorie.
spark.synapse.diagnostic.emitter.<destination>.secret Opcjonalny. Wystąpienie usługi Azure Event Hubs parametry połączenia. To pole powinno być zgodne z tym wzorcem Endpoint=sb://<FQDN>/;SharedAccessKeyName=<KeyName>;SharedAccessKey=<KeyValue>;EntityPath=<PathName>
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault Wymagane, jeśli .secret nie zostanie określony. Nazwa magazynu kluczy platformy Azure, w którym jest przechowywany wpis tajny (parametry połączenia).
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.secretName Wymagane, jeśli .secret.keyVault jest określony. Nazwa wpisu tajnego usługi Azure Key Vault, w której jest przechowywany wpis tajny (parametry połączenia).
spark.synapse.diagnostic.emitter.<destination>.filter.eventName.match Opcjonalny. Rozdzielane przecinkami nazwy zdarzeń platformy Spark można określić, które zdarzenia mają być zbierane. Na przykład: SparkListenerApplicationStart,SparkListenerApplicationEnd.
spark.synapse.diagnostic.emitter.<destination>.filter.loggerName.match Opcjonalny. Rozdzielone przecinkami nazwy rejestratora Log4j można określić dzienniki do zebrania. Na przykład: org.apache.spark.SparkContext,org.example.Logger.
spark.synapse.diagnostic.emitter.<destination>.filter.metricName.match Opcjonalny. Sufiksy nazw metryk platformy Spark rozdzielone przecinkami umożliwiają określenie metryk do zebrania. Przykład: jvm.heap.used

Uwaga

Wystąpienie usługi Azure EventHub parametry połączenia powinno zawsze zawierać EntityPathwartość , która jest nazwą wystąpienia usługi Azure Event Hubs.

Przykład danych dziennika

Oto przykładowy rekord dziennika w formacie JSON:

{
  "timestamp": "2024-09-06T03:09:37.235Z",
  "category": "Log|EventLog|Metrics",
  "fabricLivyId": "<fabric-livy-id>",
  "applicationId": "<application-id>",
  "applicationName": "<application-name>",
  "executorId": "<driver-or-executor-id>",
  "fabricTenantId": "<my-fabric-tenant-id>",
  "capacityId": "<my-fabric-capacity-id>",
  "artifactType": "SynapseNotebook|SparkJobDefinition",
  "artifactId": "<my-fabric-artifact-id>",
  "fabricWorkspaceId": "<my-fabric-workspace-id>",
  "fabricEnvId": "<my-fabric-environment-id>",
  "executorMin": "<executor-min>",
  "executorMax": "<executor-max>",
  "isHighConcurrencyEnabled": "true|false",
  "properties": {
    // The message properties of logs, events and metrics.
    "timestamp": "2024-09-06T03:09:37.235Z",
    "message": "Initialized BlockManager: BlockManagerId(1, vm-04b22223, 34319, None)",
    "logger_name": "org.apache.spark.storage.BlockManager",
    "level": "INFO",
    "thread_name": "dispatcher-Executor"
    //...
  }
}

Obszary robocze sieci szkieletowej z zarządzaną siecią wirtualną

Utwórz zarządzany prywatny punkt końcowy dla docelowej usługi Azure Event Hubs. Aby uzyskać szczegółowe instrukcje, zobacz Tworzenie i używanie zarządzanych prywatnych punktów końcowych w usłudze Microsoft Fabric — Microsoft Fabric.

Po zatwierdzeniu zarządzanego prywatnego punktu końcowego użytkownicy mogą rozpocząć emitowanie dzienników i metryk do docelowej usługi Azure Event Hubs.

Następne kroki