Zbieranie dzienników i metryk aplikacji platformy Apache Spark przy użyciu usługi Azure Event Hubs (wersja zapoznawcza)
Rozszerzenie emitera diagnostycznego platformy Apache Spark sieci szkieletowej platformy Apache Spark to biblioteka umożliwiająca aplikacjom platformy Apache Spark emitowanie dzienników, dzienników zdarzeń i metryk do różnych miejsc docelowych, w tym usług Azure Log Analytics, Azure Storage i Azure Event Hubs.
Z tego samouczka dowiesz się, jak wysyłać dzienniki aplikacji, dzienniki zdarzeń i metryki do usługi Azure Event Hubs przy użyciu rozszerzenia diagnostycznego platformy Apache Spark.
Zbieranie dzienników i metryk w usłudze Azure Event Hubs
Krok 1. Tworzenie wystąpienia usługi Azure Event Hubs
Aby zebrać dzienniki diagnostyczne i metryki, możesz użyć istniejącego wystąpienia usługi Azure Event Hubs. Jeśli go nie masz, możesz utworzyć centrum zdarzeń.
Krok 2. Tworzenie artefaktu środowiska sieci szkieletowej przy użyciu konfiguracji platformy Apache Spark
Opcja 1. Konfigurowanie przy użyciu parametrów połączenia usługi Azure Event Hubs
Tworzenie artefaktu środowiska sieci szkieletowej w sieci szkieletowej
Dodaj następujące właściwości platformy Spark z odpowiednimi wartościami do artefaktu środowiska lub wybierz pozycję Dodaj z .yml na wstążce, aby pobrać przykładowy plik yaml zawierający już następujące właściwości.
spark.synapse.diagnostic.emitters: MyEventHub spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub" spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics" spark.synapse.diagnostic.emitter.MyEventHub.secret: <connection-string> spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.
<connection-string>
Wypełnij parametry w pliku konfiguracji. Aby uzyskać więcej informacji, zobacz Konfiguracje usługi Azure Event Hubs.
Opcja 2. Konfigurowanie przy użyciu usługi Azure Key Vault
Uwaga
Znany problem: Nie można uruchomić sesji przy użyciu opcji 2 tymczasowo. Obecnie przechowywanie wpisów tajnych w usłudze Key Vault uniemożliwia uruchamianie sesji platformy Spark. Określ priorytety konfiguracji przy użyciu metody opisanej w opcji 1.
Upewnij się, że użytkownicy przesyłający aplikacje platformy Apache Spark mają przyznane uprawnienia do odczytu wpisów tajnych. Aby uzyskać więcej informacji, zobacz Zapewnianie dostępu do kluczy, certyfikatów i wpisów tajnych usługi Key Vault za pomocą kontroli dostępu opartej na rolach platformy Azure.
Aby skonfigurować usługę Azure Key Vault do przechowywania klucza obszaru roboczego:
Utwórz magazyn kluczy i przejdź do magazynu kluczy w witrynie Azure Portal.
Na stronie ustawień magazynu kluczy wybierz pozycję Wpisy tajne, a następnie pozycję Generuj/Importuj.
Na ekranie Tworzenie wpisu tajnego wybierz następujące wartości:
- Nazwa: Wprowadź nazwę wpisu tajnego.
- Wartość: wprowadź wartość
<connection-string>
wpisu tajnego. - Dla pozostałych opcji zostaw wartości domyślne. Następnie wybierz Utwórz.
Utwórz artefakt środowiska sieci szkieletowej w sieci szkieletowej.
Dodaj następujące właściwości platformy Spark. Możesz też wybrać pozycję Dodaj z .yml na wstążce, aby pobrać przykładowy plik yaml zawierający następujące właściwości platformy Spark.
spark.synapse.diagnostic.emitters: MyEventHub spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub" spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics" spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault: <AZURE_KEY_VAULT_NAME> spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault.secretName: <AZURE_KEY_VAULT_SECRET_KEY_NAME> spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.
Wypełnij następujące parametry w pliku konfiguracji:
<AZURE_KEY_VAULT_NAME>
,<AZURE_KEY_VAULT_SECRET_KEY_NAME>
. Aby uzyskać więcej informacji na temat tych parametrów, zobacz Konfiguracje usługi Azure Event Hubs.Zapisz i opublikuj zmiany.
Krok 3. Dołączanie artefaktu środowiska do notesów lub definicji zadań platformy Spark lub ustawianie go jako domyślnego obszaru roboczego
Aby dołączyć środowisko do notesów lub definicji zadań platformy Spark:
- Przejdź do określonego notesu lub definicji zadania platformy Spark w usłudze Fabric.
- Wybierz menu Środowisko na karcie Narzędzia główne i wybierz środowisko ze skonfigurowanymi właściwościami diagnostyki Spark.
- Konfiguracja jest stosowana podczas uruchamiania sesji platformy Spark.
Aby ustawić środowisko jako domyślne:
- Przejdź do obszaru roboczego Ustawienia w sieci szkieletowej.
- Znajdź ustawienia platformy Spark w ustawieniach obszaru roboczego (ustawienie Obszar roboczy —> inżynierowie danych/Nauka —> Ustawienia platformy Spark).
- Wybierz kartę Środowisko i wybierz środowisko ze skonfigurowanymi właściwościami platformy Spark diagnostyki, a następnie kliknij przycisk Zapisz.
Uwaga
Tylko administratorzy obszaru roboczego mogą zarządzać konfiguracjami obszaru roboczego. Zmiany wprowadzone w tym miejscu będą stosowane do wszystkich notesów i definicji zadań platformy Spark dołączonych do ustawień obszaru roboczego. Aby uzyskać więcej informacji, zobacz Ustawienia obszaru roboczego sieci szkieletowej.
Dostępne konfiguracje
Konfigurowanie | opis |
---|---|
spark.synapse.diagnostic.emitters |
Wymagane. Rozdzielane przecinkami nazwy docelowe emiterów diagnostycznych. |
spark.synapse.diagnostic.emitter.<destination>.type |
Wymagany. Wbudowany typ miejsca docelowego. Aby włączyć miejsce docelowe usługi Azure Event Hubs, wartość powinna mieć wartość AzureEventHub . |
spark.synapse.diagnostic.emitter.<destination>.categories |
Opcjonalny. Rozdzielone przecinkami kategorie dzienników. Dostępne wartości obejmują DriverLog , , EventLog ExecutorLog , Metrics . Jeśli nie zostanie ustawiona, wartość domyślna to wszystkie kategorie. |
spark.synapse.diagnostic.emitter.<destination>.secret |
Opcjonalny. Wystąpienie usługi Azure Event Hubs parametry połączenia. To pole powinno być zgodne z tym wzorcem Endpoint=sb://<FQDN>/;SharedAccessKeyName=<KeyName>;SharedAccessKey=<KeyValue>;EntityPath=<PathName> |
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault |
Wymagane, jeśli .secret nie zostanie określony. Nazwa magazynu kluczy platformy Azure, w którym jest przechowywany wpis tajny (parametry połączenia). |
spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.secretName |
Wymagane, jeśli .secret.keyVault jest określony. Nazwa wpisu tajnego usługi Azure Key Vault, w której jest przechowywany wpis tajny (parametry połączenia). |
spark.synapse.diagnostic.emitter.<destination>.filter.eventName.match |
Opcjonalny. Rozdzielane przecinkami nazwy zdarzeń platformy Spark można określić, które zdarzenia mają być zbierane. Na przykład: SparkListenerApplicationStart,SparkListenerApplicationEnd . |
spark.synapse.diagnostic.emitter.<destination>.filter.loggerName.match |
Opcjonalny. Rozdzielone przecinkami nazwy rejestratora Log4j można określić dzienniki do zebrania. Na przykład: org.apache.spark.SparkContext,org.example.Logger . |
spark.synapse.diagnostic.emitter.<destination>.filter.metricName.match |
Opcjonalny. Sufiksy nazw metryk platformy Spark rozdzielone przecinkami umożliwiają określenie metryk do zebrania. Przykład: jvm.heap.used |
Uwaga
Wystąpienie usługi Azure EventHub parametry połączenia powinno zawsze zawierać EntityPath
wartość , która jest nazwą wystąpienia usługi Azure Event Hubs.
Przykład danych dziennika
Oto przykładowy rekord dziennika w formacie JSON:
{
"timestamp": "2024-09-06T03:09:37.235Z",
"category": "Log|EventLog|Metrics",
"fabricLivyId": "<fabric-livy-id>",
"applicationId": "<application-id>",
"applicationName": "<application-name>",
"executorId": "<driver-or-executor-id>",
"fabricTenantId": "<my-fabric-tenant-id>",
"capacityId": "<my-fabric-capacity-id>",
"artifactType": "SynapseNotebook|SparkJobDefinition",
"artifactId": "<my-fabric-artifact-id>",
"fabricWorkspaceId": "<my-fabric-workspace-id>",
"fabricEnvId": "<my-fabric-environment-id>",
"executorMin": "<executor-min>",
"executorMax": "<executor-max>",
"isHighConcurrencyEnabled": "true|false",
"properties": {
// The message properties of logs, events and metrics.
"timestamp": "2024-09-06T03:09:37.235Z",
"message": "Initialized BlockManager: BlockManagerId(1, vm-04b22223, 34319, None)",
"logger_name": "org.apache.spark.storage.BlockManager",
"level": "INFO",
"thread_name": "dispatcher-Executor"
//...
}
}
Obszary robocze sieci szkieletowej z zarządzaną siecią wirtualną
Utwórz zarządzany prywatny punkt końcowy dla docelowej usługi Azure Event Hubs. Aby uzyskać szczegółowe instrukcje, zobacz Tworzenie i używanie zarządzanych prywatnych punktów końcowych w usłudze Microsoft Fabric — Microsoft Fabric.
Po zatwierdzeniu zarządzanego prywatnego punktu końcowego użytkownicy mogą rozpocząć emitowanie dzienników i metryk do docelowej usługi Azure Event Hubs.
Następne kroki
- Tworzenie definicji zadania platformy Apache Spark
- Tworzenie, konfigurowanie i używanie środowiska w usłudze Microsoft Fabric
- Tworzenie i używanie zarządzanych prywatnych punktów końcowych w usłudze Microsoft Fabric
- Tworzenie, wykonywanie notesów usługi Microsoft Fabric i zarządzanie nimi
- Monitorowanie aplikacji platformy Spark