POC-Playbook in Synapse: Data Lake-Untersuchung mit serverlosem SQL-Pool in Azure Synapse Analytics
Dieser Artikel stellt eine allgemeine Methodik zum Vorbereiten und Ausführen eines effektiven Azure Synapse Analytics-Proof of Concept-Projekts (POC) für einen serverlosen SQL-Pool vor.
Hinweis
Dieser Artikel ist Teil der Artikelreihe Azure Synapse Proof of Concept Playbook. Eine Übersicht über die Reihe finden Sie unter Azure Synapse Proof of Concept Playbook.
Vorbereiten für POC
Ein POC-Projekt kann Ihnen helfen, eine fundierte Geschäftsentscheidung zur Implementierung einer Big Data- und Advanced Analytics-Umgebung auf einer cloudbasierten Plattform zu treffen, die den serverlosen SQL-Pool in Azure Synapse nutzt. Wenn Sie Daten im Data Lake untersuchen oder Erkenntnisse aus diesen Daten gewinnen bzw. Ihre vorhandene Datentransformationspipeline optimieren möchten, können Sie vom serverlosen SQL-Pool profitieren. Er eignet sich für folgende Szenarien:
- Grundlegende Ermittlung und Untersuchung: Ziehen Sie schnell Schlüsse aus den Daten, die in verschiedenen Formaten (Parquet, CSV, JSON) in Ihrem Data Lake gespeichert sind, sodass Sie planen können, wie Sie daraus Erkenntnisse gewinnen können.
- Logisches Data Warehouse: Erzeugen Sie eine relationale Abstraktion für Rohdaten oder verschiedenartige Daten, ohne diese zu verschieben oder umzuwandeln, und bieten Sie so eine stets aktuelle Sicht auf Ihre Daten.
- Datentransformation: Führen Sie mithilfe von T-SQL einfache, skalierbare und leistungsstarke Abfragen zum Data Lake aus. Sie können Abfrageergebnisse an BI-Tools (Business Intelligence) weiterleiten oder in eine relationale Datenbank laden. Zielsysteme können dedizierte SQL-Pools von Azure Synapse oder Instanzen von Azure SQL-Datenbank sein.
Verschiedene professionelle Rollen können von einem serverlosen SQL-Pool profitieren:
- Technische Fachkräfte für Daten können den Data Lake untersuchen, Daten mithilfe dieses serverlosen SQL-Pools transformieren und aufbereiten sowie ihre Datentransformationspipelines vereinfachen.
- Wissenschaftliche Fachkräfte für Daten können mithilfe der T-SQL-Funktion OPENROWSET und ihrem automatischen Rückschluss auf den Inhalt und die Struktur der im Data Lake gespeicherten Daten schnell Schlussfolgerungen ziehen.
- Datenanalysten können T-SQL-Abfragen in ihren bevorzugten Abfragetools schreiben, die sich mit dem serverlosen SQL-Pool verbinden können. Sie können Daten in externen Spark-Tabellen untersuchen, die von wissenschaftlichen und technischen Fachkräften für Daten erstellt wurden.
- BI-Experten können schnell Power BI-Berichte erstellen, die mit Data Lake- oder Spark-Tabellen verbunden sind.
Ein serverloses SQL-Pool-POC-Projekt identifiziert Ihre wichtigsten Ziele und Geschäftsfaktoren, die durch den serverlosen SQL-Pool unterstützt werden sollen. Außerdem werden wichtige Features getestet und Metriken zur Unterstützung Ihrer Implementierungsentscheidungen gesammelt. Ein POC ist nicht für die Bereitstellung in einer Produktionsumgebung ausgelegt. Vielmehr ist es ein kurzfristiges Projekt, das sich auf wichtige Fragen konzentriert, dessen Ergebnis verworfen werden kann.
Bevor Sie mit der Planung Ihres serverlosen SQL-Pool-POC-Projekts beginnen:
- Identifizieren Sie alle Einschränkungen oder Richtlinien Ihrer Organisation zum Verschieben von Daten in die Cloud.
- Identifizieren Sie Executive- oder Business-Sponsoren für ein Big Data- und Advanced Analytics-Plattformprojekt. Sichern Sie sich ihre Unterstützung für die Migration in die Cloud.
- Identifizieren Sie die Verfügbarkeit von technischen Experten und Geschäftsbenutzern, die Sie während der POC-Ausführung unterstützen.
Bevor Sie mit der Vorbereitung auf das POC-Projekt beginnen, empfehlen wir Ihnen, zuerst die Dokumentation zum serverlosen SQL-Pool zu lesen.
Tipp
Wenn Sie mit serverlosen SQL-Pools nicht vertraut sind, empfehlen wir Ihnen, den Lernpfad Erstellen von Datenanalyselösungen mithilfe von serverlosen SQL-Pools von Azure Synapse durchzuarbeiten.
Festlegen der Ziele
Ein erfolgreiches POC-Projekt erfordert Planung. Beginnen Sie mit der Identifizierung, warum Sie einen POC ausführen, um die tatsächliche Motivation vollständig zu verstehen. Die Motivation kann Modernisierung, Kosteneinsparungen, Leistungsverbesserungen oder integrierte Erfahrungen umfassen. Stellen Sie sicher, dass Sie klare Ziele für Ihren POC und die Kriterien dokumentieren, die den Erfolg definieren. Stellen Sie sich folgende Fragen:
- Was möchten Sie als Ergebnis Ihres POC?
- Was werden Sie mit diesen Ergebnissen tun?
- Wer verwendet diese Ergebnisse?
- Was definiert einen erfolgreichen POC?
Beachten Sie, dass ein POC kurz und fokussiert sein sollte, um schnell eine begrenzte Reihe von Konzepten und Funktionen zu beweisen. Diese Konzepte und Funktionen sollten repräsentativ für die gesamte Workload sein. Wenn Sie über eine lange Liste von Elementen verfügen, die nachgewiesen werden sollen, können Sie mehrere POC planen. Definieren Sie in diesem Fall Tore zwischen den POCs, um zu ermitteln, ob Sie mit dem nächsten fortfahren müssen. Angesichts der verschiedenen Expertenrollen, die einen serverlosen SQL-Pool verwenden können (und der verschiedenen Szenarien, die der serverlose SQL-Pool unterstützt), können Sie sich dafür entscheiden, mehrere POCs durchzuführen. Ein POC könnte sich beispielsweise auf die Anforderungen an die Rolle der wissenschaftlichen Fachkraft für Daten konzentrieren, z. B. die Ermittlung und Untersuchung von Daten in verschiedenen Formaten. Ein anderer POC könnte sich auf die Anforderungen für die Rolle der technischen Fachkraft für Daten konzentrieren, z. B. die Datentransformation und die Erstellung eines logischen Data Warehouses.
Während Sie über Ihre POC-Ziele nachdenken, stellen Sie sich die folgenden Fragen, um die Ziele zu definieren:
- Migrieren Sie von einer vorhandenen Big Data- und Advanced Analytics-Plattform (lokal oder Cloud)?
- Migrieren Sie, möchten aber möglichst wenige Änderungen an der vorhandenen Erfassung und Datenverarbeitung vornehmen?
- Migrieren Sie, möchten aber einige umfangreiche Verbesserungen durchführen?
- Erstellen Sie eine völlig neue Big Data- und Advanced Analytics-Plattform (Greenfield-Projekt)?
- Was sind Ihre aktuellen Probleme? Beispiel: Skalierbarkeit, Leistung oder Flexibilität.
- Welche neuen Geschäftsanforderungen müssen Sie unterstützen?
- Was sind die SLAs, die Sie erfüllen müssen?
- Was sind die Workloads? Beispielsweise Datenuntersuchung über verschiedene Datenformate, grundlegende Untersuchung, ein logisches Data Warehouse, Datenaufbereitung und/oder -transformation, interaktive T-SQL-Analyse, T-SQL-Abfragen von Spark-Tabellen oder Berichtsabfragen über den Data Lake.
- Was sind die Fähigkeiten der Benutzer, die das Projekt besitzen (soll der POC implementiert werden)?
Hier sind einige Beispiele für die POC-Zieleinstellung:
- Warum führen wir einen POC durch?
- Wir müssen wissen, ob wir mithilfe des serverlosen SQL-Pools alle von uns gespeicherten Rohdateiformate untersuchen können.
- Wir müssen wissen, ob unsere Datentechniker neue Datenfeeds schnell auswerten können.
- Wir müssen wissen, ob die Leistung von Data Lake-Abfragen mithilfe des serverlosen SQL-Pools unseren Anforderungen an die Datenuntersuchung gerecht wird.
- Wir müssen wissen, ob der serverlose SQL-Pool eine gute Wahl für einige unserer Visualisierungs- und Berichtsanforderungen ist.
- Wir müssen wissen, ob der serverlose SQL-Pool eine gute Wahl für einige unserer Anforderungen an die Erfassung und Verarbeitung von Daten ist.
- Wir müssen wissen, ob unser Wechsel zu Azure Synapse unser Budget einhalten wird.
- Am Ende dieses POC:
- Wir werden über die Daten verfügen, um die Datentransformationen zu identifizieren, die sich gut für den serverlosen SQL-Pool eignen.
- Wir werden über die Daten verfügen, um zu ermitteln, wann der serverlose SQL-Pool bei der Datenvisualisierung am besten verwendet werden kann.
- Wir werden über die Daten verfügen, um zu wissen, wie einfach unsere Datentechniker und wissenschaftlichen Fachkräfte für Daten die neue Plattform übernehmen können.
- Wir haben Einblicke erhalten, um die für die Durchführung des Implementierungs- oder Migrationsprojekts erforderlichen Anstrengungen besser schätzen zu können.
- Wir werden eine Liste mit Elementen haben, die möglicherweise weitere Tests erfordern.
- Unser POC wird erfolgreich sein, wenn wir über die erforderlichen Daten verfügen und die Tests abgeschlossen haben, um festzustellen, wie der serverlose SQL-Pool unsere cloudbasierte Big Data- und Advance Analytics-Plattform unterstützen wird.
- Wir werden feststellen, ob wir zur nächsten Phase übergehen können oder ob weitere POC-Tests erforderlich sind, um unsere Entscheidung endgültig zu treffen.
- Wir werden in der Lage sein, eine fundierte Geschäftsentscheidung zu treffen, die sich auf konkrete Daten stützt.
Planen des Projekts
Verwenden Sie Ihre Ziele, um bestimmte Tests zu identifizieren und die von Ihnen identifizierten Ausgaben bereitzustellen. Es muss gewährleistet werden, dass Sie mindestens einen Test haben, um jedes Ziel und das erwartete Ergebnis zu unterstützen. Identifizieren Sie außerdem bestimmte Datenuntersuchungs- und -analyseaufgaben, bestimmte Transformationen und bestimmte bestehende Verarbeitungen, die Sie testen möchten. Identifizieren Sie ein bestimmtes Dataset und eine Codebasis, die Sie verwenden können.
Im Folgenden finden Sie ein Beispiel für die erforderliche Genauigkeit bei der Planung:
- Ziel: Wir müssen wissen, ob Datentechniker die gleichwertige Verarbeitung des bestehenden ETL-Prozesses namens „Daily Batch Raw File Validation“ (Tägliche Batch-Rohdateiüberprüfung) innerhalb der erforderlichen SLA erreichen können.
- Ausgabe: Wir verfügen über die Daten, um festzustellen, ob wir T-SQL-Abfragen verwenden können, um den ETL-Prozess „Daily Batch Raw File Validation“ (Tägliche Batch-Rohdateiüberprüfung) innerhalb der erforderlichen SLA auszuführen.
- Test: Die Validierungsabfragen A, B und C werden von Datentechnikern identifiziert und stellen die gesamten Anforderungen hinsichtlich der Datenverarbeitung dar. Vergleichen Sie die Leistung dieser Abfragen mit der Benchmark, die mit dem bestehenden System erzielt wurde.
Auswerten des POC-Datasets
Wählen Sie mithilfe der von Ihnen identifizierten spezifischen Tests ein Dataset aus, um die Tests zu unterstützen. Nehmen Sie sich Zeit, um dieses Dataset zu überprüfen. Sie sollten überprüfen, ob das Dataset Ihre zukünftige Verarbeitung in Bezug auf Inhalt, Komplexität und Skalierung angemessen darstellt. Verwenden Sie kein Dataset, das zu klein ist, da es keine repräsentative Leistung liefert. Verwenden Sie andererseits auch kein Dataset, das zu groß ist, da der POC nicht zu einer vollständigen Datenmigration werden sollte. Rufen Sie die entsprechenden Benchmarks aus vorhandenen Systemen ab, damit Sie sie für Leistungsvergleiche verwenden können.
Wichtig
Stellen Sie sicher, dass Sie die Geschäftsbesitzer auf Blocker überprüfen, bevor Sie Daten in die Cloud verschieben. Identifizieren Sie Sicherheits- oder Datenschutzbedenken oder etwaige Datenobfuskationsanforderungen, die erfüllt werden müssen, bevor Sie Daten in die Cloud verschieben.
Erstellen einer allgemeinen Architektur
Identifizieren Sie basierend auf der allgemeinen Architektur Ihrer vorgeschlagenen zukünftigen Zustandsarchitektur die Komponenten, die Teil Ihres POC sind. Ihre allgemeine zukünftige Zustandsarchitektur enthält wahrscheinlich viele Datenquellen, zahlreiche Datenkunden, Big Data-Komponenten und möglicherweise Datenkunden in den Bereichen Machine Learning (ML) und künstliche Intelligenz (KI). Ihre POC-Architektur sollte speziell Komponenten identifizieren, die Teil des POC sind. Wichtig ist, dass sie alle Komponenten identifizieren sollte, die nicht Teil des POC-Tests sind.
Wenn Sie Azure bereits verwenden, identifizieren Sie alle bereits vorhandenen Ressourcen (Microsoft Entra ID, ExpressRoute und andere), die Sie während des POC verwenden können. Identifizieren Sie auch die von Ihrer Organisation verwendeten Azure-Regionen. Jetzt ist ein guter Zeitpunkt, um den Durchsatz Ihrer ExpressRoute-Verbindung zu identifizieren und bei anderen Geschäftsbenutzern zu überprüfen, dass Ihr POC einen Teil dieses Durchsatzes ohne negative Auswirkungen auf Produktionssysteme nutzen kann.
Identifizieren von POC-Ressourcen
Identifizieren Sie insbesondere die technischen Ressourcen und den Zeitaufwand, die erforderlich sind, um Ihren POC zu unterstützen. Ihr POC benötigt:
- Einen Geschäftsvertreter, der Anforderungen und Ergebnisse überwacht.
- Einen Anwendungsdatenexperten, um die Daten für den POC zu erstellen und Kenntnisse über die vorhandenen Prozesse und Logik die bereitzustellen.
- Einen Experten für serverlose SQL-Pools.
- Einen Experten, der die POC-Tests optimiert.
- Ressourcen, die für bestimmte Komponenten Ihres POC-Projekts, aber nicht unbedingt für die Dauer des POC erforderlich sind. Diese Ressourcen können Netzwerkadministratoren, Azure-Administratoren, Active Directory-Administratoren, Azure-Portaladministratoren und andere umfassen.
- Stellen Sie sicher, dass alle erforderlichen Azure-Dienstressourcen bereitgestellt werden und die erforderliche Zugriffsstufe gewährt wird, einschließlich des Zugriffs auf Speicherkonten.
- Stellen Sie sicher, dass Sie über ein Konto verfügen, das über erforderliche Datenzugriffsberechtigungen verfügt, um Daten aus allen Datenquellen im POC-Umfang abzurufen.
Tipp
Wir empfehlen, einen Experten zu engagieren, der Sie beim POC unterstützt. Die Partnercommunity von Microsoft bietet eine weltweite Verfügbarkeit von Experten, die Ihnen helfen können, Azure Synapse zu bewerten, zu beurteilen oder zu implementieren.
Festlegen der Zeitachse
Überprüfen Sie Ihre POC-Planungsdetails und geschäftlichen Anforderungen, um einen Zeitrahmen für Ihren POC zu identifizieren. Nehmen Sie realistische Schätzungen der Zeit vor, die erforderlich ist, um die POC-Ziele abzuschließen. Die Zeit zum Abschließen des POC wird durch die Größe Ihres POC-Datasets, die Anzahl und Komplexität der Tests und die Anzahl der zu testenden Schnittstellen beeinflusst. Wenn Sie schätzen, dass Ihr POC länger als vier Wochen dauert, sollten Sie den POC-Umfang reduzieren, um sich auf die Ziele mit der höchsten Priorität zu konzentrieren. Achten Sie darauf, dass Sie die Genehmigung und Zusage aller leitenden Ressourcen und Sponsoren erhalten, bevor Sie fortfahren.
Umsetzen des POC in die Praxis
Wir empfehlen, Ihr POC-Projekt mit der Disziplin und Strenge eines beliebigen Produktionsprojekts auszuführen. Führen Sie das Projekt nach Plan aus, und verwalten Sie einen Änderungsanforderungsprozess, um das unkontrollierte Wachstum des POC-Umfangs zu verhindern.
Beispiele für allgemeine Aufgaben:
- Erstellen Sie einen Synapse-Arbeitsbereich, Speicherkonten und die im POC-Plan identifizierten Azure-Ressourcen.
- Richten Sie Netzwerk und Sicherheit nach Ihren Anforderungen ein.
- Gewähren Sie den Mitgliedern des POC-Teams angemessenen Zugriff. In diesem Artikel finden Sie Informationen zu Berechtigungen für den direkten Zugriff auf Dateien aus Azure Storage.
- Laden Sie das POC-Dataset.
- Implementieren und konfigurieren Sie die Tests, und/oder migrieren Sie den vorhandenen Code in serverlose SQL-Poolskripts und -sichten.
- Ausführen der Tests:
- Viele Tests können parallel ausgeführt werden.
- Zeichnen Sie Ihre Ergebnisse in einem nutzbaren und leicht verständlichen Format auf.
- Überwachen Sie die Problembehandlung und Leistung.
- Werten Sie Ihre Ergebnisse aus und präsentieren Sie sie.
- Arbeiten Sie mit technischen Projektbeteiligten und dem Unternehmen zusammen, um die nächste Phase des Projekts zu planen. Die nächste Phase könnte ein POC oder eine Implementierung in die Produktionsumgebung sein.
Interpretieren der POC-Ergebnisse
Wenn Sie alle POC-Tests abgeschlossen haben, bewerten Sie die Ergebnisse. Beginnen Sie mit der Auswertung, ob die POC-Ziele erfüllt und die gewünschten Ergebnisse gesammelt wurden. Ermitteln Sie, ob weitere Tests erforderlich sind oder ob Fragen behandelt werden müssen.