Inmatningsprocessen med analys i molnskala i Azure
Azure tillhandahåller flera tjänster för att mata in och släppa data till interna plattformar och plattformar från tredje part. Olika tjänster kan användas beroende på volym, hastighet, variation och riktning. Några av dessa tjänster är:
- Azure Data Factory är en tjänst som skapats för alla dataprogramsbehov (källjusterade) och kunskapsnivåer. Skriv din egen kod eller skapa, extrahera, läsa in och transformera processer i den intuitiva visuella miljön och utan kod. Med fler än 90 inbyggda och underhållsfria anslutningsappar kan du visuellt integrera datakällor utan extra kostnad. Tekniker kan använda privata slutpunkter och länka tjänster för att på ett säkert sätt ansluta till PaaS-resurser (Plattform som en tjänst) i Azure utan att använda PaaS-resursens offentliga slutpunkter. Tekniker kan använda integrationskörningar för att utöka pipelines till miljöer från tredje part, till exempel lokala datakällor och andra moln.
Vissa av dessa anslutningsappar stöder användning som källa (läs) eller som mottagare (skrivning). Azures inbyggda tjänster, Oracle, SAP och andra kan användas som källa eller mottagare, men inte alla anslutningsappar stöder det. I dessa fall kan du använda allmänna anslutningsappar som ODBC (Open Database Connectivity), filsystemet eller SSH File Transfer Protocol-anslutningsappar (SFTP).
Azure Databricks är en snabb, enkel och samarbetsbaserad Apache-Spark-baserad analystjänst. För en stordatapipeline kan du mata in data (rådata eller strukturerade) i Azure via Data Factory i batchar eller strömmas i nästan realtid med Apache Kafka, Azure Event Hubs eller IoT Hub. Dessa data hamnar i en datasjö för långsiktig, bevarad lagring i Azure Data Lake Storage. Azure Databricks kan läsa data från flera datakällor som en del av arbetsflödet.
Microsoft Power Platform tillhandahåller anslutningsappar till hundratals tjänster som kan vara händelse-, schema- eller push-drivna. Microsoft Power Automate kan agera på händelser och utlösa arbetsflöden som är optimerade för enskilda poster eller små datavolymer.
Egenutvecklade verktyg och verktyg från tredje part ger nischfunktioner för att integrera med specialiserade system och replikering nästan i realtid.
- Azure Data Share stöder organisationer för att på ett säkert sätt dela data med flera externa kunder och partner. När du har skapat ett dataresurskonto och lagt till dataprodukter kan kunder och partner bjudas in till dataresursen. Dataprovidrar har alltid kontroll över de data som de har delat. Azure Data Share gör det enkelt att hantera och övervaka vilka data som delas, när de delades och vem som delade dem.
Viktigt
Varje datalandningszon har en resursgrupp för metadatainmatning som finns för företag med en dataagnostisk inmatningsmotor. Om du inte har den här ramverksmotorn distribuerar den enda rekommenderade resursen en Azure Databricks-analysarbetsyta, som skulle användas av dataintegreringar för att köra komplex inmatning. Se dataagnostisk inmatningsmotor för potentiella automatiseringsmönster.
Inmatningsöverväganden för Azure Data Factory
Om du har en dataagnostisk inmatningsmotor bör du distribuera en enda Data Factory för varje datalandningszon i resursgruppen för inmatning och bearbetning. Data Factory-arbetsytan ska vara låst för användare och endast hanterade identiteter och tjänstens huvudnamn har åtkomst till distributionen. Åtgärder för datalandningszoner bör ha läsbehörighet för att tillåta felsökning av pipeline.
Dataprogrammet kan ha en egen Data Factory för dataflytt. Att ha en Data Factory i varje dataprogramresursgrupp stöder en fullständig kontinuerlig integrering (CI) och kontinuerlig distribution (CD) genom att endast tillåta att pipelines distribueras från Azure DevOps eller GitHub.
Alla Data Factory-arbetsytor använder främst funktionen för hanterat virtuellt nätverk (VNet) i Data Factory eller lokalt installerad integrationskörning för sin datalandningszon i landningszonen för datahantering. Tekniker uppmanas att använda den hanterade VNet-funktionen för att på ett säkert sätt ansluta till Azure PaaS-resursen.
Det går dock att skapa fler integrationskörningar för att mata in från lokala moln från tredje part och SaaS-datakällor (programvara som en tjänst).
Inmatningsöverväganden för Azure Databricks
Den här vägledningen beskriver informationen i:
Skydda åtkomst till Azure Data Lake Storage Gen2 från Azure Databricks
För utveckling bör integreringsåtgärder ha egna Azure Databricks-miljöer innan du checkar in kod som ska distribueras till den enskilda Azure Databricks-arbetsytan under testning och produktion.
Data Factory i resursgruppen dataprogram (källjusterad) bör tillhandahålla ramverket för att anropa Azure Databricks-jobb.
Tjänstens huvudnamn kan hjälpa till att montera datasjöar i den här arbetsytan. Mer information finns i Mönster 1 – åtkomst via tjänstens huvudnamn för mer information.
Dataprogramteam kan distribuera korta, automatiserade jobb i Azure Databricks och förvänta sig att deras kluster startar snabbt, kör jobbet och avslutas. Vi rekommenderar att du konfigurerar Azure Databricks-pooler för att minska den tid det tar för kluster att starta för jobb.
Vi rekommenderar att organisationer använder Azure DevOps för att implementera ett distributionsramverk för nya pipelines. Ramverket används för att skapa datauppsättningsmappar, tilldela åtkomstkontrollistor och skapa en tabell med eller utan att framtvinga databricks-tabellåtkomstkontroller.
Dataströminmatning
Organisationer kan behöva stödja scenarier där utgivare genererar snabba händelseströmmar. För det här mönstret rekommenderas en meddelandekö, till exempel Event Hubs eller IoT Hub, för att mata in dessa strömmar.
Event Hubs och IoT Hub är skalbara händelsebearbetningstjänster som kan mata in och bearbeta stora händelsevolymer och data med låg svarstid och hög tillförlitlighet. Event Hubs är utformat som en stordataströmnings- och händelseinmatningstjänst. IoT Hub är en hanterad tjänst som fungerar som en central meddelandehubb för dubbelriktad kommunikation mellan ett IoT-program och de enheter som hanteras. Därifrån kan data antingen exporteras till en datasjö med jämna mellanrum (batch) och bearbetas med Azure Databricks nästan i realtid via Apache Spark Streaming, Azure Data Explorer, Stream Analytics eller Time Series Insights.
Den sista Event Hubs- eller Apache Kafka-landningszonen i användningsfallets specifika landningszon bör skicka sina aggregerade data till datasjöns rådatalager i en av datalandningszonerna och till händelsehubbar relaterade till dataprogrammets resursgrupp (källjusterad) i datalandningszonen.
Övervaka inmatning
Out-of-the-box Azure Data Factory pipelineövervakning kan användas för att övervaka och felsöka undantag från Data Factory-pipelines. Det minskar arbetet med att utveckla en anpassad övervaknings- och rapporteringslösning.
Inbyggd övervakning är en av de främsta anledningarna till att använda Azure Data Factory som ett huvudorkestreringsverktyg, och Azure Policy kan hjälpa till att automatisera den här konfigurationen.
Mappa datakällor till tjänster
Vägledningen i det här avsnittet mappar inmatnings- och bearbetningstjänster till källor som vanligtvis behöver matas in eller släppas från Azure.
Inmatningstjänster:
ID | Mekanism | Anteckning |
---|---|---|
A | Data Factory | Inbyggda och allmänna anslutningsappar (ODBC, SFTP och REST) |
B | Azure Databricks | Anpassad kod (JDBC, JAR med mera) |
C | Tredje part | WANdisco, Qlik och Oracle GoldenGate |
D | Övrigt | Till exempel interna funktioner |
E | Microsoft Power Platform och Azure Logic Apps | Microsoft Power Automate-anslutningsappar |
Mappning av datakällor till tjänster:
Leverantör | Typ | Värdbaserad | Kategori | Kommentarer | Inmatning med full belastning | Inkrementell inmatning av inläsning | Inmatning i realtid | Utgående full belastning | Utgående inkrementell belastning | Utgående realtid |
---|---|---|---|---|---|---|---|---|---|---|
Oracle | Tabular | IaaS | Databas | GoldenGate till Azure Data Lake Storage | A, B | A, B | C | A, B | A, B | C |
Microsoft SQL Server | Tabular | IaaS | Databas | SAP Landscape Transformation och Qlik | A, B | A, B | C, D2 | A, B | A, B | C, D2 |
MySQL | Tabular | IaaS | Databas | SAP Landscape Transformation och Qlik | A, B | A, B | C, D2 | A, B | A, B | C, D2 |
SAP BW/4HANA | Tabular | IaaS | Databas | SAP Landscape Transformation och Qlik | A, B, C, D | A, B, C, D | C | - | - | - |
SAP HANA | Tabular | IaaS | Databas | SAP Landscape Transformation och Qlik | A, B, C, D | A, B, C, D | C | A, B | A, B | - |
Apache Impala | Tabular | IaaS | Databas | - | A, B | A, B | - | B | B | - |
Microsoft SharePoint | Lista | SaaS | Arkivhandling | - | A, E | A, E | E | A, E | A, E | E |
REST | REST | Olika | REST | XML, JSON, CSV | A, B, E | A, B, E | A, B, E | A, B, E | A, B, E | A, B, E |
Microsoft Outlook | E-post | SaaS | REST | XML, JSON, CSV | E | E | E | E | E | E |
Beroende på mål kan Azure Database Migration Service replikera från lokala databaser och databaser från tredje part, till exempel Microsoft SQL Server, PostgreSQL, MySQL eller Oracle till ett Azure-baserat datalager.