Inmatningsprocessen med analys i molnskala i Azure
Azure tillhandahåller flera tjänster för att mata in och släppa data till interna plattformar och plattformar från tredje part. Olika tjänster kan användas, beroende på volym, hastighet, variation och riktning. Några av dessa tjänster är:
- Azure Data Factory är en tjänst som utvecklats för att hantera alla behov för datatillämpningar (som anpassas till källan) och alla kunskapsnivåer. Skriv din egen kod eller skapa, extrahera, läsa in och transformera processer i den intuitiva visuella miljön och utan kod. Med över 90 inbyggda och underhållsfria anslutningsappar kan du visuellt integrera datakällor utan extra kostnad. Tekniker kan använda privata slutpunkter och länka tjänster för att på ett säkert sätt ansluta till PaaS-resurser (Plattform som en tjänst) i Azure utan att använda PaaS-resursens offentliga slutpunkter. Tekniker kan använda integreringskörningar för att utöka pipelines till miljöer från tredje part, till exempel lokala datakällor och andra moln.
Vissa av dessa anslutningsappar stöder användning som källa (läs) eller som mottagare (skrivning). Azures interna tjänster, Oracle, SAP och andra kan användas som källa eller mottagare, men inte alla anslutningsappar stöder det. I dessa fall kan du använda allmänna anslutningsappar som ODBC (Open Database Connectivity), filsystemet eller SSH File Transfer Protocol-anslutningsappar (SFTP).
Azure Databricks är en snabb, enkel och samarbetsbaserad Apache-Spark-baserad analystjänst. För en stordatapipeline kan du mata in data (rådata eller strukturerade) i Azure via Data Factory i batchar eller strömma i princip i realtid med Apache Kafka, Azure Event Hubs eller IoT Hub. Dessa data hamnar i en datasjö för långsiktig, bevarad lagring i Azure Data Lake Storage. Azure Databricks kan läsa data från flera datakällor som en del av arbetsflödet.
Microsoft Power Platform tillhandahåller anslutningar för hundratals tjänster som kan vara händelse-, schema- eller push-drivna. Microsoft Power Automate kan agera på händelser och utlösa arbetsflöden som är optimerade för enskilda poster eller små datavolymer.
Proprietära interna verktyg och verktyg från tredje part ger nischfunktioner för att integrera med specialiserade system och replikering nästan i realtid.
- Azure Data Share stöder organisationer att på ett säkert sätt dela data med flera externa kunder och partner. När du har skapat ett dataresurskonto och lagt till dataprodukter kan kunder och partner bjudas in till dataresursen. Dataleverantörer har alltid kontroll över de data som de har delat. Azure Data Share gör det enkelt att hantera och övervaka vilka data som delas, när de delades och vem som delade dem.
Viktig
Varje datalandningszon kan ha en resursgrupp för datainmatning som finns för företag med en dataagnostisk inmatningsmotor. Om du inte har den här ramverksmotorn är den enda rekommenderade resursen att distribuera en Azure Databricks-analysarbetsyta, som skulle användas av dataintegreringar för att köra komplex inmatning. Se dataagnostisk inmatningsmotor för potentiella automatiseringsmönster.
Inmatningsöverväganden för Azure Data Factory
Om du har en dataagnostisk inmatningsmotor bör du distribuera en enda Data Factory för varje datalandningszon i resursgruppen för datainmatning. Data Factory-arbetsytan ska vara låst för användare så att de inte har åtkomst, och endast hanterade identiteter och tjänstprincipaler kommer att ha åtkomst för distribution. Åtgärder för datalandningszoner bör ha läsbehörighet för att möjliggöra felsökning av pipeline.
Dataprogrammet kan ha en egen Data Factory för dataflytt. Att ha en Data Factory i varje dataprogramresursgrupp har stöd för en fullständig funktion för kontinuerlig integrering (CI) och kontinuerlig distribution (CD) genom att endast tillåta att pipelines distribueras från Azure DevOps eller GitHub.
Alla Data Factory-arbetsytor kommer i huvudsak att använda funktionen för hanterat virtuellt nätverk (VNet) i Data Factory eller självhostad integrationskörning för sin datalagringszon inom datahanteringens landningszon. Tekniker uppmanas att använda den hanterade VNet-funktionen för att ansluta på ett säkert sätt till Azure PaaS-resursen.
Det är dock möjligt att skapa fler integreringskörningar för inmatning från lokala moln, tredjepartsmoln och SaaS-datakällor (programvara som en tjänst) från tredje part.
Inmatningsöverväganden för Azure Databricks
Den här vägledningen beskriver informationen i:
Skydda åtkomsten till Azure Data Lake Storage Gen2 från Azure Databricks
För utveckling bör integreringsoperationer ha sina egna Azure Databricks-miljöer innan kod checkas in för att distribueras till den enskilda Azure Databricks-arbetsytan under testning och produktion.
Data Factory i resursgrupp för dataprogram (anpassad efter källa) bör tillhandahålla ramverk för att köra Azure Databricks-jobb.
Dataprogramteam kan distribuera korta, automatiserade jobb i Azure Databricks och förvänta sig att deras kluster startar snabbt, kör jobbet och avslutar. Vi rekommenderar att du konfigurerar Azure Databricks-pooler för att minska den tid det tar för kluster att starta för jobb.
Vi rekommenderar att organisationer använder Azure DevOps för att implementera ett distributionsramverk för nya pipelines. Ramverket används för att skapa datauppsättningsmappar, tilldela åtkomstkontrollistor och skapa en tabell med eller utan att framtvinga åtkomstkontroller för Databricks-tabeller.
Dataströminmatning
Organisationer kan behöva stöd för scenarier där utgivare genererar händelseströmmar med hög hastighet. För det här mönstret rekommenderas en meddelandekö, till exempel Event Hubs eller IoT Hub, för att mata in dessa strömmar.
Event Hubs och IoT Hub är skalbara händelsebearbetningstjänster som kan mata in och bearbeta stora händelsevolymer och data med låg svarstid och hög tillförlitlighet. Event Hubs är utformat som en stordataströmnings- och händelseinmatningstjänst. IoT Hub är en hanterad tjänst som fungerar som en central meddelandehubb för dubbelriktad kommunikation mellan ett IoT-program och de enheter som det hanterar. Därifrån kan data antingen exporteras till en datasjö med jämna mellanrum (batch) och bearbetas med Azure Databricks nästan i realtid via Apache Spark Streaming, Azure Data Explorer, Stream Analytics eller Time Series Insights.
Den sista Event Hubs- eller Apache Kafka-landningszonen i användningsfallets specifika landningszon bör skicka sina aggregerade data till datasjöns rådataskikt i en av datalandningszonerna och till händelsehubbar relaterade till dataprogrammets (källjusterade) resursgrupp i datalandningszonen.
Övervaka inmatning
Out-of-the-box Azure Data Factory-pipelineövervakning kan användas för att övervaka och felsöka undantagen från Data Factory-pipelines. Det minskar arbetet med att utveckla en anpassad övervaknings- och rapporteringslösning.
Inbyggd övervakning är en av de främsta anledningarna till att använda Azure Data Factory som ett huvudorkestreringsverktyg, och Azure Policy kan hjälpa till att automatisera den här konfigurationen.