Dela via


Migrera lokala Apache Hadoop-kluster till Azure HDInsight – motivation och fördelar

Den här artikeln är den första i en serie om metodtips för migrering av lokala Apache Hadoop-miljösystemdistributioner till Azure HDInsight. Den här artikelserien är avsedd för personer som ansvarar för design, distribution och migrering av Apache Hadoop-lösningar i Azure HDInsight. De roller som kan dra nytta av dessa artiklar är molnarkitekter, Hadoop-administratörer och DevOps-tekniker. Programvaruutvecklare, datatekniker och dataexperter bör också dra nytta av förklaringen av hur olika typer av kluster fungerar i molnet.

Varför migrera till Azure HDInsight

Azure HDInsight är en molndistribution av Hadoop-komponenter. Med Azure HDInsight kan du bearbeta stora mängder data på ett enkelt, snabbt och kostnadseffektivt sätt. HDInsight innehåller de mest populära ramverken med öppen källkod, till exempel:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive med LLAP
  • Apache Kafka
  • Apache HBase

Azure HDInsight-fördelar jämfört med lokala Hadoop

  • Låg kostnad – Kostnaderna kan minskas genom att skapa kluster på begäran och endast betala för det du använder. Frikopplad beräkning och lagring ger flexibilitet genom att hålla datavolymen oberoende av klusterstorleken.

  • Automatiserat klusterskapande – Automatiserat klusterskapande kräver minimal konfiguration och konfiguration. Automatisering kan användas för kluster på begäran.

  • Hanterad maskinvara och konfiguration – Du behöver inte bekymra dig om den fysiska maskinvaran eller infrastrukturen med ett HDInsight-kluster. Ange bara konfigurationen av klustret så konfigurerar Azure det.

  • Enkelt skalbar – MED HDInsight kan du skala upp eller ned arbetsbelastningar. Azure tar hand om omdistribution av data och ombalansering av arbetsbelastningar utan att avbryta databearbetningsjobb.

  • Global tillgänglighet – HDInsight är tillgängligt i fler regioner än något annat erbjudande för stordataanalys. Azure HDInsight är också tillgängligt i Azure Government, Kina och Tyskland så att du kan uppfylla företagets behov i viktiga områden.

  • Säker och kompatibel – MED HDInsight kan du skydda företagets datatillgångar med Azure Virtual Network, kryptering och integrering med Microsoft Entra-ID. HDInsight uppfyller också de vanligaste efterlevnadskraven för olika branscher och myndigheter.

  • Förenklad versionshantering – Azure HDInsight hanterar versionen av Hadoop eco-system-komponenter och håller dem uppdaterade. Programuppdateringar är vanligtvis en komplex process för lokala distributioner.

  • Mindre kluster som är optimerade för specifika arbetsbelastningar med färre beroenden mellan komponenter – En typisk lokal Hadoop-installation använder ett enda kluster som har många syften. Med Azure HDInsight kan arbetsbelastningsspecifika kluster skapas. Om du skapar kluster för specifika arbetsbelastningar blir det svårt att underhålla ett enda kluster med växande komplexitet.

  • Produktivitet – Du kan använda olika verktyg för Hadoop och Spark i önskad utvecklingsmiljö.

  • Utökningsbarhet med anpassade verktyg eller program från tredje part – HDInsight-kluster kan utökas med installerade komponenter och kan även integreras med andra stordatalösningar med hjälp av distributioner med ett klick från Azure Market Place.

  • Enkel hantering, administration och övervakning – Azure HDInsight integreras med Azure Monitor-loggar för att tillhandahålla ett enda gränssnitt som du kan övervaka alla dina kluster med.

  • Integrering med andra Azure-tjänster – HDInsight kan enkelt integreras med andra populära Azure-tjänster, till exempel följande:

    • Azure Data Factory (ADF)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • Azure SQL Database
    • Azure Analysis Services
  • Självåterställningsprocesser och komponenter – HDInsight kontrollerar ständigt infrastrukturen och komponenter med öppen källkod med hjälp av sin egen övervakningsinfrastruktur. Den återställer också automatiskt kritiska fel, till exempel otillgänglighet för komponenter och noder med öppen källkod. Aviseringar utlöses i Ambari om någon OSS-komponent misslyckas.

Mer information finns i artikeln Vad är Azure HDInsight och Apache Hadoop-teknikstacken?

Planeringsprocess för migrering

Följande steg rekommenderas för att planera en migrering av lokala Hadoop-kluster till Azure HDInsight:

  1. Förstå den aktuella lokala distributionen och topologierna.
  2. Förstå det aktuella projektets omfattning, tidslinjer och teamexpertis.
  3. Förstå Azure-kraven.
  4. Skapa en detaljerad plan baserat på metodtips.

Samla in information för att förbereda migreringen

Det här avsnittet innehåller mallformulär som hjälper dig att samla in viktig information om:

  • Den lokala distributionen
  • Projektinformation
  • Krav för Azure

Enkät om lokal distribution

Fråga Exempel Svar
Ämne: Miljö
Klusterdistributionsversion HDP 2.6.5, CDH 5.7
Stordata eco-system komponenter HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
Klustertyper Hadoop, Spark, Confluent Kafka, Solr
Antal kluster 4
Antal huvudnoder 2
Antal arbetsnoder 100
Antal gränsnoder 5
Totalt diskutrymme 100 TB
Huvudnodkonfiguration m/y, cpu, disk osv.
Konfiguration av datanoder m/y, cpu, disk osv.
Konfiguration av edge-noder m/y, cpu, disk osv.
HDFS-kryptering? Ja
Hög tillgänglighet HDFS HA, Metastore HA
Haveriberedskap/Säkerhetskopiera Säkerhetskopieringskluster?
System som är beroende av kluster SQL Server, Teradata, Power BI, MongoDB
Integreringar från tredje part Tableau, GridGain, Qubole, Informatica, Splunk
Ämne: Säkerhet
Perimetersäkerhet Brandväggar
Klusterautentisering och auktorisering Active Directory, Ambari, Cloudera Manager, Ingen autentisering
HDFS-åtkomstkontroll Manuella, ssh-användare
Hive-autentisering och auktorisering Sentry, LDAP, AD med Kerberos, Ranger
Granskning Ambari, Cloudera Navigator, Ranger
Övervakning Graphite, collectd, statsd, Telegraf, InfluxDB
Aviseringar Kapacitor, Prometheus, Datadog
Varaktighet för datakvarhållning Tre år, fem år
Klusteradministratörer Enskild administratör, flera administratörer

Enkät om projektinformation

Fråga Exempel Svar
Ämne: Arbetsbelastningar och frekvens
MapReduce-jobb 10 jobb – två gånger dagligen
Hive-jobb 100 jobb – varje timme
Spark-batchjobb 50 jobb – var 15:e minut
Spark Streaming-jobb 5 jobb – var 3:e minut
Strukturerade direktuppspelningsjobb 5 jobb – varje minut
Programmeringsspråk Python, Scala, Java
Skript Shell, Python
Ämne: Data
Datakällor Flata filer, Json, Kafka, RDBMS
Dataorkestrering Oozie-arbetsflöden, Airflow
I minnessökningar Apache Ignite, Redis
Datamål HDFS, RDBMS, Kafka, MPP
Ämne: Metadata
Hive DB-typ Mysql, Postgres
Antal Hive-metaarkiv 2
Antal Hive-tabeller 100
Antal Ranger-principer 20
Antal Oozie-arbetsflöden 100
Ämne: Skala
Datavolym inklusive replikering 100 TB
Daglig inmatningsvolym 50 GB
Datatillväxthastighet 10 % per år
Ökningstakt för klusternoder 5 % per år
Ämne: Klusteranvändning
Genomsnittlig processoranvändning i % 60%
Genomsnittligt minne % används 75 %
Diskutrymme som används 75 %
Genomsnittligt nätverk % används 25 %
Ämne: Personal
Antal administratörer 2
Antal utvecklare 10
Antal slutanvändare 100
Kompetens Hadoop, Spark
Antal tillgängliga resurser för migreringsarbete 2
Ämne: Begränsningar
Aktuella begränsningar Svarstiden är hög
Aktuella utmaningar Problem med samtidighet

Enkät om Azure-krav

Fråga Exempel Svar
Ämne: Infrastruktur
Prioriterad region USA, Östra
Föredrar du VNet? Ja
HA / DR behövs? Ja
Integrering med andra molntjänster? ADF, Azure Cosmos DB
Ämne: Dataförflyttning
Inledande inläsningsinställning DistCp, Data box, ADF, WANDisco
Delta i dataöverföring DistCp, AzCopy
Pågående inkrementell dataöverföring DistCp, Sqoop
Ämne: Övervakning och aviseringar
Använda Azure-övervakning och aviseringar jämfört med integrera övervakning från tredje part Använda Azure-övervakning och aviseringar
Ämne: Säkerhetsinställningar
Privat och skyddad datapipeline? Ja
Domänanslutet kluster (ESP)? Ja
Lokal AD-synkronisering till molnet? Ja
Antal AD-användare som ska synkroniseras? 100
Ok för att synkronisera lösenord till molnet? Ja
Endast molnanvändare? Ja
MFA behövs? Nej
Krav för dataauktorisering? Ja
Rollbaserad åtkomstkontroll? Ja
Behövs granskning? Ja
Datakryptering i vila? Ja
Datakryptering under överföring? Ja
Ämne: Inställningar för omarkitektur
Enskilda kluster jämfört med specifika klustertyper Specifika klustertyper
Samlokaliserad lagring jämfört med fjärrlagring? Fjärrlagring
Mindre klusterstorlek eftersom data lagras på distans? Mindre klusterstorlek
Vill du använda flera mindre kluster i stället för ett enda stort kluster? Använda flera mindre kluster
Vill du använda ett fjärranslutet metaarkiv? Ja
Vill du dela metaarkiv mellan olika kluster? Ja
Vill du dekonstruera arbetsbelastningar? Ersätt Hive-jobb med Spark-jobb
Vill du använda ADF för dataorkestrering? Nej

Nästa steg

Läs nästa artikel i den här serien: