Migrera lokala Apache Hadoop-kluster till Azure HDInsight – motivation och fördelar
Den här artikeln är den första i en serie om metodtips för migrering av lokala Apache Hadoop-miljösystemdistributioner till Azure HDInsight. Den här artikelserien är avsedd för personer som ansvarar för design, distribution och migrering av Apache Hadoop-lösningar i Azure HDInsight. De roller som kan dra nytta av dessa artiklar är molnarkitekter, Hadoop-administratörer och DevOps-tekniker. Programvaruutvecklare, datatekniker och dataexperter bör också dra nytta av förklaringen av hur olika typer av kluster fungerar i molnet.
Varför migrera till Azure HDInsight
Azure HDInsight är en molndistribution av Hadoop-komponenter. Med Azure HDInsight kan du bearbeta stora mängder data på ett enkelt, snabbt och kostnadseffektivt sätt. HDInsight innehåller de mest populära ramverken med öppen källkod, till exempel:
- Apache Hadoop
- Apache Spark
- Apache Hive med LLAP
- Apache Kafka
- Apache HBase
Azure HDInsight-fördelar jämfört med lokala Hadoop
Låg kostnad – Kostnaderna kan minskas genom att skapa kluster på begäran och endast betala för det du använder. Frikopplad beräkning och lagring ger flexibilitet genom att hålla datavolymen oberoende av klusterstorleken.
Automatiserat klusterskapande – Automatiserat klusterskapande kräver minimal konfiguration och konfiguration. Automatisering kan användas för kluster på begäran.
Hanterad maskinvara och konfiguration – Du behöver inte bekymra dig om den fysiska maskinvaran eller infrastrukturen med ett HDInsight-kluster. Ange bara konfigurationen av klustret så konfigurerar Azure det.
Enkelt skalbar – MED HDInsight kan du skala upp eller ned arbetsbelastningar. Azure tar hand om omdistribution av data och ombalansering av arbetsbelastningar utan att avbryta databearbetningsjobb.
Global tillgänglighet – HDInsight är tillgängligt i fler regioner än något annat erbjudande för stordataanalys. Azure HDInsight är också tillgängligt i Azure Government, Kina och Tyskland så att du kan uppfylla företagets behov i viktiga områden.
Säker och kompatibel – MED HDInsight kan du skydda företagets datatillgångar med Azure Virtual Network, kryptering och integrering med Microsoft Entra-ID. HDInsight uppfyller också de vanligaste efterlevnadskraven för olika branscher och myndigheter.
Förenklad versionshantering – Azure HDInsight hanterar versionen av Hadoop eco-system-komponenter och håller dem uppdaterade. Programuppdateringar är vanligtvis en komplex process för lokala distributioner.
Mindre kluster som är optimerade för specifika arbetsbelastningar med färre beroenden mellan komponenter – En typisk lokal Hadoop-installation använder ett enda kluster som har många syften. Med Azure HDInsight kan arbetsbelastningsspecifika kluster skapas. Om du skapar kluster för specifika arbetsbelastningar blir det svårt att underhålla ett enda kluster med växande komplexitet.
Produktivitet – Du kan använda olika verktyg för Hadoop och Spark i önskad utvecklingsmiljö.
Utökningsbarhet med anpassade verktyg eller program från tredje part – HDInsight-kluster kan utökas med installerade komponenter och kan även integreras med andra stordatalösningar med hjälp av distributioner med ett klick från Azure Market Place.
Enkel hantering, administration och övervakning – Azure HDInsight integreras med Azure Monitor-loggar för att tillhandahålla ett enda gränssnitt som du kan övervaka alla dina kluster med.
Integrering med andra Azure-tjänster – HDInsight kan enkelt integreras med andra populära Azure-tjänster, till exempel följande:
- Azure Data Factory (ADF)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
Självåterställningsprocesser och komponenter – HDInsight kontrollerar ständigt infrastrukturen och komponenter med öppen källkod med hjälp av sin egen övervakningsinfrastruktur. Den återställer också automatiskt kritiska fel, till exempel otillgänglighet för komponenter och noder med öppen källkod. Aviseringar utlöses i Ambari om någon OSS-komponent misslyckas.
Mer information finns i artikeln Vad är Azure HDInsight och Apache Hadoop-teknikstacken?
Planeringsprocess för migrering
Följande steg rekommenderas för att planera en migrering av lokala Hadoop-kluster till Azure HDInsight:
- Förstå den aktuella lokala distributionen och topologierna.
- Förstå det aktuella projektets omfattning, tidslinjer och teamexpertis.
- Förstå Azure-kraven.
- Skapa en detaljerad plan baserat på metodtips.
Samla in information för att förbereda migreringen
Det här avsnittet innehåller mallformulär som hjälper dig att samla in viktig information om:
- Den lokala distributionen
- Projektinformation
- Krav för Azure
Enkät om lokal distribution
Fråga | Exempel | Svar |
---|---|---|
Ämne: Miljö | ||
Klusterdistributionsversion | HDP 2.6.5, CDH 5.7 | |
Stordata eco-system komponenter | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
Klustertyper | Hadoop, Spark, Confluent Kafka, Solr | |
Antal kluster | 4 | |
Antal huvudnoder | 2 | |
Antal arbetsnoder | 100 | |
Antal gränsnoder | 5 | |
Totalt diskutrymme | 100 TB | |
Huvudnodkonfiguration | m/y, cpu, disk osv. | |
Konfiguration av datanoder | m/y, cpu, disk osv. | |
Konfiguration av edge-noder | m/y, cpu, disk osv. | |
HDFS-kryptering? | Ja | |
Hög tillgänglighet | HDFS HA, Metastore HA | |
Haveriberedskap/Säkerhetskopiera | Säkerhetskopieringskluster? | |
System som är beroende av kluster | SQL Server, Teradata, Power BI, MongoDB | |
Integreringar från tredje part | Tableau, GridGain, Qubole, Informatica, Splunk | |
Ämne: Säkerhet | ||
Perimetersäkerhet | Brandväggar | |
Klusterautentisering och auktorisering | Active Directory, Ambari, Cloudera Manager, Ingen autentisering | |
HDFS-åtkomstkontroll | Manuella, ssh-användare | |
Hive-autentisering och auktorisering | Sentry, LDAP, AD med Kerberos, Ranger | |
Granskning | Ambari, Cloudera Navigator, Ranger | |
Övervakning | Graphite, collectd, statsd , Telegraf, InfluxDB |
|
Aviseringar | Kapacitor , Prometheus, Datadog |
|
Varaktighet för datakvarhållning | Tre år, fem år | |
Klusteradministratörer | Enskild administratör, flera administratörer |
Enkät om projektinformation
Fråga | Exempel | Svar |
---|---|---|
Ämne: Arbetsbelastningar och frekvens | ||
MapReduce-jobb | 10 jobb – två gånger dagligen | |
Hive-jobb | 100 jobb – varje timme | |
Spark-batchjobb | 50 jobb – var 15:e minut | |
Spark Streaming-jobb | 5 jobb – var 3:e minut | |
Strukturerade direktuppspelningsjobb | 5 jobb – varje minut | |
Programmeringsspråk | Python, Scala, Java | |
Skript | Shell, Python | |
Ämne: Data | ||
Datakällor | Flata filer, Json, Kafka, RDBMS | |
Dataorkestrering | Oozie-arbetsflöden, Airflow | |
I minnessökningar | Apache Ignite, Redis | |
Datamål | HDFS, RDBMS, Kafka, MPP | |
Ämne: Metadata | ||
Hive DB-typ | Mysql, Postgres | |
Antal Hive-metaarkiv | 2 | |
Antal Hive-tabeller | 100 | |
Antal Ranger-principer | 20 | |
Antal Oozie-arbetsflöden | 100 | |
Ämne: Skala | ||
Datavolym inklusive replikering | 100 TB | |
Daglig inmatningsvolym | 50 GB | |
Datatillväxthastighet | 10 % per år | |
Ökningstakt för klusternoder | 5 % per år | |
Ämne: Klusteranvändning | ||
Genomsnittlig processoranvändning i % | 60% | |
Genomsnittligt minne % används | 75 % | |
Diskutrymme som används | 75 % | |
Genomsnittligt nätverk % används | 25 % | |
Ämne: Personal | ||
Antal administratörer | 2 | |
Antal utvecklare | 10 | |
Antal slutanvändare | 100 | |
Kompetens | Hadoop, Spark | |
Antal tillgängliga resurser för migreringsarbete | 2 | |
Ämne: Begränsningar | ||
Aktuella begränsningar | Svarstiden är hög | |
Aktuella utmaningar | Problem med samtidighet |
Enkät om Azure-krav
Fråga | Exempel | Svar |
---|---|---|
Ämne: Infrastruktur | ||
Prioriterad region | USA, Östra | |
Föredrar du VNet? | Ja | |
HA / DR behövs? | Ja | |
Integrering med andra molntjänster? | ADF, Azure Cosmos DB | |
Ämne: Dataförflyttning | ||
Inledande inläsningsinställning | DistCp, Data box, ADF, WANDisco | |
Delta i dataöverföring | DistCp, AzCopy | |
Pågående inkrementell dataöverföring | DistCp, Sqoop | |
Ämne: Övervakning och aviseringar | ||
Använda Azure-övervakning och aviseringar jämfört med integrera övervakning från tredje part | Använda Azure-övervakning och aviseringar | |
Ämne: Säkerhetsinställningar | ||
Privat och skyddad datapipeline? | Ja | |
Domänanslutet kluster (ESP)? | Ja | |
Lokal AD-synkronisering till molnet? | Ja | |
Antal AD-användare som ska synkroniseras? | 100 | |
Ok för att synkronisera lösenord till molnet? | Ja | |
Endast molnanvändare? | Ja | |
MFA behövs? | Nej | |
Krav för dataauktorisering? | Ja | |
Rollbaserad åtkomstkontroll? | Ja | |
Behövs granskning? | Ja | |
Datakryptering i vila? | Ja | |
Datakryptering under överföring? | Ja | |
Ämne: Inställningar för omarkitektur | ||
Enskilda kluster jämfört med specifika klustertyper | Specifika klustertyper | |
Samlokaliserad lagring jämfört med fjärrlagring? | Fjärrlagring | |
Mindre klusterstorlek eftersom data lagras på distans? | Mindre klusterstorlek | |
Vill du använda flera mindre kluster i stället för ett enda stort kluster? | Använda flera mindre kluster | |
Vill du använda ett fjärranslutet metaarkiv? | Ja | |
Vill du dela metaarkiv mellan olika kluster? | Ja | |
Vill du dekonstruera arbetsbelastningar? | Ersätt Hive-jobb med Spark-jobb | |
Vill du använda ADF för dataorkestrering? | Nej |
Nästa steg
Läs nästa artikel i den här serien: