Vad är HDInsight?
De enorma volymer, variation och hastighet med vilken data genereras idag har lett till behovet av att använda system som kan fungera effektivt och effektivt med de halvstrukturerade och ostrukturerade data som genereras. Försök gjordes av traditionella hanteringssystem för relationsdatabaser (RDBMS) för att bearbeta, lagra och analysera "stordata". Men det var en värld av programvara med öppen källkod (OSS) som gjorde genombrottet. OSS använder råmaskinvara på ett distribuerat sätt, kombinerat med programvara för att skala data och analys utöver de gränser som gäller för enskilda servrar.
OSS är fritt tillgängligt för både organisationer och individer att använda. Bristen på styrning och stöd för OSS tidigare har gjort det svårt för vissa företag att införa. Med tillkomsten av molnet är många molnleverantörer värdar för dessa tjänster och tillhandahåller hanterad support till organisationer som använder OSS-tekniker. Detta förslag är övertygande för organisationer att dra nytta av FÖRDELARNA med OSS utan att medföra kostnaden för att hantera och stödja det. Det är vanligt att se OSS när det gäller stordata. I det här utrymmet finns många tekniker inte bara för att bearbeta och lagra data, utan även för att utföra analyser. OSS-analys möjliggör en öppen programstrategi för flera moln som inte är knuten till en enda molnleverantör. Det ger portabilitet oavsett om du behöver flytta lösningar från lokalt till molnet eller mellan olika molnleverantörer.
En av de viktigaste OSS-analysteknikerna som används i stordatalösningar är Hadoop. Den lagrar vanligtvis data i ett Hadoop Distributed File System (HDFS) och använder ett kluster av vanliga datorer, med en programmeringsmodell med namnet MapReduce. Den här programmeringsmodellen möjliggör distribuerad bearbetning av stora uppsättningar data i ett linjärt dataflöde. För bättre prestanda bygger Apache Spark ovanpå arkitekturfunktionerna i Hadoop, men ersätter MapReduce-paradigmet med Resilient Distributed Dataset (RDD). RDD tillhandahåller en minnesintern datamotor som är mycket snabbare.
Det är värt att notera att OSS-analys har gått utöver den traditionella tillämpningen av stordatalösningar med Hadoop och Spark. OSS-analys innehåller nu ett brett utbud av programvara, inklusive följande:
- Kafka och Flink för scenarier för strömning
- Presto och Kylin som SQL-abstraktionslager
- AI-lager har lagts till med H20.ai och Dataiku
Azure HDInsight är en hanterad analystjänst med fullständigt spektrum med öppen källkod i molnet för företag. På Microsoft implementeras OSS-analys i Azure HDInsight. Du kan använda ramverk med öppen källkod som Hadoop, Apache Spark, Apache Hive, LLAP och Apache Kafka. Du får också fördelarna med säkerhet på företagsnivå, övervakningsfunktioner och alternativ för hög tillgänglighet som kan förväntas av en tjänst som finns i Azure. Azure HDInsight är också utökningsbart och anpassningsbart för att hantera en rad olika kundscenarier.