Co to jest HDInsight?
Ogromne ilości, różnorodność i szybkość generowania danych w dzisiejszych czasach spowodowały konieczność korzystania z systemów, które mogą działać efektywnie i wydajnie z wygenerowanymi danymi częściowo i bez struktury. Podjęto próby przez tradycyjne systemy zarządzania relacyjnymi bazami danych (RDBMS) do przetwarzania, przechowywania i analizowania "danych big data". Ale to był świat oprogramowania open source (OSS), który dokonał przełomu. System operacyjny korzysta ze sprzętu towarowego w sposób rozproszony w połączeniu z oprogramowaniem do skalowania danych i analiz poza limity nałożone na pojedyncze serwery.
System operacyjny jest bezpłatnie dostępny zarówno dla organizacji, jak i użytkowników indywidualnych. Brak ładu i wsparcia dla systemu operacyjnego w przeszłości utrudniał niektórym przedsiębiorstwom wdrażanie. Wraz z pojawieniem się chmury wielu dostawców usług w chmurze hostuje te usługi i zapewnia zarządzaną pomoc techniczną dla organizacji korzystających z technologii systemu operacyjnego. Ta propozycja jest atrakcyjna dla organizacji, aby czerpać korzyści z systemu operacyjnego bez ponoszenia kosztów zarządzania i wspierania go. Często system operacyjny jest widoczny w przestrzeni danych big data. W tej przestrzeni istnieje wiele technologii nie tylko do przetwarzania i przechowywania danych, ale także do wykonywania analiz. Analiza systemu operacyjnego umożliwia wielochmurową, otwartą strategię aplikacji, która nie jest powiązana z jednym dostawcą chmury. Zapewnia przenośność niezależnie od tego, czy trzeba przenosić rozwiązania ze środowiska lokalnego do chmury, czy między różnymi dostawcami usług w chmurze.
Jedną z podstawowych technologii analitycznych systemu operacyjnego używanych w rozwiązaniach do obsługi danych big data jest platforma Hadoop. Zwykle przechowuje dane w rozproszonym systemie plików Hadoop (HDFS) i używa klastra komputerów towarowych z modelem programowania o nazwie MapReduce. Ten model programowania umożliwia rozproszone przetwarzanie dużych zestawów danych w liniowym przepływie danych. W celu zwiększenia wydajności platforma Apache Spark opiera się na możliwościach architektury platformy Hadoop, ale zastępuje model MapReduce odpornym rozproszonym zestawem danych (RDD). RDD zapewnia aparat danych w pamięci, który jest znacznie szybszy.
Warto zauważyć, że analiza systemu operacyjnego wykracza poza tradycyjną aplikację rozwiązań do obsługi danych big data za pomocą usług Hadoop i Spark. Analiza systemu operacyjnego obejmuje teraz szeroką gamę oprogramowania, w tym następujące:
- Kafka i Flink na potrzeby scenariuszy przesyłania strumieniowego
- Presto i Kylin jako warstwy abstrakcji SQL
- Warstwy sztucznej inteligencji dodane za pomocą H20.ai i dataiku
Azure HDInsight jest zarządzaną usługą analityczną typu „open source” w chmurze o szerokim zakresie, z przeznaczeniem dla przedsiębiorstw. W firmie Microsoft analiza systemu operacyjnego jest implementowana w usłudze Azure HDInsight. Możesz użyć platform typu open source, takich jak Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka. Uzyskasz również korzyści z zabezpieczeń na poziomie przedsiębiorstwa, możliwości monitorowania i opcji wysokiej dostępności, które będą oczekiwane z poziomu usługi hostowanej na platformie Azure. Usługa Azure HDInsight jest również rozszerzalna i dostosowywalna do obsługi wielu scenariuszy klientów.