Корпорация Майкрософт гордится поддержкой проектов с открытым исходным кодом, инициатив и фондов и способствует тысячам сообществ с открытым кодом. Используя технологии с открытым кодом в Azure, вы можете запускать приложения таким образом при оптимизации инвестиций.
В этой статье содержится сводка по архитектуре и решениям, которые используют Azure вместе с решениями с открытым кодом Apache.
® Apache, Apache Cassandra, Apache CouchDB, Apache Hadoop, Apache HBase, Apache Hive, Apache Ignite, Apache JMeter, Apache Kafka, Apache MapReduce, Apache Oozie, Apache Solr, Apache Solr, Apache Spark, Apache Sqoop, Apache ZooKeeper и логотип пламени являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в Соединенных Штатах и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.
Ознакомьтесь с руководством по способам разделения секций данных для реализации отдельного управления и доступа. Изучите стратегии горизонтального, вертикального и функционального секционирования. Cassandra идеально подходит для вертикального разделения.
Сведения о нереляционных базах данных, которые хранят данные в виде пар "ключ-значение", графов, временных рядов, объектов и других моделей хранения на основе требований к данным. Azure Cosmos DB для Apache Cassandra — это рекомендуемая служба Azure.
Изучите рекомендации по производительности для запуска Apache Cassandra на виртуальных машинах Azure. Используйте эти рекомендации в качестве базовых показателей для тестирования рабочей нагрузки.
Используйте проверенные методики в этой референтной архитектуре для улучшения резервирования, масштабируемости и производительности веб-приложения в службе приложений Azure. CouchDB — это рекомендуемая база данных документов.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. Кластеры Azure HDInsight Hadoop можно использовать для пакетной обработки.
Сведения о параметрах передачи данных Azure, таких как служба импорта и экспорта Azure, Azure Data Box, Фабрика данных Azure, а также средства командной строки и графического интерфейса. Экосистема Hadoop предоставляет средства для передачи данных.
Узнайте, как использовать Машинное обучение Azure и Power Platform для быстрого создания подтверждения концепции и рабочей версии машинного обучения. Azure Data Lake, файловая система, совместимая с Hadoop, хранит данные.
Узнайте о конвейерах преобразования данных extract-transform-load (ETL) и extract-load-transform (ELT), а также о том, как использовать потоки управления и потоки данных. Hadoop можно использовать в качестве целевого хранилища данных в процессах ELT.
Создайте предварительно заполненные представления по данным в одном или нескольких хранилищах данных, если данные не идеально форматируются для необходимых операций запроса. Используйте Hadoop для механизма хранения больших данных, поддерживающего индексирование.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. В этих сценариях можно использовать HBase для представления данных.
Узнайте об использовании HBase для случайного доступа и строгой согласованности для больших объемов неструктурированных и полуструктурированных данных.
Ознакомьтесь с рекомендациями по разделению секций данных, чтобы они могли управляться и получать доступ отдельно. Изучите стратегии горизонтального, вертикального и функционального секционирования. HBase идеально подходит для вертикального секционирования.
Сведения о нереляционных базах данных, которые хранят данные в виде пар "ключ-значение", графов, временных рядов, объектов и других моделей хранения на основе требований к данным. HBase можно использовать для данных столбцов и временных рядов.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. Hive можно использовать для пакетной обработки и представления данных в этих сценариях.
Узнайте о конвейерах преобразования данных ETL и ELT и о том, как использовать потоки управления и потоки данных. В ELT можно использовать Hive для запроса исходных данных. Его также можно использовать вместе с Hadoop в качестве хранилища данных.
Используйте имитированные и фактические приложения и существующие рабочие нагрузки для мониторинга реакции инфраструктуры решений на масштабируемость и производительность. Настраиваемое решение JMeter используется для нагрузочного тестирования.
Создавайте масштабируемые облачные приложения с помощью моделирования производительности и других принципов и рекомендаций по обеспечению надежности сайта при проектировании (SRE). JMeter используется для нагрузочного тестирования.
Узнайте о комплексном подходе изготовителя автомобильного оборудования (OEM). Включает несколько библиотек с открытым кодом, которые можно использовать повторно. Внутренние службы в этой архитектуре могут подключаться к Kafka.
Используйте имитированные и фактические приложения и существующие рабочие нагрузки для мониторинга реакции инфраструктуры решений на масштабируемость и производительность. События из Azure Event Hubs для Kafka поступают в систему.
Изучите паттерн Claim-Check, который разбивает большое сообщение на claim-check и полезную нагрузку, чтобы избежать перегрузки шины обмена сообщениями. Узнайте о примере, использующего Kafka для создания проверки утверждений.
Используйте AKS, чтобы легко принимать и обрабатывать поток данных в реальном времени с миллионами точек данных, собранных с помощью датчиков. Kafka хранит данные для анализа.
Создавайте конвейеры данных ETL для пакетных и потоковых данных с помощью Azure Databricks, чтобы упростить загрузку в Datalakes на любом уровне. Kafka — это один из вариантов приема данных.
Узнайте, как проектировать, разрабатывать и развертывать эффективный и масштабируемый код, работающий на функциях Azure и реагирующий на события Event Hubs Azure. Узнайте, как можно сохранять события в разделах Kafka.
Используйте Azure Data Explorer для анализа телеметрии Интернета вещей практически в реальном времени на высокоскоростные и объемные потоковые данные из различных источников данных, включая Kafka.
Используйте Qlik Replicate для переноса мейнфреймов и средних систем в облако или их расширения за счет облачных приложений. В этом решении Kafka хранит сведения журнала изменений, используемые для репликации хранилищ данных.
Узнайте о шаблонах и реализациях, используемых для преобразования банковской системы для облака. Масштабировщик Kafka используется для определения необходимости активации или деактивации развертывания приложения.
Узнайте о шаблоне издателя-подписчика, который позволяет приложению объявлять события многим заинтересованным потребителям асинхронно. Для обмена сообщениями рекомендуется использовать Kafka.
Используйте шаблон ограничения скорости, чтобы избежать или свести к минимуму ошибки регулирования. Этот шаблон может реализовать Kafka для обмена сообщениями.
Узнайте, как использовать автоматизированное решение рефакторинга COBOL из Advanced для модернизации приложений мейнфрейма COBOL, их запуска в Azure и снижения затрат. Kafka можно использовать в качестве источника данных.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. MapReduce можно использовать для пакетной обработки и предоставления функций для параллельных операций в этих сценариях.
Разверните внутренние службы в набор географических узлов, каждый из которых может обслуживать любой запрос клиента в любом регионе. Этот шаблон возникает в архитектурах больших данных, использующих MapReduce для консолидации результатов на компьютерах.
Следуйте этим рекомендациям, чтобы повысить масштабируемость, свести к минимуму координацию между службами приложений. Используйте MapReduce для разделения работы на независимые задачи.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. Вы можете использовать Oozie для оркестрации в этих сценариях.
Узнайте о возможностях хранилищ данных для поиска в Azure и ключевых критериях выбора, которые оптимально соответствуют вашим потребностям. Узнайте о ключевых возможностях HDInsight с Solr.
Узнайте, как использовать Службы данных Azure для создания современной платформы аналитики, способной обрабатывать наиболее распространенные проблемы с данными. Подсистема аналитики пулов Spark доступна из рабочих областей Azure Synapse.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. Spark можно использовать для пакетной или потоковой обработки и в качестве аналитического хранилища данных.
Узнайте о конвейерах преобразования данных extract-transform-load (ETL) и extract-load-transform (ELT), а также о том, как использовать потоки управления и потоки данных. В ELT можно использовать Spark для запроса исходных данных. Его также можно использовать вместе с Hadoop в качестве хранилища данных.
Сравните параметры для создания, развертывания и управления моделями машинного обучения, включая платформу аналитики на основе Azure Databricks Spark и SynapseML.
Используйте Azure Synapse, База данных SQL Azure и Azure Data Lake Storage для модернизации устаревших и локальных данных SMB. Средства в рабочей области Azure Synapse могут использовать возможности вычислений Spark для обработки данных.
Узнайте, как выбрать службу обработки естественного языка для анализа тональности, распознавания тем, распознавания языка, извлечения ключевых фраз и классификации документов. Узнайте о ключевых возможностях Azure HDInsight с Помощью Spark.
Узнайте, как использовать шаблоны наблюдения и метрики для повышения производительности обработки системы больших данных с помощью Azure Databricks. Библиотека мониторинга Azure Databricks передает события Spark и метрики структурированной потоковой передачи Spark из заданий.
Узнайте об архитектурах больших данных, которые обрабатывают прием, обработку и анализ данных, которые слишком большие или сложные для традиционных систем баз данных. В этих сценариях можно использовать Sqoop для автоматизации рабочих процессов оркестрации.
Используйте шаблон ограничения скорости, чтобы избежать или свести к минимуму ошибки регулирования. В этом сценарии вы можете использовать ZooKeeper для создания системы, которая предоставляет временные ресурсы для вычислительной мощности.