Общие сведения об Azure Data Lake Storage 2-го поколения

Завершено

Data Lake — это репозиторий данных, хранящихся в естественном формате, обычно в виде BLOB-объектов или файлов. Azure Data Lake Storage — это комплексное, масштабируемое, безопасное и экономичное решение озера данных для высокопроизводительной аналитики, встроенной в Azure.

Схема, представляющая файлы в Azure data Lake Storage 2-го поколения, доступ к которым осуществляется с помощью технологий больших данных.

Azure Data Lake Storage сочетает в себе файловую систему с платформой хранилища, позволяя быстро выявлять ценные сведения внутри данных. Data Lake Storage основывается на возможностях хранилища BLOB-объектов Azure, чтобы оптимизировать их специально для рабочих нагрузок аналитики. Такая интеграция обеспечивает производительность аналитики, возможности распределения по уровням и управления жизненным циклом данных хранилища BLOB-объектов, а также высокую доступность, безопасность и устойчивость службы хранилища Azure.

Льготы

Data Lake Storage предназначен для работы с этим разнообразием и объемом данных при масштабировании exabyte при безопасной обработке сотен гигабайт пропускной способности. Это позволяет использовать решение Data Lake Storage 2-го поколения в качестве основы для пакетных решений и решений реального времени.

Доступ, совместимый с Hadoop

Преимущество Data Lake Storage заключается в том, что данные можно рассматривать как будто они хранятся в распределенной файловой системе Hadoop (HDFS). Эта функция позволяет сохранять данные в одном месте и обращаться к ним через различные вычислительные технологии, включая Azure Databricks, Azure HDInsight и Azure Synapse Analytics, без перемещения данных между средами. Специалист по обработке данных также имеет возможность использовать механизмы хранения, такие как формат parquet, который очень сжимается и хорошо работает на нескольких платформах с помощью внутреннего хранилища столбцов.

Безопасность

Data Lake Storage поддерживает списки управления доступом (ACL) и разрешения переносимого интерфейса операционной системы (POSIX), которые не наследуют разрешения родительского каталога. На самом деле можно задать разрешения на уровне каталога или на уровне файла для данных, хранящихся в озере данных, обеспечивая гораздо более безопасную систему хранения. Эта безопасность настраивается с помощью таких технологий, как Hive и Spark или служебные программы, такие как обозреватель служба хранилища Azure, который работает в Windows, macOS и Linux. Все хранимые данные, находящиеся в неактивном состоянии, шифруются с помощью ключей, управляемых Майкрософт или клиентом.

Производительность

Решение Azure Data Lake Storage упорядочивает хранимые данные внутри иерархии каталогов и подкаталогов, по аналогии с файловой системой, что упрощает навигацию. В результате обработка данных требует меньше вычислительных ресурсов, снижая затрачиваемое время и расходы.

Избыточность данных

Data Lake Storage использует модели репликации BLOB-объектов Azure, обеспечивающие избыточность данных в одном центре обработки данных с локальным избыточным хранилищем (LRS) или в дополнительный регион с помощью параметра геоизбыточного хранилища (GRS). Эта функция обеспечивает постоянную доступность и защиту ваших данных в случае катастрофы.

Совет

При планировании озера данных инженер данных должен учитывать структуру, управление данными и безопасность. Это должно включать в себя рассмотрение факторов, которые могут повлиять на структуру озера и организацию, например:

  • Типы данных для хранения
  • Преобразование данных
  • Кто должен получить доступ к данным
  • Что такое типичные шаблоны доступа

Этот подход поможет определить, как спланировать управление доступом по всему озеру. Инженеры данных должны быть упреждающими в обеспечении того, чтобы озеро не стало пресловутым болотом данных, которое становится недоступным и не полезным для пользователей из-за отсутствия мер управления данными и качества данных. Создание базовых показателей и следующих рекомендаций для Azure Data Lake поможет обеспечить правильную и надежную реализацию, которая позволит организации расти и получать аналитические сведения для достижения большего.