Поделиться через


Интеграция Microsoft Purview и CluedIn для управления данными master (MDM)

Эта архитектура CluedIn предоставляет компаниям метрики о качестве данных, которые она получает, интеллектуально обнаруживая грязное данные и подготавливая их к очистке инженерами данных и стюардами данных. Собственные нечеткие алгоритмы машинного обучения логики помогают бизнес-пользователям и кураторам маркировать данные, а также обучать систему выявлять, исправлять и предотвращать проблемы с качеством данных с течением времени.

Архитектура

Схема, показывающая архитектурную структуру и поток данных CluedIn.

Поток данных

Решение CluedIn состоит из различных функциональных слоев, которые выполняются в кластере Kubernetes в Служба Azure Kubernetes (AKS). Сочетание приложений микрослужб .NET Core обрабатывает различные функции, такие как прием данных, потоковая обработка данных, постановка в очередь и пользовательский интерфейс.

  1. Уровень обхода CluedIn прием данных из облачных источников клиентов, таких как Azure SQL DB, Azure Cosmos DB, PostgreSQL и Salesforce, через соединители Фабрика данных Azure.

    CluedIn также принимает входные данные из локальных доступных систем, таких как SAP, Oracle, IBM и Hadoop, или может использовать локальные агенты для обхода непубличных данных.

  2. Служебная шина предприятия подключается через порты 5672 и 15672 для конечных точек администрирования. Сканеры отправляют данные в шину, а уровень обработки использует данные из шины через порт 5672.

  3. Уровень журнала транзакций принимает результаты из уровня обработки.

  4. На уровне сохраняемости базы данных используют данные из журнала транзакций и сохраняют их, чтобы обеспечить итоговую согласованность в разных хранилищах данных. Все хранилища работают в режиме высокой доступности.

    В отличие от виртуализации данных, уровень сохраняемости CluedIn приемывает части исходных данных и сохраняет версию данных с наивысшей точностью и их структуру. Такая высокая точность означает, что Структура данных CluedIn может обслуживать бизнес-запросы на данные в любом формате или модели.

  5. Уровень абстракции данных подключается к различным хранилищам данных через порты для каждого хранилища.

  6. Доступ к данным осуществляется через вызовы GraphQL, REST и WebSocket через порт 443. GraphQL и REST используют модель по запросу, а WebSockets — модель отправки.

    CluedIn защищает доступ к данным путем регулирования и предотвращения подделки межсайтовых запросов (CSRF).

  7. Веб-приложение CluedIn ASP.NET Core обменивается данными через сочетание вызовов REST и GraphQL через порт 443.

    При обмене данными из браузера в приложение используется набор определений входящего трафика, для которых требуется только один общедоступный IP-адрес. В рабочей среде весь обмен данными осуществляется по протоколу SSL.

  8. Приложение CluedIn предоставляет очищенные, обработанные данные для аналитических служб, таких как Power BI и Azure Synapse Analytics, для создания аналитических сведений. Система резервирует и сохраняет все данные в базах данных SQL или Redis.

Компоненты

CluedIn работает на Служба Azure Kubernetes (AKS) — высокодоступной, безопасной и полностью управляемой службе Kubernetes для развертывания контейнерных приложений и управления ими. AKS предлагает бессерверные Kubernetes, интегрированные CI/CD, а также безопасность и управление корпоративного уровня.

CluedIn использует и поддерживает множество источников и служб баз данных, в том числе:

  • Azure SQL База данных— управляемая облачная служба реляционных баз данных, которая всегда обновляется и может автоматически масштабировать ресурсы по запросу.
  • Управляемый экземпляр SQL Azure для обеспечения широкой совместимости подсистемы SQL Server с существующими приложениями SQL Server. Управляемый экземпляр SQL предоставляет локальные инфраструктуры баз данных с облачными преимуществами Azure, такими как эластичное масштабирование, унифицированное управление и облачная модель выставления счетов.
  • Azure Cosmos DB — полностью управляемая, нереляционная бессерверная база данных NoSQL для разработки современных приложений.
  • Azure Data Lake — масштабируемое хранилище данных и служба аналитики.
  • Фабрика данных Azure, полностью управляемое бессерверное решение интеграции данных для приема, подготовки и преобразования данных в большом масштабе. CluedIn использует более 90 встроенных соединителей фабрики данных для получения данных из таких источников, как Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow и всех служб данных Azure.

CluedIn предоставляет обработанные, управляемые данные для многих приложений и служб аналитики, в том числе:

  • Azure Databricks — быстрая, простая и совместная служба аналитики на основе Apache Spark.
  • Azure Synapse Analytics — это служба безграничной аналитики, которая объединяет корпоративные хранилища данных и аналитику больших данных.
  • Log Analytics — средство портал Azure для редактирования, выполнения и анализа запросов из данных журнала Azure Monitor.
  • Azure Cognitive Services — это комплексное семейство служб ИИ и когнитивных API для создания интеллектуальных приложений.
  • Power BI — служба бизнес-аналитики Майкрософт, сочетающая интерактивные визуализации и бизнес-аналитику с простым в использовании интерфейсом создания отчетов.

Сведения о сценарии

Современные корпоративные компании основывают многие процессы и проекты на данных, но необработанные данные должны быть подготовлены к использованию. Все варианты использования данных, от расширенной аналитики до машинного обучения, требуют аналогичных процессов подготовки данных и внимания.

  1. Проекты данных начинаются с обнаружения данных, чтобы определить, где находится данные и какие системы они используют.
  2. Интеграция данных затем объединяет несколько источников данных в единый или подключенный набор данных.
  3. Следующим шагом является нормализация, стандартизация, согласование и очистка данных, чтобы компьютеры могли обрабатывать их равномерно, согласованно и с высокой точностью.
  4. Наконец, данные должны быть легко доступны для бизнес-потребностей.

Во время этих процессов система управления должна обеспечивать контроль данных и защиту конфиденциальности с четким владением, полной отслеживаемостью и журналом аудита источников, обработки и использования данных.

Платформа CluedIn инкапсулирует эти процессы и компоненты управления данными в согласованное, согласованное, комплексное решение master Управление данными (MDM). В Приложении CluedIn используется метод интеграции данных, называемый итоговой связью, который дает лучшие результаты, чем классические модели извлечения, преобразования, загрузки (ETL) или извлечения, загрузки, преобразования (ELT). Возможное подключение использует запросы GraphQL для удобного объединения данных из множества разрознованных источников данных.

При возможности подключения данные не объединяются или смешиваются при входе или загрузке в другие системы. Вместо этого Функция CluedIn загружает данные как есть и помеет записи с помощью метаданных. В конечном итоге записи с теми же тегами объединяются или создают связь в графе.

Этот сложный метод объединения данных служит основой для решений на основе данных. Структура данных CluedIn интегрирует данные в конвейер, который очищает, подготавливает, моделирует, управляет, обогащает, дедупликирует и каталогизирует данные, чтобы сделать их доступными и доступными для бизнеса.

Компания CluedIn предоставляет предприятиям метрики о качестве данных, которые он получает, интеллектуально обнаруживая грязное данные и подготавливая их к очистке инженерами данных и стюардами данных. Собственные нечеткие алгоритмы машинного обучения логики помогают бизнес-пользователям и кураторам маркировать данные, а также обучать систему выявлять, исправлять и предотвращать проблемы с качеством данных с течением времени.

CluedIn включает в себя систему управления корпоративного уровня, чтобы гарантировать безопасное и надежное использование данных. CluedIn может передавать очищенные управляемые данные непосредственно в системы анализа, такие как Power BI, Azure Databricks, Azure Synapse Analytics или Azure Cognitive Services, чтобы сделать их доступными для остальной части бизнеса. Встроенная поддержка автомасштабирования использует возможности Azure для предоставления масштабируемой среды для крупнейших рабочих нагрузок данных.

Возможные варианты использования

Создание единого представления данных

  • Благодаря семантикическому моделированию в Приложении CluedIn создание единого представления основных данных упрощается по сравнению с традиционными подходами. Клиенты CluedIn используют CluedIn для создания подключенного, исторического и высококачественного представления наиболее важных бизнес-данных. CluedIn поддерживает не только мастеринг классических главных доменов, таких как Люди, компании, поставщики и продукты, но и бесконечное количество различных доменов, а также неструктурированных доменов, таких как файлы, почта, события и многое другое. Если вам требуется централизованный репозиторий master данных, которые являются чистыми, обогащенными, управляемыми, контролируемыми и каталогизированными, то Функция CluedIn хорошо подходит для ваших вариантов использования.

Структура данных

  • CluedIn — это холодный поставщик Gartner в 2020 году, благодаря его способности оркестрировать данные из 10, 100 и 1000-х различных и сложных источников данных в единый концентратор данных. Если вам нужно легко отсортировать данные из множества различных источников данных, для этого в качестве структуры данных можно использовать CluedIn. Это может предоставить инфраструктуру потоковой передачи данных, которая также может упреждающе очищать и master данные по мере их передачи на подчиненных потребителей.

Сложное объединение и связывание данных master

  • Уникальный подход к моделированию данных в CluedIn использует графовую базу данных, которая позволяет объединять и связывать сложные данные с простотой. В отличие от традиционных подходов, для решения этой задачи в CluedIn добавляется больше машинного обучения и аналитики графов для объединения, сопоставления и связывания записей с высокой точностью.

Рекомендации

Эти рекомендации реализуют основные принципы Azure Well-Architected Framework, которая представляет собой набор руководящих принципов, которые можно использовать для повышения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Надежность

Надежность гарантирует, что приложение может выполнять обязательства, которые вы выполняете перед клиентами. Дополнительные сведения см. в статье Общие сведения о принципах надежности.

  • Функция CluedIn автоматически создает ежедневные резервные копии базы данных и по умолчанию сохраняет их в долгосрочном хранилище в течение 30 дней. Вся платформа основана на избыточных отказоустойчивых стеках, которые поддерживают резервные копии для всех подсистем. Круглосуточные системы мониторинга гарантируют, что службы являются как можно более неинтированными. CluedIn следует отраслевым стандартным методикам обеспечения избыточности инфраструктуры.

  • Функция CluedIn отображает и сохраняет только представление данных, а не исходную версию. Если Функция CluedIn обнаруживает разрушительное вторжение данных, она может временно очистить данные CluedIn с серверов. После того как вторжение утихнет, CluedIn перезадает данные, чтобы вернуться в исходное состояние.

  • Все хранилища данных работают в режиме высокой доступности.

Масштабируемость

  • CluedIn выполняется в контейнерах Docker и использует Kubernetes для размещения и оркестрации различных частей приложения. Эта архитектура означает, что Приложение CluedIn хорошо работает в эластичных средах и может автоматически масштабироваться до необходимых размеров и инфраструктуры.

  • Встроенная поддержка автомасштабирования применяет возможности Azure для предоставления масштабируемой среды для крупнейших рабочих нагрузок данных.

  • Моделирование графов без схемы автоматически выводит модель данных из исходных данных. Новые источники данных автоматически подключаются ко всем другим источникам данных, а не должны быть явно интегрированы. Количество источников данных может бесконечно масштабироваться без увеличения сложности интеграции.

Безопасность

Безопасность обеспечивает гарантии от преднамеренных атак и злоупотребления ценными данными и системами. Дополнительные сведения см. в статье Общие сведения о принципах безопасности.

  • Система безопасности CluedIn предоставляет разрешения и управляет доступом к различным службам с помощью Azure RBAC, с помощью azure Key Vault управления ключами безопасности и отслеживания и ведения журнала доступа Azure Monitor.

  • Помимо учетных записей пользователей, прошедших проверку подлинности, CluedIn также поддерживает платформы единого входа и удостоверений. Запросы к приложению CluedIn используют зашифрованные маркеры доступа, которые не имеют корреляции с удостоверением пользователя.

  • CluedIn управляет сохраненными представлениями данных за несколькими уровнями брандмауэра и прокси-сервера и проверяет их подлинность с помощью набора уникальных ключей.

  • CluedIn хранит все исходные данные с 256-разрядным шифрованием AES, которое сильнее или равно уровню шифрования поддерживаемых источников данных.

  • Регулирование и предотвращение CSRF защищают доступ к данным.

DevOps

  • CluedIn использует конвейеры непрерывной интеграции и непрерывной поставки (CI/CD) Azure Pipelines для обработки развертываний и последовательного обновления среды AKS.

  • CluedIn поддерживает модульное, интеграционное и функциональное тестирование, чтобы гарантировать, что данные преобразуются должным образом. Виртуализированные конвейеры обработки могут выполняться в памяти для тестирования песочницы. Утверждения производственного уровня могут помочь в отладке и отслеживании проблем с данными.

  • Для тестирования и рабочих сред CluedIn предоставляет диаграмму диспетчера пакетов Helm для быстрой установки CluedIn в кластере Kubernetes. Процессы развертывания данных с полными скриптами поддерживают установку, тестирование и развертывание.

Оптимизация затрат

Оптимизация затрат — это поиск способов сокращения ненужных расходов и повышения операционной эффективности. Дополнительные сведения см. в статье Общие сведения о принципе оптимизации затрат.

Цены на CluedIn открыты и прозрачны. Вы можете увидеть цены на их веб-сайте.

Изменение размера и запуск пробной версии в Azure

Вы можете начать 7-дневную пробную версию CluedIn на своем веб-сайте, что также поможет вам область затраты на размещение Azure с помощью предварительно созданных оценок Azure для сред разного размера.

Развертывание этого сценария

  • Сведения о развертывании CluedIn для разработки и оценки с помощью Docker см. в разделе CluedIn с Docker.

  • Сведения о быстрой установке CluedIn в кластере Kubernetes см. в статье CluedIn с Kubernetes. Диаграмма Helm устанавливает сервер, веб-сайт и другие необходимые службы, такие как хранилище и очереди.

Дальнейшие действия