Поделиться через


Рекомендации по управлению данными и ИИ

В этой статье рассматриваются рекомендации по управлению данными и ИИ, организованные по принципам архитектуры, перечисленным в следующих разделах.

1. Объединение данных и управления ИИ

Создание процесса управления данными и ИИ

Управление данными и ИИ — это управление доступностью, удобством использования, целостностью и безопасностью данных организации и ресурсами ИИ. Благодаря укреплению управления данными и ИИ организации могут обеспечить качество ресурсов, критически важных для точной аналитики и принятия решений, помочь определить новые возможности, повысить удовлетворенность клиентов и в конечном итоге увеличить доход. Она помогает организациям соблюдать правила конфиденциальности ИИ и улучшать меры безопасности, уменьшая риск нарушений данных и штрафов. Эффективное управление данными и ИИ также устраняет избыточность и упрощает управление данными, что приводит к экономии затрат и повышению эффективности работы.

Может потребоваться выбрать, какая модель управления подходит для них лучше всего:

  • В централизованной модели управления администраторы управления являются владельцами хранилища метаданных и могут взять на себя ответственность за любой объект и предоставить и отозвать разрешения.
  • В модели распределенного управления каталог или набор каталогов является доменом данных. Владелец этого каталога может создавать и владеть всеми ресурсами и управлять управлением в этом домене. Владельцы любого заданного домена могут работать независимо от владельцев других доменов.

Каталог решений Unity для управления данными и ИИ интегрирован в платформу Databricks Data Intelligence. Она поддерживает модели управления и помогает легко управлять структурированными и неструктурированными данными, моделями машинного обучения, записными книжками, панелями мониторинга и файлами в любом облаке или платформе. Рекомендации по каталогу Unity помогают реализовать управление данными и ИИ.

Управление метаданными для всех ресурсов ИИ и данных в одном месте

Преимущества управления метаданными для всех ресурсов в одном месте похожи на преимущества поддержания единого источника истины для всех ваших данных. К ним относятся снижение избыточности данных, повышение целостности данных и устранение недоразумений из-за различных определений или таксономий. Кроме того, проще реализовать глобальные политики, стандарты и правила с одним источником.

В качестве рекомендации запустите lakehouse в одной учетной записи с каталогом Unity. Каталог Unity может управлять данными и томами (произвольными файлами), а также ресурсами ИИ, такими как функции и модели ИИ. Контейнер верхнего уровня объектов в каталоге Unity — это хранилище метаданных. Он хранит ресурсы данных (например, таблицы и представления) и разрешения, которые управляют доступом к ним. Используйте одно хранилище метаданных для каждого облачного региона и не обращается к хранилищам метаданных в разных регионах, чтобы избежать проблем с задержкой.

Хранилище метаданных предоставляет трехуровневое пространство имен для структуры данных, томов и ресурсов ИИ:

Databricks рекомендует использовать каталоги для разделения между информационной архитектурой вашей организации. Часто это означает, что каталоги могут соответствовать области среды разработки программного обеспечения, команде или подразделению.

Отслеживание данных и происхождения ИИ для обеспечения видимости данных

Происхождение данных — это мощный инструмент, помогающий руководителям данных получить более высокую видимость и понимание данных в своих организациях. Происхождение данных описывает преобразование и уточнение данных из источника в аналитические сведения. Он включает в себя сбор всех соответствующих метаданных и событий, связанных с данными на протяжении всего жизненного цикла, включая источник набора данных, какие другие наборы данных использовались для его создания, кто создал его и когда, какие преобразования были выполнены, какие другие наборы данных используют его, и многие другие события и атрибуты.

Кроме того, при обучении модели в таблице в каталоге Unity можно отслеживать происхождение модели к вышестоящим наборам данных, на которых она была обучена и оценена.

Происхождение можно использовать для многих вариантов использования, связанных с данными:

  • Готовность к соответствию требованиям и аудиту. Происхождение данных помогает организациям отслеживать источник таблиц и полей. Это важно для удовлетворения требований многих нормативных требований, таких как Общее регулирование по защите данных (GDPR), Закон о конфиденциальности потребителей Калифорнии (CCPA), закон о переносимости медицинского страхования и подотчетности (HIPAA), Базельский комитет по банковскому надзору (BCBS) 239, и Сарбанес-Оксли Закон (SOX).
  • Управление анализом влияния и изменением: данные проходят несколько преобразований из источника в окончательную бизнес-таблицу. Понимание потенциального влияния изменений данных на подчиненных пользователей становится важным с точки зрения управления рисками. Это влияние можно легко определить с помощью происхождения данных, захваченного каталогом Unity.
  • Обеспечение качества данных. Понимание того, откуда поступил набор данных и какие преобразования были применены, обеспечивает гораздо лучший контекст для специалистов по обработке и анализу данных, что позволяет им получить более точные и точные аналитические сведения.
  • Отладка и диагностика. В случае неожиданного результата происхождение данных помогает командам данных выполнять анализ первопричин, трассируя ошибку обратно в источник. Это значительно сокращает время устранения неполадок.

Каталог Unity фиксирует происхождение данных среды выполнения в запросах, выполняемых в Azure Databricks, а также происхождения моделей. Происхождение поддерживается для всех языков и записывается до уровня столбца. Данные происхождения включают записные книжки, задания и панели мониторинга, связанные с запросом. Происхождение можно визуализировать практически в реальном времени в обозревателе каталогов и получить к ним доступ с помощью REST API Databricks.

Добавление согласованных описаний в метаданные

Описания предоставляют важный контекст для данных. Они помогают пользователям понять назначение и содержимое таблиц данных и столбцов. Эта ясность позволяет им проще обнаруживать, определять и фильтровать необходимые данные, что крайне важно для эффективного анализа данных и принятия решений. Описания могут включать сведения о конфиденциальности данных и соответствии требованиям. Это помогает организациям соответствовать юридическим и нормативным требованиям к конфиденциальности и безопасности данных. Описания также должны содержать сведения об источнике, точности и релевантности данных. Это помогает обеспечить целостность данных и повысить эффективность совместной работы между командами.

Две основные функции в каталоге Unity поддерживают описание таблиц и столбцов. Каталог Unity позволяет

  • добавьте комментарии в таблицы и столбцы в виде комментариев.

    Вы также можете добавить созданный ИИ комментарий для любого столбца таблицы или таблицы, управляемого каталогом Unity, чтобы ускорить процесс. Однако модели искусственного интеллекта не всегда являются точными, а перед сохранением необходимо проверить комментарии. Databricks настоятельно рекомендует человеческий обзор созданных ИИ комментариев, чтобы проверить наличие неточностей.

  • добавьте теги в любой защищаемый каталог Unity. Теги — это атрибуты с ключами и необязательными значениями, которые можно применить к разным защищаемым объектам в каталоге Unity. Теги полезны для организации и классификации различных защищаемых объектов в хранилище метаданных. Использование тегов также упрощает поиск и обнаружение ресурсов данных.

Разрешить простое обнаружение данных для потребителей данных

Простое обнаружение данных позволяет специалистам по обработке и анализу данных, а также инженерам по обработке и анализу данных быстро обнаруживать и ссылаться на соответствующие данные, а также ускорить время.

Обозреватель каталога Databricks предоставляет пользовательский интерфейс для изучения данных, схем (баз данных), таблиц и разрешений, владельцев данных, внешних расположений и учетных данных. Кроме того, вы можете использовать вкладку "Аналитика" в обозревателе каталогов для просмотра наиболее частых последних запросов и пользователей любой таблицы, зарегистрированной в каталоге Unity.

Управление ресурсами ИИ вместе с данными

Отношения между управлением данными и искусственным интеллектом (ИИ) стали критически важными для успеха. Как организации управляют, защищают и используют данные напрямую влияют на результаты и рекомендации по реализации ИИ: вы не можете использовать ИИ без качественных данных, и вы не можете иметь качественные данные без управления данными.

Управление данными и ИИ вместе повышает производительность ИИ, обеспечивая простой доступ к высококачественным, актуальным данным, что приводит к повышению точности и улучшению принятия решений. Разбиение силосов повышает эффективность, обеспечивая лучшую совместную работу и упрощение рабочих процессов, что приводит к увеличению производительности и снижению затрат.

Улучшенная безопасность данных является еще одним преимуществом, так как единый подход к управлению устанавливает согласованные методики обработки данных, уменьшая уязвимости и повышая способность организации защищать конфиденциальную информацию. Соответствие нормативным требованиям к конфиденциальности данных проще поддерживать при интеграции данных и управления ИИ, так как процессы обработки данных и искусственного интеллекта соответствуют нормативным требованиям.

В целом, единый подход к управлению способствует доверию между заинтересованными лицами и обеспечивает прозрачность процессов принятия решений по искусственному интеллекту путем установления четких политик и процедур как для данных, так и для ИИ.

На платформе аналитики данных Databricks каталог Unity является центральным компонентом для управления данными и ресурсами ИИ:

  • Функция в каталоге Unity

    В рабочих областях с поддержкой каталога Unity специалисты по обработке и анализу данных могут создавать таблицы функций в каталоге Unity. Эти таблицы функций — это разностные таблицы или разностные динамические таблицы , управляемые каталогом Unity.

  • Модели в каталоге Unity

    Модели в каталоге Unity расширяют преимущества каталога Unity до моделей машинного обучения, включая централизованное управление доступом, аудит, происхождение и обнаружение моделей в рабочих областях. Ключевые функции моделей в каталоге Unity включают управление моделями, хронологической происхождением моделей, управлением версиями моделей и развертыванием модели с помощью псевдонимов.

2. Объединение данных и безопасности ИИ

Централизованное управление доступом для всех данных и ресурсов ИИ

Централизованное управление доступом для всех ресурсов данных важно, так как это упрощает безопасность и управление ресурсами ИИ, предоставляя централизованное место для администрирования и аудита доступа к этим ресурсам. Этот подход помогает управлять доступом к данным и объектам ИИ более эффективно, обеспечивая соблюдение операционных требований к сегрегации обязанностей, что имеет решающее значение для соответствия нормативным требованиям и предотвращения рисков.

Платформа Databricks Data Intelligence предоставляет методы управления доступом к данным, описывающие группы или лица, к которым могут получить доступ. Это инструкции политики, к которым может быть очень детализирована и конкретна, вплоть до определения каждой записи, к которым имеется доступ каждый человек. Или они могут быть очень экспрессивными и широкими, например, все финансовые пользователи могут видеть все финансовые данные.

Каталог Unity централизованно управляет доступом для всех поддерживаемых защищаемых объектов , таких как таблицы, файлы, модели и многое другое. Каждый защищаемый объект в каталоге Unity имеет владельца. Владелец объекта имеет все привилегии для объекта, а также возможность предоставлять привилегии защищаемому объекту другим субъектам. Каталог Unity позволяет управлять привилегиями и настраивать управление доступом с помощью инструкций SQL DDL.

Каталог Unity использует фильтры строк и маски столбцов для точного управления доступом. Фильтры строк позволяют применять фильтр к таблице, чтобы последующие запросы возвращали только строки, для которых предикат фильтра оценивается как true. Маски столбцов позволяют применять функцию маскирования к столбцу таблицы. Функция маскирования вычисляется во время выполнения запроса, заменив каждую ссылку на целевой столбец результатами функции маскирования.

Дополнительные сведения см. в статье "Безопасность, соответствие требованиям и конфиденциальность". Управление удостоверениями и доступом с помощью минимальных привилегий.

Настройка ведения журналов аудита

Ведение журнала аудита важно, так как оно предоставляет подробную учетную запись системных действий (действий пользователей, изменений параметров и т. д.), которые могут повлиять на целостность системы. Хотя стандартные системные журналы предназначены для устранения неполадок разработчиками, журналы аудита предоставляют историческую запись действий для соответствия требованиям и других целей применения бизнес-политики. Поддержание надежных журналов аудита может помочь выявить и обеспечить готовность перед лицом угроз, нарушений, мошенничества и других системных проблем.

Databricks предоставляет доступ к журналам аудита действий, выполняемых пользователями Databricks, что позволяет вашей организации отслеживать подробные шаблоны использования Databricks. Существует два типа журналов, журналы аудита на уровне рабочей области с событиями на уровне рабочей области и журналами аудита на уровне учетной записи с событиями на уровне учетной записи.

Вы также можете включить подробные журналы аудита— это дополнительные журналы аудита, записанные при выполнении запроса или команды в рабочей области.

Аудит событий платформы данных

Ведение журнала аудита важно, так как оно предоставляет подробную учетную запись системных действий. Платформа аналитики данных содержит журналы аудита для доступа к метаданным (поэтому доступ к данным) и для общего доступа к данным:

  • Каталог Unity записывает журнал аудита действий, выполненных в хранилище метаданных. Это позволяет администраторам получать подробные сведения о том, кто получил доступ к заданному набору данных и какие действия они выполнили.
  • Для безопасного совместного использования с delta Sharing Azure Databricks предоставляет журналы аудита для мониторинга событий Delta Sharing, включая:
    • Когда кто-то создает, изменяет, обновляет или удаляет общую папку или получателя.
    • Когда получатель обращается к ссылке активации и скачивает учетные данные.
    • Когда получатель обращается к общим ресурсам или данным в общих таблицах.
    • При смене или истечении срока действия учетных данных получателя.

3. Создание стандартов качества данных

Платформа аналитики данных Databricks обеспечивает надежное управление качеством данных с помощью встроенных средств управления качеством, тестирования, мониторинга и применения, чтобы обеспечить доступность точных и полезных данных для подчиненных рабочих нагрузок бизнес-аналитики, аналитики и машинного обучения.

Сведения о реализации можно увидеть в разделе "Надежность" — управление качеством данных.

Определение четких стандартов качества данных

Определение четких и практических стандартов качества данных имеет решающее значение, так как это помогает гарантировать, что данные, используемые для анализа, отчетности и принятия решений, являются надежными и надежными. Документирование этих стандартов помогает убедиться, что они поддерживаются. Стандарты качества данных должны быть основаны на конкретных потребностях бизнеса и должны решать измерения качества данных, такие как точность, полнота, согласованность, своевременность и надежность:

  • Точность. Убедитесь, что данные точно отражают реальные значения.
  • Полнота. Все необходимые данные должны быть записаны, и критически важные данные не должны быть отсутствуют.
  • Согласованность. Данные во всех системах должны быть согласованными и не противоречить другим данным.
  • Своевременность. Данные должны быть обновлены и доступны своевременно.
  • Надежность: данные должны быть источником и обрабатываться таким образом, чтобы обеспечить ее зависимость.

Использование средств качества данных для профилирования, очистки, проверки и мониторинга данных

Используйте средства качества данных для профилирования, очистки, проверки и мониторинга данных. Эти средства помогают автоматизировать процессы обнаружения и исправления проблем с качеством данных, которые жизненно важны для масштабирования инициатив по качеству данных в больших наборах данных, типичных в озерах данных.

Для команд, использующих DLT, можно использовать ожидания для определения ограничений качества данных на содержимое набора данных. Ожидания позволяют гарантировать, что данные, поступающие в таблицы, соответствуют требованиям к качеству данных и предоставляют аналитические сведения о качестве данных для каждого обновления конвейера.

Реализация и применение стандартных форматов и определений данных

Стандартные форматы и определения данных помогают обеспечить согласованное представление данных во всех системах для упрощения интеграции и анализа данных, снижения затрат и улучшения принятия решений, повышая взаимодействие и совместную работу между командами и отделами. Она также помогает обеспечить структуру для создания и поддержания качества данных.

Разработка и применение стандартного словаря данных, включающего определения, форматы и допустимые значения для всех элементов данных, используемых в организации.

Используйте согласованные соглашения об именовании, форматы дат и единицы измерения во всех базах данных и приложениях, чтобы предотвратить несоответствия и путаницу.