Определение рабочих нагрузок Azure Databricks
Azure Databricks предоставляет возможности для различных рабочих нагрузок, включая Машинное обучение и большие языковые модели (LLM), Обработка и анализ данных, Инжиниринг данных, бизнес-аналитику и Хранилище данных и потоковую обработку.
Инжиниринг данных
Azure Databricks предоставляет возможности для специалистов по обработке данных и инженеров, которые должны совместно работать над сложными задачами обработки данных. Она предоставляет интегрированную среду с Apache Spark для обработки больших данных в озере данных и поддерживает несколько языков, включая Python, R, Scala и SQL. Платформа упрощает изучение данных, визуализацию и разработку конвейеров данных.
Машинное обучение
Azure Databricks поддерживает создание, обучение и развертывание моделей машинного обучения в большом масштабе. Она включает MLflow, платформу с открытым исходным кодом для управления жизненным циклом машинного обучения, включая экспериментирование, воспроизводимость и развертывание. Она также поддерживает различные платформы машинного обучения, такие как TensorFlow, PyTorch и Scikit-learn, что делает его универсальным для различных задач машинного обучения.
SQL
Аналитики данных, которые в основном взаимодействуют с данными через SQL, могут использовать хранилища SQL в Azure Databricks. Портал Azure Databricks предоставляет знакомый редактор SQL, панели мониторинга и средства автоматической визуализации для анализа и визуализации данных непосредственно в Azure Databricks. Эта рабочая нагрузка идеально подходит для выполнения быстрых нерегламентированных запросов и создания отчетов из больших наборов данных.