Udostępnij za pośrednictwem


Co to jest inżynieria danych w usłudze Microsoft Fabric?

Inżynieria danych w usłudze Microsoft Fabric umożliwia użytkownikom projektowanie, tworzenie i konserwowanie infrastruktury i systemów, które umożliwiają organizacjom zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.

Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do Twoich danych, które są dobrze zorganizowane i wysokiej jakości. Na stronie głównej inżynierii danych można wykonywać następujące czynności:

  • Tworzenie danych i zarządzanie nimi przy użyciu usługi Lakehouse

  • Projektowanie potoków w celu skopiowania danych do usługi Lakehouse

  • Użyj definicji zadań Spark do przesyłania zadań wsadowych lub strumieniowych do klastra Spark.

  • Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych

    zrzut ekranu przedstawiający obiekty inżynierii danych.

Lakehouse

Usługa Lakehouse to architektury danych, które umożliwiają organizacjom przechowywanie danych ustrukturyzowanych i nieustrukturyzowanych oraz zarządzanie nimi w jednej lokalizacji przy użyciu różnych narzędzi i struktur do przetwarzania i analizowania tych danych. Te narzędzia i struktury mogą obejmować zapytania i analizy oparte na języku SQL, a także uczenie maszynowe i inne zaawansowane techniki analizy.

Definicja zadania platformy Apache Spark

Definicje zadań platformy Spark to zestaw instrukcji definiujących sposób wykonywania zadania w klastrze Spark. Zawiera informacje, takie jak źródła danych wejściowych i wyjściowych, przekształcenia i ustawienia konfiguracji aplikacji Spark. Definicja zadania Spark umożliwia uruchamianie zadań wsadowych/przesyłania strumieniowego w klastrze Spark, stosowanie różnej logiki przekształcania do danych hostowanych w lakehouse oraz wiele innych rzeczy.

Notatnik

Notatniki to interaktywne środowisko obliczeniowe, które umożliwia użytkownikom tworzenie i udostępnianie dokumentów zawierających żywy kod, równania, wizualizacje i tekst narracyjny. Umożliwiają użytkownikom pisanie i wykonywanie kodu w różnych językach programowania, w tym Python, R i Scala. Notesy można używać do pozyskiwania, przygotowywania, analizy i innych zadań związanych z danymi.

Potok danych

Potoki danych to seria kroków, które mogą zbierać, przetwarzać i przekształcać dane z pierwotnej postaci do formatu, którego można użyć do analizy i podejmowania decyzji. Są one kluczowym składnikiem inżynierii danych, ponieważ zapewniają one sposób przenoszenia danych ze źródła do miejsca docelowego w niezawodny, skalowalny i wydajny sposób.

Można bezpłatnie korzystać z inżynierii danych w usłudze Microsoft Fabric po zarejestrowaniu się dla wersji próbnej Fabric. Możesz również kupić pojemność usługi Microsoft Fabric lub pojemność zarezerwowaną usługi Fabric

Wprowadzenie do inżynierii danych: