Co to jest inżynieria danych w usłudze Microsoft Fabric?

Artykuł
01/27/2025

Inżynieria danych w usłudze Microsoft Fabric umożliwia użytkownikom projektowanie, tworzenie i konserwowanie infrastruktury i systemów, które umożliwiają organizacjom zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.

Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do Twoich danych, które są dobrze zorganizowane i wysokiej jakości. Na stronie głównej inżynierii danych można wykonywać następujące czynności:

Tworzenie danych i zarządzanie nimi przy użyciu usługi Lakehouse
Projektowanie potoków w celu skopiowania danych do usługi Lakehouse
Użyj definicji zadań Spark do przesyłania zadań wsadowych lub strumieniowych do klastra Spark.
Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych

Lakehouse

Usługa Lakehouse to architektury danych, które umożliwiają organizacjom przechowywanie danych ustrukturyzowanych i nieustrukturyzowanych oraz zarządzanie nimi w jednej lokalizacji przy użyciu różnych narzędzi i struktur do przetwarzania i analizowania tych danych. Te narzędzia i struktury mogą obejmować zapytania i analizy oparte na języku SQL, a także uczenie maszynowe i inne zaawansowane techniki analizy.

Definicja zadania platformy Apache Spark

Definicje zadań platformy Spark to zestaw instrukcji definiujących sposób wykonywania zadania w klastrze Spark. Zawiera informacje, takie jak źródła danych wejściowych i wyjściowych, przekształcenia i ustawienia konfiguracji aplikacji Spark. Definicja zadania Spark umożliwia uruchamianie zadań wsadowych/przesyłania strumieniowego w klastrze Spark, stosowanie różnej logiki przekształcania do danych hostowanych w lakehouse oraz wiele innych rzeczy.

Notatnik

Notatniki to interaktywne środowisko obliczeniowe, które umożliwia użytkownikom tworzenie i udostępnianie dokumentów zawierających żywy kod, równania, wizualizacje i tekst narracyjny. Umożliwiają użytkownikom pisanie i wykonywanie kodu w różnych językach programowania, w tym Python, R i Scala. Notesy można używać do pozyskiwania, przygotowywania, analizy i innych zadań związanych z danymi.

Potok danych

Potoki danych to seria kroków, które mogą zbierać, przetwarzać i przekształcać dane z pierwotnej postaci do formatu, którego można użyć do analizy i podejmowania decyzji. Są one kluczowym składnikiem inżynierii danych, ponieważ zapewniają one sposób przenoszenia danych ze źródła do miejsca docelowego w niezawodny, skalowalny i wydajny sposób.

Można bezpłatnie korzystać z inżynierii danych w usłudze Microsoft Fabric po zarejestrowaniu się dla wersji próbnej Fabric. Możesz również kupić pojemność usługi Microsoft Fabric lub pojemność zarezerwowaną usługi Fabric

Wprowadzenie do inżynierii danych:

Aby dowiedzieć się więcej o lakehouse'ach, zobacz Czym jest lakehouse w usłudze Microsoft Fabric?
Aby rozpocząć pracę z jeziorowcem, sprawdź Create a lakehouse in Microsoft Fabric.
Aby dowiedzieć się więcej o definicjach zadań platformy Apache Spark, zobacz Co to jest definicja zadania platformy Apache Spark?
Aby rozpocząć pracę z definicją zadania platformy Apache Spark, zobacz Jak utworzyć definicję zadania platformy Apache Spark w usłudze Fabric.
Aby dowiedzieć się więcej na temat notesów, zobacz Author i wykonaj notatnik.
Aby rozpocząć pracę z zadaniem kopiowania w ramach przepływu pracy, zapoznaj się z Jak kopiować dane przy użyciu zadania kopiowania.

Udostępnij za pośrednictwem

Co to jest inżynieria danych w usłudze Microsoft Fabric?

Lakehouse

Definicja zadania platformy Apache Spark

Notatnik

Potok danych

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Co to jest inżynieria danych w usłudze Microsoft Fabric?

Lakehouse

Definicja zadania platformy Apache Spark

Notatnik

Potok danych

Powiązana zawartość

Opinia

Dodatkowe zasoby