Co to jest inżynieria danych w usłudze Microsoft Fabric?
Inżynieria danych w usłudze Microsoft Fabric umożliwia użytkownikom projektowanie, tworzenie i konserwowanie infrastruktury i systemów, które umożliwiają organizacjom zbieranie, przechowywanie, przetwarzanie i analizowanie dużych ilości danych.
Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do Twoich danych, które są dobrze zorganizowane i wysokiej jakości. Na stronie głównej inżynierii danych można wykonywać następujące czynności:
Tworzenie danych i zarządzanie nimi przy użyciu usługi Lakehouse
Projektowanie potoków w celu skopiowania danych do usługi Lakehouse
Użyj definicji zadań Spark do przesyłania zadań wsadowych lub strumieniowych do klastra Spark.
Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych
Lakehouse
Usługa Lakehouse to architektury danych, które umożliwiają organizacjom przechowywanie danych ustrukturyzowanych i nieustrukturyzowanych oraz zarządzanie nimi w jednej lokalizacji przy użyciu różnych narzędzi i struktur do przetwarzania i analizowania tych danych. Te narzędzia i struktury mogą obejmować zapytania i analizy oparte na języku SQL, a także uczenie maszynowe i inne zaawansowane techniki analizy.
Definicja zadania platformy Apache Spark
Definicje zadań platformy Spark to zestaw instrukcji definiujących sposób wykonywania zadania w klastrze Spark. Zawiera informacje, takie jak źródła danych wejściowych i wyjściowych, przekształcenia i ustawienia konfiguracji aplikacji Spark. Definicja zadania Spark umożliwia uruchamianie zadań wsadowych/przesyłania strumieniowego w klastrze Spark, stosowanie różnej logiki przekształcania do danych hostowanych w lakehouse oraz wiele innych rzeczy.
Notatnik
Notatniki to interaktywne środowisko obliczeniowe, które umożliwia użytkownikom tworzenie i udostępnianie dokumentów zawierających żywy kod, równania, wizualizacje i tekst narracyjny. Umożliwiają użytkownikom pisanie i wykonywanie kodu w różnych językach programowania, w tym Python, R i Scala. Notesy można używać do pozyskiwania, przygotowywania, analizy i innych zadań związanych z danymi.
Potok danych
Potoki danych to seria kroków, które mogą zbierać, przetwarzać i przekształcać dane z pierwotnej postaci do formatu, którego można użyć do analizy i podejmowania decyzji. Są one kluczowym składnikiem inżynierii danych, ponieważ zapewniają one sposób przenoszenia danych ze źródła do miejsca docelowego w niezawodny, skalowalny i wydajny sposób.
Można bezpłatnie korzystać z inżynierii danych w usłudze Microsoft Fabric po zarejestrowaniu się dla wersji próbnej Fabric. Możesz również kupić pojemność usługi Microsoft Fabric lub pojemność zarezerwowaną usługi Fabric
Powiązana zawartość
Wprowadzenie do inżynierii danych:
- Aby dowiedzieć się więcej o lakehouse'ach, zobacz Czym jest lakehouse w usłudze Microsoft Fabric?
- Aby rozpocząć pracę z jeziorowcem, sprawdź Create a lakehouse in Microsoft Fabric.
- Aby dowiedzieć się więcej o definicjach zadań platformy Apache Spark, zobacz Co to jest definicja zadania platformy Apache Spark?
- Aby rozpocząć pracę z definicją zadania platformy Apache Spark, zobacz Jak utworzyć definicję zadania platformy Apache Spark w usłudze Fabric.
- Aby dowiedzieć się więcej na temat notesów, zobacz Author i wykonaj notatnik.
- Aby rozpocząć pracę z zadaniem kopiowania w ramach przepływu pracy, zapoznaj się z Jak kopiować dane przy użyciu zadania kopiowania.