Terminologia dotycząca usługi Microsoft Fabric
Poznaj definicje terminów używanych w usłudze Microsoft Fabric, w tym terminy specyficzne dla magazynu danych sieci szkieletowej, inżynierowie danych sieci szkieletowej, Nauka o danych, analizy w czasie rzeczywistym, fabryki danych i usługi Power BI.
Ogólne terminy
Pojemność: Pojemność to dedykowany zestaw zasobów, który jest dostępny w danym momencie do użycia. Pojemność definiuje zdolność zasobu do wykonywania działania lub generowania danych wyjściowych. Różne elementy zużywają w określonym czasie inną pojemność. Sieć szkieletowa oferuje pojemność za pośrednictwem jednostki SKU sieci szkieletowej i wersji próbnych. Aby uzyskać więcej informacji, zobacz Co to jest pojemność?
Doświadczenie: Zbiór możliwości przeznaczonych dla określonej funkcjonalności. Środowiska sieci szkieletowej obejmują magazyn danych sieci szkieletowej, inżynierowie danych sieci szkieletowej, Nauka o danych sieci szkieletowej, inteligencję w czasie rzeczywistym, fabrykę danych i usługę Power BI.
Element: element zestaw możliwości w środowisku. Użytkownicy mogą tworzyć, edytować i usuwać je. Każdy typ elementu zapewnia różne możliwości. Na przykład środowisko inżynierowie danych obejmuje elementy definicji zadań lakehouse, notebook i Spark.
Dzierżawa: dzierżawa jest pojedynczym wystąpieniem usługi Fabric dla organizacji i jest zgodna z identyfikatorem Entra firmy Microsoft.
Obszar roboczy: Obszar roboczy to kolekcja elementów, które łączą różne funkcje w jednym środowisku zaprojektowanym do współpracy. Działa jako kontener, który używa pojemności do wykonywanej pracy i zapewnia kontrolę, kto może uzyskać dostęp do elementów w nim. Na przykład w obszarze roboczym użytkownicy tworzą raporty, notesy, modele semantyczne itp. Aby uzyskać więcej informacji, zobacz artykuł Obszary robocze .
Inżynierowie danych sieci szkieletowej
Lakehouse: Lakehouse to kolekcja plików, folderów i tabel reprezentujących bazę danych za pośrednictwem magazynu typu data lake używanego przez aparat Apache Spark i aparat SQL do przetwarzania danych big data. Usługa Lakehouse oferuje ulepszone możliwości transakcji ACID podczas korzystania z tabel w formacie delta typu open source. Element lakehouse jest hostowany w unikatowym folderze obszaru roboczego w usłudze Microsoft OneLake. Zawiera pliki w różnych formatach (ustrukturyzowanych i nieustrukturyzowanych) zorganizowanych w folderach i podfolderach. Aby uzyskać więcej informacji, zobacz Co to jest jezioro?
Notes: Notes usługi Fabric to wielojęzyczne interaktywne narzędzie do programowania z zaawansowanymi funkcjami. Obejmuje to tworzenie kodu i znaczników markdown, uruchamianie i monitorowanie zadania platformy Spark, wyświetlanie i wizualizowanie wyników oraz współpraca z zespołem. Pomaga to inżynierom danych i analitykom danych eksplorować i przetwarzać dane oraz tworzyć eksperymenty uczenia maszynowego zarówno przy użyciu kodu, jak i środowiska z małą ilością kodu. Można go łatwo przekształcić w działanie potoku na potrzeby orkiestracji.
Aplikacja Spark: aplikacja Platformy Apache Spark to program napisany przez użytkownika przy użyciu jednego z języków interfejsu API platformy Spark (Scala, Python, Spark SQL lub Java) lub języków dodanych przez firmę Microsoft (.NET z językiem C# lub F#). Po uruchomieniu aplikacji jest ona podzielona na jedno lub więcej zadań platformy Spark, które są uruchamiane równolegle w celu szybszego przetwarzania danych. Aby uzyskać więcej informacji, zobacz Monitorowanie aplikacji platformy Spark.
Zadanie platformy Apache Spark: zadanie platformy Spark jest częścią aplikacji Spark, która jest uruchamiana równolegle z innymi zadaniami w aplikacji. Zadanie składa się z wielu zadań. Aby uzyskać więcej informacji, zobacz Monitorowanie zadań platformy Spark.
Definicja zadania platformy Apache Spark: definicja zadania platformy Spark to zestaw parametrów ustawiony przez użytkownika, wskazujący, jak powinna być uruchamiana aplikacja Spark. Umożliwia przesyłanie zadań wsadowych lub przesyłanych strumieniowo do klastra Spark. Aby uzyskać więcej informacji, zobacz Co to jest definicja zadania platformy Apache Spark?
Kolejność maszyn wirtualnych: optymalizacja zapisu w formacie pliku parquet, która umożliwia szybkie odczyty i zapewnia oszczędność kosztów i lepszą wydajność. Wszystkie aparaty sieci szkieletowej domyślnie zapisują pliki parquet uporządkowane w wersji wirtualnej.
Data Factory
Łącznik: Usługa Data Factory oferuje bogaty zestaw łączników, które umożliwiają łączenie się z różnymi typami magazynów danych. Po nawiązaniu połączenia możesz przekształcić dane. Aby uzyskać więcej informacji, zobacz łączniki.
Potok danych: w usłudze Data Factory potok danych służy do organizowania przenoszenia i przekształcania danych. Te potoki różnią się od potoków wdrażania w sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Pipelines in the Data Factory overview (Potoki w omówieniu usługi Data Factory).
Dataflow Gen2: Przepływy danych zapewniają interfejs z małą ilością kodu do pozyskiwania danych z setek źródeł danych i przekształcania danych. Przepływy danych w sieci szkieletowej są określane jako Dataflow Gen2. Przepływ danych Gen1 istnieje w usłudze Power BI. Usługa Dataflow Gen2 oferuje dodatkowe możliwości w porównaniu z przepływami danych w usłudze Azure Data Factory lub Power BI. Nie można uaktualnić z wersji Gen1 do gen2. Aby uzyskać więcej informacji, zobacz Przepływy danych w omówieniu usługi Data Factory.
Wyzwalacz: możliwość automatyzacji w usłudze Data Factory, która inicjuje potoki na podstawie określonych warunków, takich jak harmonogramy lub dostępność danych.
Nauka o danych sieci szkieletowej
Data Wrangler: Data Wrangler to narzędzie oparte na notesach, które zapewnia użytkownikom immersyjne środowisko do przeprowadzania eksploracyjnej analizy danych. Ta funkcja łączy wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania i zestawem typowych operacji czyszczenia danych, które są dostępne z kilkoma wybranymi ikonami. Każda operacja generuje kod, który można zapisać z powrotem do notesu jako skrypt wielokrotnego użytku.
Eksperyment: Eksperyment uczenia maszynowego to podstawowa jednostka organizacji i kontroli dla wszystkich powiązanych przebiegów uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Eksperymenty uczenia maszynowego w usłudze Microsoft Fabric.
Model: Model uczenia maszynowego to plik wyszkolony do rozpoznawania niektórych typów wzorców. Wytrenujesz model na zestawie danych i udostępnisz mu algorytm, którego używa do wnioskowania i uczenia się z tego zestawu danych. Aby uzyskać więcej informacji, zobacz Model uczenia maszynowego.
Uruchom: przebieg odpowiada pojedynczemu wykonaniu kodu modelu. W środowisku MLflow śledzenie jest oparte na eksperymentach i przebiegach.
Magazyn danych sieci szkieletowej
Punkt końcowy analizy SQL: każdy magazyn lakehouse ma punkt końcowy analizy SQL, który umożliwia użytkownikowi wykonywanie zapytań dotyczących danych tabeli różnicowej za pomocą języka TSQL za pośrednictwem usługi TDS. Aby uzyskać więcej informacji, zobacz Punkt końcowy analizy SQL.
Magazyn danych sieci szkieletowej: magazyn danych sieci szkieletowej działa jako tradycyjny magazyn danych i obsługuje pełne transakcyjne możliwości języka T-SQL, których można oczekiwać od magazynu danych przedsiębiorstwa. Aby uzyskać więcej informacji, zobacz Magazyn danych sieci szkieletowej.
Analiza w czasie rzeczywistym
Aktywacja: Aktywacja to narzędzie bez kodu, które umożliwia tworzenie alertów, wyzwalaczy i akcji dotyczących danych bez kodu. Aktywacja służy do tworzenia alertów dotyczących strumieni danych. Aby uzyskać więcej informacji, zobacz Aktywacja.
Eventhouse: Eventhouses udostępnia rozwiązanie do obsługi i analizowania dużych ilości danych, szczególnie w scenariuszach wymagających analizy i eksploracji w czasie rzeczywistym. Są one zaprojektowane tak, aby efektywnie obsługiwały strumienie danych w czasie rzeczywistym, co umożliwia organizacjom pozyskiwanie, przetwarzanie i analizowanie danych niemal w czasie rzeczywistym. Pojedynczy obszar roboczy może przechowywać wiele magazynów zdarzeń, a magazyn zdarzeń może przechowywać wiele baz danych KQL, a każda baza danych może przechowywać wiele tabel. Aby uzyskać więcej informacji, zobacz Omówienie usługi Eventhouse.
Eventstream: funkcja strumieni zdarzeń usługi Microsoft Fabric udostępnia scentralizowane miejsce na platformie Sieci szkieletowej do przechwytywania, przekształcania i kierowania zdarzeń w czasie rzeczywistym do miejsc docelowych bez kodu. Strumień zdarzeń składa się z różnych źródeł danych przesyłania strumieniowego, miejsc docelowych pozyskiwania i procesora zdarzeń, gdy jest wymagana transformacja. Aby uzyskać więcej informacji, zobacz Microsoft Fabric eventstreams (Strumienie zdarzeń usługi Microsoft Fabric).
Baza danych KQL: baza danych KQL przechowuje dane w formacie, względem którego można wykonywać zapytania KQL. Bazy danych KQL są elementami w usłudze Eventhouse. Aby uzyskać więcej informacji, zobacz baza danych KQL.
Zestaw zapytań KQL: Zestaw zapytań KQL jest elementem używanym do uruchamiania zapytań, wyświetlania wyników i manipulowania wynikami zapytań na danych z bazy danych eksploratora danych. Zestaw zapytań zawiera bazy danych i tabele, zapytania i wyniki. Zestaw zapytań KQL umożliwia zapisywanie zapytań w celu użycia w przyszłości lub eksportowanie i udostępnianie zapytań innym osobom. Aby uzyskać więcej informacji, zobacz Query data in the KQL Queryset (Wykonywanie zapytań w zestawie zapytań KQL)
Centrum w czasie rzeczywistym
- Centrum czasu rzeczywistego: Centrum czasu rzeczywistego to jedno miejsce dla wszystkich danych w ruchu w całej organizacji. Każda dzierżawa usługi Microsoft Fabric jest automatycznie aprowizowana za pomocą centrum. Aby uzyskać więcej informacji, zobacz Omówienie centrum czasu rzeczywistego.
OneLake
- Skrót: Skróty są osadzonymi odwołaniami w usłudze OneLake wskazującymi inne lokalizacje magazynu plików. Zapewniają one sposób nawiązywania połączenia z istniejącymi danymi bez konieczności bezpośredniego kopiowania. Aby uzyskać więcej informacji, zobacz OneLake shortcuts (Skróty onelake).