Nyheter och planer för Fabric-Dataingenjör i Microsoft Fabric

Artikel
11/20/2024

Viktigt!

I lanseringsplanerna beskrivs funktioner som kanske eller kanske inte har släppts ännu. Leveranstidslinjen och den planerade funktionen kan ändras eller kanske inte skickas. Mer information finns i Microsoft-principen.

Infrastrukturresurser Dataingenjör ing gör det möjligt för datatekniker att kunna transformera sina data i stor skala med hjälp av Spark och bygga ut sin lakehouse-arkitektur.

Lakehouse för alla dina organisationsdata: Lakehouse kombinerar det bästa av datasjön och informationslagret i en enda upplevelse. Det gör det möjligt för användare att mata in, förbereda och dela organisationsdata i ett öppet format i sjön. Senare kan du komma åt den via flera motorer som Spark, T-SQL och Power BI. Den innehåller olika alternativ för dataintegrering, till exempel dataflöden och pipelines, genvägar till externa datakällor och funktioner för delning av dataprodukter.

Performant Spark engine & runtime: Fabric Data Engineering ger kunderna en optimerad Spark-körning med de senaste versionerna av Spark, Delta och Python.. Den använder Delta Lake som det gemensamma tabellformatet för alla motorer, vilket möjliggör enkel datadelning och rapportering utan dataförflyttning. Körningen levereras med Spark-optimeringar, vilket förbättrar frågeprestandan utan några konfigurationer. Det erbjuder också startpooler och hög samtidighetsläge för att påskynda och återanvända spark-sessioner, vilket sparar tid och kostnad.

Spark Admin och konfigurationer: Arbetsyteadministratörer med lämpliga behörigheter kan skapa och konfigurera anpassade pooler för att optimera prestanda och kostnader för sina Spark-arbetsbelastningar. Skapare kan konfigurera miljöer för att installera bibliotek, välja körningsversion och ange Spark-egenskaper för sina notebook-filer och Spark-jobb.

Utvecklarupplevelse: Utvecklare kan använda notebook-filer, Spark-jobb eller önskad IDE för att skapa och köra Spark-kod i Fabric. De kan komma åt lakehouse-data internt, samarbeta med andra, installera bibliotek, spåra historik, utföra intern övervakning och få rekommendationer från Spark-rådgivaren. De kan också använda Data Wrangler för att enkelt förbereda data med ett lågkodsgränssnitt.

Plattformsintegrering: Alla infrastrukturdatateknikobjekt, inklusive notebook-filer, Spark-jobb, miljöer och lakehouses, är djupt integrerade i Infrastrukturplattformen (funktioner för hantering av företagsinformation, ursprung, känslighetsetiketter och godkännanden).

Investeringsområden

Funktion	Uppskattad tidslinje för lansering
Python-notebook-fil	Q4 2024
ArcGIS GeoAnalytics för Microsoft Fabric Spark	Q4 2024
Installera bibliotek från ADLS Gen2 Storage-konto	Q4 2024
Liveversion av notebook-filer	Q1 2025
VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser	Q1 2025
Användardatafunktioner i infrastrukturresurser	Q1 2025
API:er för offentlig övervakning	Q1 2025
Lakehouse Shortcuts-metadata på git- och distributionspipelines	Q1 2025
Delta Lake-förbättringar i Spark-upplevelser	Q1 2025
Stöd för ögonblicksbilder av pågående Notebook-jobb	Q1 2025
RLS/CLS-stöd för Spark och Lakehouse	Q1 2025
Spark Connector för Fabric Data Warehouse – allmän tillgänglighet	Q1 2025
Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse	Levererad (Q4 2024)
Notebook-filer i en app	Levererad (Q4 2024)
VSCode Core-tillägg för Infrastrukturresurser	Levererad (Q3 2024)
T-SQL-notebook-fil	Levererad (Q3 2024)
VS Code för webben – felsökningsstöd	Levererad (Q3 2024)
Hög samtidighet i pipelines	Levererad (Q3 2024)
Schemastöd och arbetsyta i namnrymd i Lakehouse	Levererad (Q3 2024)
Inbyggd Spark-körningsmotor	Levererad (Q2 2024)
Spark Connector för Fabric Data Warehouse	Levererad (Q2 2024)
Microsoft Fabric API för GraphQL	Levererad (Q2 2024)
Skapa och koppla miljöer	Levererad (Q2 2024)
Jobbkö för notebook-jobb	Levererad (Q2 2024)
Optimistisk jobbinträde för Fabric Spark	Levererad (Q2 2024)
Autotune för Spark	Levererad (Q1 2024)

Python-notebook-fil

Uppskattad tidslinje för lansering: Q4 2024

Versionstyp: Offentlig förhandsversion

Fabric Notebooks stöder ren Python-upplevelse. Den här nya lösningen riktar sig till BI-utvecklare och Dataforskare som arbetar med mindre datamängder (upp till några GB) och använder Pandas och Python som primärt språk. Med den här nya upplevelsen kommer de att kunna dra nytta av det inbyggda Python-språket och dess inbyggda funktioner och bibliotek, kommer att kunna växla från en Python-version till en annan (till en början kommer två versioner att stödjas) och slutligen dra nytta av en bättre resursanvändning med hjälp av en mindre 2VCore-dator.

ArcGIS GeoAnalytics för Microsoft Fabric Spark

Uppskattad tidslinje för lansering: Q4 2024

Versionstyp: Offentlig förhandsversion

Microsoft och Esri har samarbetat för att få rumslig analys till Microsoft Fabric. Det här samarbetet introducerar ett nytt bibliotek, ArcGIS GeoAnalytics för Microsoft Fabric, vilket möjliggör en omfattande uppsättning rumsliga analyser direkt i Microsoft Fabric Spark-notebook-filer och Spark-jobbdefinitioner (både Dataingenjör ing och Datavetenskap upplevelser/arbetsbelastningar).

Den här integrerade produktupplevelsen gör det möjligt för Spark-utvecklare eller dataforskare att internt använda Esri-funktioner för att köra ArcGIS GeoAnalytics-funktioner och verktyg i Fabric Spark för rumslig omvandling, berikande och mönster-/trendanalys av data – även stordata – i olika användningsfall utan att behöva separat installation och konfiguration.

Installera bibliotek från ADLS Gen2 Storage-konto

Uppskattad tidslinje för lansering: Q4 2024

Versionstyp: Offentlig förhandsversion

Stöd för en ny källa för användare att installera bibliotek. Genom att skapa en anpassad conda/PyPI-kanal, som finns på deras lagringskonto, kan användarna installera biblioteken från sitt lagringskonto i sina infrastrukturmiljöer.

Liveversion av notebook-filer

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Med liveversioner av Fabric Notebook kan utvecklare spåra historiken för ändringar som gjorts i deras notebook-filer, jämföra olika hörn och återställa tidigare versioner om det behövs.

VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

VSCode Satellite-tillägget för Användardatafunktioner ger utvecklarstöd (redigering, skapande, felsökning, publicering) för användardatafunktioner i Infrastrukturresurser.

Användardatafunktioner i infrastrukturresurser

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Användardatafunktioner ger en kraftfull mekanism för att implementera och återanvända anpassad, specialiserad affärslogik i fabric-arbetsflöden för datavetenskap och datateknik, vilket ökar effektiviteten och flexibiliteten.

API:er för offentlig övervakning

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Funktionen API för offentlig övervakning för Fabric Spark syftar till att exponera API:er för Spark-övervakning, så att användare kan övervaka Spark-jobbförlopp, visa körningsuppgifter och komma åt loggar programmatiskt. Den här funktionen är anpassad till de offentliga API-standarderna, vilket ger en sömlös övervakningsupplevelse för Spark-program.

Lakehouse Shortcuts-metadata på git- och distributionspipelines

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Det är absolut nödvändigt att spåra objektmetadata i git och stödja distributionspipelines för att leverera en övertygande berättelse om programlivscykelhantering. I modulerna Dataingenjör ing integreras arbetsytor i git.

I den här första iterationen distribueras OneLake-genvägar automatiskt över pipelinesteg och arbetsytor. Genvägsanslutningar kan mappas om mellan olika faser med hjälp av ett nytt Microsoft Fabric-objekt med namnet variabelbibliotek, vilket säkerställer korrekt isolering och miljösegmentering som kunderna förväntar sig.

Delta Lake-förbättringar i Spark-upplevelser

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Allmän tillgänglighet

Att ha rätt standardvärden och anpassa sig till de senaste standarderna är av yttersta vikt för Delta Lake-standarder i Microsoft Fabric. INT64 blir den nya standardkodningstypen för alla tidsstämpelvärden. Detta rör sig bort från INT96-kodningar, som Apache Parquet föråldrade för flera år sedan. Ändringarna påverkar inte läsfunktionerna, de är transparenta och kompatibla som standard, men säkerställer att alla nya parquet-filer i Delta Lake-tabellen skrivs på ett effektivare och mer framtidssäkert sätt.

Vi släpper också en snabbare implementering av OPTIMIZE-kommandot, vilket gör att det hoppar över redan V-sorterade filer.

Stöd för ögonblicksbilder av pågående Notebook-jobb

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Med den här funktionen kan användare visa en ögonblicksbild av notebook-filer medan den fortfarande körs, vilket är viktigt för övervakning av förlopp och felsökning av prestandaproblem. Användarna kan se den ursprungliga källkoden, indataparametrarna och cellutdata för att bättre förstå Spark-jobbet, och de kan spåra Spark-körningens förlopp på cellnivå. Användare kan också granska utdata från slutförda celler för att verifiera precisionen i Spark-programmet och uppskatta det återstående arbetet. Dessutom visas eventuella fel eller undantag från celler som redan körs, vilket hjälper användarna att identifiera och åtgärda problem tidigt.

RLS/CLS-stöd för Spark och Lakehouse

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Offentlig förhandsversion

Med funktionen kan användare implementera säkerhetsprinciper för dataåtkomst i Spark-motorn. Användare kan definiera säkerhet på objekt-, rad- eller kolumnnivå, vilket säkerställer att data skyddas enligt dessa principer när de nås via Fabric Spark och är i linje med onesecurity-initiativet som aktiveras i Microsoft Fabric.

Spark Connector för Fabric Data Warehouse – allmän tillgänglighet

Uppskattad tidslinje för lansering: Q1 2025

Versionstyp: Allmän tillgänglighet

Spark-anslutningsappen för Microsoft Fabric Data Warehouse gör det möjligt för Spark-utvecklare och dataforskare att komma åt och arbeta med data från ett lager och SQL-analysslutpunkten för ett lakehouse. Det erbjuder ett förenklat Spark-API, abstraherar underliggande komplexitet och fungerar med bara en kodrad, samtidigt som säkerhetsmodeller som säkerhet på objektnivå (OLS), säkerhet på radnivå (RLS) och säkerhet på kolumnnivå (CLS) upprätthålls.

Levererade funktioner

Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse

Levererad (Q4 2024)

Versionstyp: Allmän tillgänglighet

Med den här funktionen kan kunder sortera och filtrera sina tabeller och mappar i Lakehouse med flera olika metoder, inklusive alfabetiskt, skapat datum med mera.

Notebook-filer i en app

Levererad (Q4 2024)

Versionstyp: Offentlig förhandsversion

Organisationsappar är tillgängliga som ett nytt objekt i Infrastrukturresurser och du kan inkludera notebook-filer tillsammans med Power BI-rapporter och instrumentpaneler i Fabric-appar och distribuera dem till företagsanvändare. Appkonsumenter kan interagera med widgetar och visuella objekt i notebook-filen som en alternativ mekanism för rapportering och datautforskning. På så sätt kan du skapa och dela omfattande och engagerande berättelser med dina data.

VSCode Core-tillägg för Infrastrukturresurser

Levererad (Q3 2024)

Versionstyp: Offentlig förhandsversion

Core VSCode-tillägget för Fabric ger vanligt utvecklarstöd för Fabric-tjänster.

T-SQL-notebook-fil

Levererad (Q3 2024)

Versionstyp: Offentlig förhandsversion

Fabric Notebooks stöder T-SQL-språk för att använda data mot Data Warehouse. Genom att lägga till en datalager- eller SQL-analysslutpunkt i en notebook-fil kan T-SQL-utvecklare köra frågor direkt på den anslutna slutpunkten. BI-analytiker kan också köra frågor mellan databaser för att samla in insikter från flera lager och SQL-analysslutpunkter. T-SQL Notebooks är ett bra redigeringsalternativ till befintliga verktyg för SQL-användare och innehåller inbyggda infrastrukturfunktioner som delning, GIT-integrering och samarbete.

VS Code för webben – felsökningsstöd

Levererad (Q3 2024)

Versionstyp: Offentlig förhandsversion

Visual Studio Code för webben stöds för närvarande i förhandsversionen för redigerings- och körningsscenarier. Vi lägger till möjligheten att felsöka kod med hjälp av det här tillägget för notebook-filer i listan över funktioner.

Hög samtidighet i pipelines

Levererad (Q3 2024)

Versionstyp: Allmän tillgänglighet

Förutom hög samtidighet i notebook-filer aktiverar vi även hög samtidighet i pipelines. Med den här funktionen kan du köra flera notebook-filer i en pipeline med en enda session.

Schemastöd och arbetsyta i namnrymd i Lakehouse

Levererad (Q3 2024)

Versionstyp: Offentlig förhandsversion

Detta gör det möjligt att organisera tabeller med hjälp av scheman och köra frågor mot data mellan arbetsytor.

Inbyggd Spark-körningsmotor

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

Den inbyggda körningsmotorn är en banbrytande förbättring för Apache Spark-jobbkörningar i Microsoft Fabric. Den här vektoriserade motorn optimerar prestanda och effektivitet för dina Spark-frågor genom att köra dem direkt på lakehouse-infrastrukturen. Motorns sömlösa integrering innebär att den inte kräver några kodändringar och undviker leverantörslåsning. Den stöder Apache Spark-API:er och är kompatibel med Runtime 1.2 (Spark 3.4) och fungerar med både Parquet- och Delta-format. Oavsett dina datas plats i OneLake, eller om du kommer åt data via genvägar, maximerar den interna körningsmotorn effektivitet och prestanda

Spark Connector för Fabric Data Warehouse

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

Spark Connector för Fabric DW (Data Warehouse) ger en Spark-utvecklare eller en dataexpert åtkomst till och arbete med data från Fabric Data Warehouse med ett förenklat Spark-API, som bokstavligen bara fungerar med en enda kodrad. Det ger möjlighet att köra frågor mot data parallellt från Infrastruktur-informationslagret så att de kan skalas med ökande datavolym och respekterar säkerhetsmodellen (OLS/RLS/CLS) som definierats på informationslagernivå vid åtkomst till tabellen eller vyn. Den här första versionen stöder endast läsning av data och stödet för att skriva tillbaka data kommer snart.

Microsoft Fabric API för GraphQL

Levererad (Q2 2024)

Versionstyp: Offentlig förhandsversion

API för GraphQL gör det möjligt för Infrastrukturdatatekniker, forskare, datalösningsarkitekter att enkelt exponera och integrera Infrastrukturdata, för mer dynamiska, högpresterande och omfattande analysprogram, vilket utnyttjar kraften och flexibiliteten hos GraphQL.

Skapa och koppla miljöer

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Om du vill anpassa Dina Spark-upplevelser på en mer detaljerad nivå kan du skapa och koppla miljöer till dina notebook-filer och Spark-jobb. I en miljö kan du installera bibliotek, konfigurera en ny pool, ange Spark-egenskaper och ladda upp skript till ett filsystem. Detta ger dig större flexibilitet och kontroll över dina Spark-arbetsbelastningar, utan att påverka standardinställningarna för arbetsytan. Som en del av GA gör vi olika förbättringar av miljöer, inklusive API-stöd och CI/CD-integrering.

Jobbkö för notebook-jobb

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Med den här funktionen kan schemalagda Spark Notebook-filer placeras i kö när Spark-användningen är som högst antal jobb som kan köras parallellt och sedan köras när användningen har sjunkit tillbaka under det maximala antalet parallella jobb som tillåts.

Optimistisk jobbinträde för Fabric Spark

Levererad (Q2 2024)

Versionstyp: Allmän tillgänglighet

Med optimistisk jobbinträde reserverar Fabric Spark bara det minsta antal kärnor som ett jobb behöver starta, baserat på det minsta antalet noder som jobbet kan skala ned till. Detta gör att fler jobb kan antas om det finns tillräckligt med resurser för att uppfylla minimikraven. Om ett jobb behöver skalas upp senare godkänns eller avvisas uppskalningsbegäranden baserat på tillgängliga kärnor i kapacitet.

Autotune för Spark

Levererad (Q1 2024)

Versionstyp: Offentlig förhandsversion

Autotune använder maskininlärning för att automatiskt analysera tidigare körningar av dina Spark-jobb och justera konfigurationerna för att optimera prestandan. Den konfigurerar hur dina data partitioneras, kopplas och läss av Spark. På så sätt förbättras prestanda avsevärt. Vi har sett kundjobb köras 2 gånger snabbare med den här funktionen.

Dataingenjör dokumentation i Microsoft Fabric

Dela via

Nyheter och planer för Fabric-Dataingenjör i Microsoft Fabric

Investeringsområden

Python-notebook-fil

ArcGIS GeoAnalytics för Microsoft Fabric Spark

Installera bibliotek från ADLS Gen2 Storage-konto

Liveversion av notebook-filer

VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser

Användardatafunktioner i infrastrukturresurser

API:er för offentlig övervakning

Lakehouse Shortcuts-metadata på git- och distributionspipelines

Delta Lake-förbättringar i Spark-upplevelser

Stöd för ögonblicksbilder av pågående Notebook-jobb

RLS/CLS-stöd för Spark och Lakehouse

Spark Connector för Fabric Data Warehouse – allmän tillgänglighet

Levererade funktioner

Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse

Notebook-filer i en app

VSCode Core-tillägg för Infrastrukturresurser

T-SQL-notebook-fil

VS Code för webben – felsökningsstöd

Hög samtidighet i pipelines

Schemastöd och arbetsyta i namnrymd i Lakehouse

Inbyggd Spark-körningsmotor

Spark Connector för Fabric Data Warehouse

Microsoft Fabric API för GraphQL

Skapa och koppla miljöer

Jobbkö för notebook-jobb

Optimistisk jobbinträde för Fabric Spark

Autotune för Spark

Ytterligare resurser

Dela via

Nyheter och planer för Fabric-Dataingenjör i Microsoft Fabric

Investeringsområden

Python-notebook-fil

ArcGIS GeoAnalytics för Microsoft Fabric Spark

Installera bibliotek från ADLS Gen2 Storage-konto

Liveversion av notebook-filer

VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser

Användardatafunktioner i infrastrukturresurser

API:er för offentlig övervakning

Lakehouse Shortcuts-metadata på git- och distributionspipelines

Delta Lake-förbättringar i Spark-upplevelser

Stöd för ögonblicksbilder av pågående Notebook-jobb

RLS/CLS-stöd för Spark och Lakehouse

Spark Connector för Fabric Data Warehouse – allmän tillgänglighet

Levererade funktioner

Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse

Notebook-filer i en app

VSCode Core-tillägg för Infrastrukturresurser

T-SQL-notebook-fil

VS Code för webben – felsökningsstöd

Hög samtidighet i pipelines

Schemastöd och arbetsyta i namnrymd i Lakehouse

Inbyggd Spark-körningsmotor

Spark Connector för Fabric Data Warehouse

Microsoft Fabric API för GraphQL

Skapa och koppla miljöer

Jobbkö för notebook-jobb

Optimistisk jobbinträde för Fabric Spark

Autotune för Spark

Relaterat innehåll

Ytterligare resurser