Nyheter och planer för Fabric-Dataingenjör i Microsoft Fabric
Viktigt!
I lanseringsplanerna beskrivs funktioner som kanske eller kanske inte har släppts ännu. Leveranstidslinjen och den planerade funktionen kan ändras eller kanske inte skickas. Mer information finns i Microsoft-principen.
Infrastrukturresurser Dataingenjör ing gör det möjligt för datatekniker att kunna transformera sina data i stor skala med hjälp av Spark och bygga ut sin lakehouse-arkitektur.
Lakehouse för alla dina organisationsdata: Lakehouse kombinerar det bästa av datasjön och informationslagret i en enda upplevelse. Det gör det möjligt för användare att mata in, förbereda och dela organisationsdata i ett öppet format i sjön. Senare kan du komma åt den via flera motorer som Spark, T-SQL och Power BI. Den innehåller olika alternativ för dataintegrering, till exempel dataflöden och pipelines, genvägar till externa datakällor och funktioner för delning av dataprodukter.
Performant Spark engine & runtime: Fabric Data Engineering ger kunderna en optimerad Spark-körning med de senaste versionerna av Spark, Delta och Python.. Den använder Delta Lake som det gemensamma tabellformatet för alla motorer, vilket möjliggör enkel datadelning och rapportering utan dataförflyttning. Körningen levereras med Spark-optimeringar, vilket förbättrar frågeprestandan utan några konfigurationer. Det erbjuder också startpooler och hög samtidighetsläge för att påskynda och återanvända spark-sessioner, vilket sparar tid och kostnad.
Spark Admin och konfigurationer: Arbetsyteadministratörer med lämpliga behörigheter kan skapa och konfigurera anpassade pooler för att optimera prestanda och kostnader för sina Spark-arbetsbelastningar. Skapare kan konfigurera miljöer för att installera bibliotek, välja körningsversion och ange Spark-egenskaper för sina notebook-filer och Spark-jobb.
Utvecklarupplevelse: Utvecklare kan använda notebook-filer, Spark-jobb eller önskad IDE för att skapa och köra Spark-kod i Fabric. De kan komma åt lakehouse-data internt, samarbeta med andra, installera bibliotek, spåra historik, utföra intern övervakning och få rekommendationer från Spark-rådgivaren. De kan också använda Data Wrangler för att enkelt förbereda data med ett lågkodsgränssnitt.
Plattformsintegrering: Alla infrastrukturdatateknikobjekt, inklusive notebook-filer, Spark-jobb, miljöer och lakehouses, är djupt integrerade i Infrastrukturplattformen (funktioner för hantering av företagsinformation, ursprung, känslighetsetiketter och godkännanden).
Investeringsområden
Python-notebook-fil
Uppskattad tidslinje för lansering: Q4 2024
Versionstyp: Offentlig förhandsversion
Fabric Notebooks stöder ren Python-upplevelse. Den här nya lösningen riktar sig till BI-utvecklare och Dataforskare som arbetar med mindre datamängder (upp till några GB) och använder Pandas och Python som primärt språk. Med den här nya upplevelsen kommer de att kunna dra nytta av det inbyggda Python-språket och dess inbyggda funktioner och bibliotek, kommer att kunna växla från en Python-version till en annan (till en början kommer två versioner att stödjas) och slutligen dra nytta av en bättre resursanvändning med hjälp av en mindre 2VCore-dator.
ArcGIS GeoAnalytics för Microsoft Fabric Spark
Uppskattad tidslinje för lansering: Q4 2024
Versionstyp: Offentlig förhandsversion
Microsoft och Esri har samarbetat för att få rumslig analys till Microsoft Fabric. Det här samarbetet introducerar ett nytt bibliotek, ArcGIS GeoAnalytics för Microsoft Fabric, vilket möjliggör en omfattande uppsättning rumsliga analyser direkt i Microsoft Fabric Spark-notebook-filer och Spark-jobbdefinitioner (både Dataingenjör ing och Datavetenskap upplevelser/arbetsbelastningar).
Den här integrerade produktupplevelsen gör det möjligt för Spark-utvecklare eller dataforskare att internt använda Esri-funktioner för att köra ArcGIS GeoAnalytics-funktioner och verktyg i Fabric Spark för rumslig omvandling, berikande och mönster-/trendanalys av data – även stordata – i olika användningsfall utan att behöva separat installation och konfiguration.
Installera bibliotek från ADLS Gen2 Storage-konto
Uppskattad tidslinje för lansering: Q4 2024
Versionstyp: Offentlig förhandsversion
Stöd för en ny källa för användare att installera bibliotek. Genom att skapa en anpassad conda/PyPI-kanal, som finns på deras lagringskonto, kan användarna installera biblioteken från sitt lagringskonto i sina infrastrukturmiljöer.
Liveversion av notebook-filer
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Med liveversioner av Fabric Notebook kan utvecklare spåra historiken för ändringar som gjorts i deras notebook-filer, jämföra olika hörn och återställa tidigare versioner om det behövs.
VSCode-satellittillägg för användardatafunktioner i Infrastrukturresurser
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
VSCode Satellite-tillägget för Användardatafunktioner ger utvecklarstöd (redigering, skapande, felsökning, publicering) för användardatafunktioner i Infrastrukturresurser.
Användardatafunktioner i infrastrukturresurser
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Användardatafunktioner ger en kraftfull mekanism för att implementera och återanvända anpassad, specialiserad affärslogik i fabric-arbetsflöden för datavetenskap och datateknik, vilket ökar effektiviteten och flexibiliteten.
API:er för offentlig övervakning
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Funktionen API för offentlig övervakning för Fabric Spark syftar till att exponera API:er för Spark-övervakning, så att användare kan övervaka Spark-jobbförlopp, visa körningsuppgifter och komma åt loggar programmatiskt. Den här funktionen är anpassad till de offentliga API-standarderna, vilket ger en sömlös övervakningsupplevelse för Spark-program.
Lakehouse Shortcuts-metadata på git- och distributionspipelines
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Det är absolut nödvändigt att spåra objektmetadata i git och stödja distributionspipelines för att leverera en övertygande berättelse om programlivscykelhantering. I modulerna Dataingenjör ing integreras arbetsytor i git.
I den här första iterationen distribueras OneLake-genvägar automatiskt över pipelinesteg och arbetsytor. Genvägsanslutningar kan mappas om mellan olika faser med hjälp av ett nytt Microsoft Fabric-objekt med namnet variabelbibliotek, vilket säkerställer korrekt isolering och miljösegmentering som kunderna förväntar sig.
Delta Lake-förbättringar i Spark-upplevelser
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Allmän tillgänglighet
Att ha rätt standardvärden och anpassa sig till de senaste standarderna är av yttersta vikt för Delta Lake-standarder i Microsoft Fabric. INT64 blir den nya standardkodningstypen för alla tidsstämpelvärden. Detta rör sig bort från INT96-kodningar, som Apache Parquet föråldrade för flera år sedan. Ändringarna påverkar inte läsfunktionerna, de är transparenta och kompatibla som standard, men säkerställer att alla nya parquet-filer i Delta Lake-tabellen skrivs på ett effektivare och mer framtidssäkert sätt.
Vi släpper också en snabbare implementering av OPTIMIZE-kommandot, vilket gör att det hoppar över redan V-sorterade filer.
Stöd för ögonblicksbilder av pågående Notebook-jobb
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Med den här funktionen kan användare visa en ögonblicksbild av notebook-filer medan den fortfarande körs, vilket är viktigt för övervakning av förlopp och felsökning av prestandaproblem. Användarna kan se den ursprungliga källkoden, indataparametrarna och cellutdata för att bättre förstå Spark-jobbet, och de kan spåra Spark-körningens förlopp på cellnivå. Användare kan också granska utdata från slutförda celler för att verifiera precisionen i Spark-programmet och uppskatta det återstående arbetet. Dessutom visas eventuella fel eller undantag från celler som redan körs, vilket hjälper användarna att identifiera och åtgärda problem tidigt.
RLS/CLS-stöd för Spark och Lakehouse
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Offentlig förhandsversion
Med funktionen kan användare implementera säkerhetsprinciper för dataåtkomst i Spark-motorn. Användare kan definiera säkerhet på objekt-, rad- eller kolumnnivå, vilket säkerställer att data skyddas enligt dessa principer när de nås via Fabric Spark och är i linje med onesecurity-initiativet som aktiveras i Microsoft Fabric.
Spark Connector för Fabric Data Warehouse – allmän tillgänglighet
Uppskattad tidslinje för lansering: Q1 2025
Versionstyp: Allmän tillgänglighet
Spark-anslutningsappen för Microsoft Fabric Data Warehouse gör det möjligt för Spark-utvecklare och dataforskare att komma åt och arbeta med data från ett lager och SQL-analysslutpunkten för ett lakehouse. Det erbjuder ett förenklat Spark-API, abstraherar underliggande komplexitet och fungerar med bara en kodrad, samtidigt som säkerhetsmodeller som säkerhet på objektnivå (OLS), säkerhet på radnivå (RLS) och säkerhet på kolumnnivå (CLS) upprätthålls.
Levererade funktioner
Möjlighet att sortera och filtrera tabeller och mappar i Lakehouse
Levererad (Q4 2024)
Versionstyp: Allmän tillgänglighet
Med den här funktionen kan kunder sortera och filtrera sina tabeller och mappar i Lakehouse med flera olika metoder, inklusive alfabetiskt, skapat datum med mera.
Notebook-filer i en app
Levererad (Q4 2024)
Versionstyp: Offentlig förhandsversion
Organisationsappar är tillgängliga som ett nytt objekt i Infrastrukturresurser och du kan inkludera notebook-filer tillsammans med Power BI-rapporter och instrumentpaneler i Fabric-appar och distribuera dem till företagsanvändare. Appkonsumenter kan interagera med widgetar och visuella objekt i notebook-filen som en alternativ mekanism för rapportering och datautforskning. På så sätt kan du skapa och dela omfattande och engagerande berättelser med dina data.
VSCode Core-tillägg för Infrastrukturresurser
Levererad (Q3 2024)
Versionstyp: Offentlig förhandsversion
Core VSCode-tillägget för Fabric ger vanligt utvecklarstöd för Fabric-tjänster.
T-SQL-notebook-fil
Levererad (Q3 2024)
Versionstyp: Offentlig förhandsversion
Fabric Notebooks stöder T-SQL-språk för att använda data mot Data Warehouse. Genom att lägga till en datalager- eller SQL-analysslutpunkt i en notebook-fil kan T-SQL-utvecklare köra frågor direkt på den anslutna slutpunkten. BI-analytiker kan också köra frågor mellan databaser för att samla in insikter från flera lager och SQL-analysslutpunkter. T-SQL Notebooks är ett bra redigeringsalternativ till befintliga verktyg för SQL-användare och innehåller inbyggda infrastrukturfunktioner som delning, GIT-integrering och samarbete.
VS Code för webben – felsökningsstöd
Levererad (Q3 2024)
Versionstyp: Offentlig förhandsversion
Visual Studio Code för webben stöds för närvarande i förhandsversionen för redigerings- och körningsscenarier. Vi lägger till möjligheten att felsöka kod med hjälp av det här tillägget för notebook-filer i listan över funktioner.
Hög samtidighet i pipelines
Levererad (Q3 2024)
Versionstyp: Allmän tillgänglighet
Förutom hög samtidighet i notebook-filer aktiverar vi även hög samtidighet i pipelines. Med den här funktionen kan du köra flera notebook-filer i en pipeline med en enda session.
Schemastöd och arbetsyta i namnrymd i Lakehouse
Levererad (Q3 2024)
Versionstyp: Offentlig förhandsversion
Detta gör det möjligt att organisera tabeller med hjälp av scheman och köra frågor mot data mellan arbetsytor.
Inbyggd Spark-körningsmotor
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
Den inbyggda körningsmotorn är en banbrytande förbättring för Apache Spark-jobbkörningar i Microsoft Fabric. Den här vektoriserade motorn optimerar prestanda och effektivitet för dina Spark-frågor genom att köra dem direkt på lakehouse-infrastrukturen. Motorns sömlösa integrering innebär att den inte kräver några kodändringar och undviker leverantörslåsning. Den stöder Apache Spark-API:er och är kompatibel med Runtime 1.2 (Spark 3.4) och fungerar med både Parquet- och Delta-format. Oavsett dina datas plats i OneLake, eller om du kommer åt data via genvägar, maximerar den interna körningsmotorn effektivitet och prestanda
Spark Connector för Fabric Data Warehouse
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
Spark Connector för Fabric DW (Data Warehouse) ger en Spark-utvecklare eller en dataexpert åtkomst till och arbete med data från Fabric Data Warehouse med ett förenklat Spark-API, som bokstavligen bara fungerar med en enda kodrad. Det ger möjlighet att köra frågor mot data parallellt från Infrastruktur-informationslagret så att de kan skalas med ökande datavolym och respekterar säkerhetsmodellen (OLS/RLS/CLS) som definierats på informationslagernivå vid åtkomst till tabellen eller vyn. Den här första versionen stöder endast läsning av data och stödet för att skriva tillbaka data kommer snart.
Microsoft Fabric API för GraphQL
Levererad (Q2 2024)
Versionstyp: Offentlig förhandsversion
API för GraphQL gör det möjligt för Infrastrukturdatatekniker, forskare, datalösningsarkitekter att enkelt exponera och integrera Infrastrukturdata, för mer dynamiska, högpresterande och omfattande analysprogram, vilket utnyttjar kraften och flexibiliteten hos GraphQL.
Skapa och koppla miljöer
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Om du vill anpassa Dina Spark-upplevelser på en mer detaljerad nivå kan du skapa och koppla miljöer till dina notebook-filer och Spark-jobb. I en miljö kan du installera bibliotek, konfigurera en ny pool, ange Spark-egenskaper och ladda upp skript till ett filsystem. Detta ger dig större flexibilitet och kontroll över dina Spark-arbetsbelastningar, utan att påverka standardinställningarna för arbetsytan. Som en del av GA gör vi olika förbättringar av miljöer, inklusive API-stöd och CI/CD-integrering.
Jobbkö för notebook-jobb
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Med den här funktionen kan schemalagda Spark Notebook-filer placeras i kö när Spark-användningen är som högst antal jobb som kan köras parallellt och sedan köras när användningen har sjunkit tillbaka under det maximala antalet parallella jobb som tillåts.
Optimistisk jobbinträde för Fabric Spark
Levererad (Q2 2024)
Versionstyp: Allmän tillgänglighet
Med optimistisk jobbinträde reserverar Fabric Spark bara det minsta antal kärnor som ett jobb behöver starta, baserat på det minsta antalet noder som jobbet kan skala ned till. Detta gör att fler jobb kan antas om det finns tillräckligt med resurser för att uppfylla minimikraven. Om ett jobb behöver skalas upp senare godkänns eller avvisas uppskalningsbegäranden baserat på tillgängliga kärnor i kapacitet.
Autotune för Spark
Levererad (Q1 2024)
Versionstyp: Offentlig förhandsversion
Autotune använder maskininlärning för att automatiskt analysera tidigare körningar av dina Spark-jobb och justera konfigurationerna för att optimera prestandan. Den konfigurerar hur dina data partitioneras, kopplas och läss av Spark. På så sätt förbättras prestanda avsevärt. Vi har sett kundjobb köras 2 gånger snabbare med den här funktionen.