Formát excelových souborů ve službě Azure Data Factory a Azure Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Pokud chcete analyzovat excelové soubory, postupujte podle tohoto článku. Služba podporuje .xls i .xlsx.
Formát Excelu je podporovaný pro následující konektory: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage a SFTP. Podporuje se jako zdroj, ale není jímka.
Poznámka:
Formát ".xls" není při používání protokolu HTTP podporován.
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Excelu.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na Excel. | Ano |
location | Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location . |
Ano |
sheetName | Název excelového listu pro čtení dat. | Zadat sheetName nebo sheetIndex |
sheetIndex | Index excelového listu pro čtení dat od 0. | Zadat sheetName nebo sheetIndex |
range | Oblast buněk v daném listu pro vyhledání selektivních dat, například: - Nezadá se: přečte celý list jako tabulku z prvního neprázdného řádku a sloupce. - A3 : přečte tabulku počínaje danou buňkou, dynamicky rozpozná všechny řádky pod a všechny sloupce vpravo.- A3:H5 : Přečte tuto pevnou oblast jako tabulku.- A3:A3 : Přečte tuto jedinou buňku. |
No |
firstRowAsHeader | Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců. Povolené hodnoty jsou true a false (výchozí). |
No |
nullValue | Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec. |
No |
komprese | Skupina vlastností pro konfiguraci komprese souborů Tuto část nakonfigurujte, když chcete během provádění aktivity provést kompresi nebo dekompresi. | No |
type (v části compression ) |
Kodek komprese používaný ke čtení a zápisu souborů JSON. Povolené hodnoty jsou bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy nebo lz4. Výchozí hodnota není komprimována. Všimněte si, že v současné době aktivita Copy nepodporuje "snappy" & "lz4" a mapování toku dat nepodporuje "ZipDeflate", "TarGzip" a "Tar". Všimněte si , že při dekompresi souborů ZipDeflate a zápisu do úložiště dat jímky založené na souborech se soubory extrahují do složky: <path specified in dataset>/<folder named as source zip file>/ . |
Ne. |
úroveň (v části compression ) |
Poměr komprese. Povolené hodnoty jsou optimální nebo nejrychlejší. - Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný. - Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese. |
No |
Níže je příklad excelové datové sady ve službě Azure Blob Storage:
{
"name": "ExcelDataset",
"properties": {
"type": "Excel",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"sheetName": "MyWorksheet",
"range": "A3:H5",
"firstRowAsHeader": true
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem aplikace Excel.
Excel jako zdroj
Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavena na ExcelSource. | Ano |
storeSettings | Skupina vlastností, jak číst data z úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení čtení v části storeSettings . |
No |
"activities": [
{
"name": "CopyFromExcel",
"type": "Copy",
"typeProperties": {
"source": {
"type": "ExcelSource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true
}
},
...
}
...
}
]
Mapování vlastností toku dat
Při mapování toků dat můžete číst formát Excelu v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 a SFTP. Na excelové soubory můžete odkazovat buď pomocí datové sady Excelu, nebo pomocí vložené datové sady.
Vlastnosti zdroje
V následující tabulce jsou uvedeny vlastnosti podporované zdrojem aplikace Excel. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje. Při použití vložené datové sady uvidíte další nastavení souborů, která jsou stejná jako vlastnosti popsané v části vlastností datové sady.
Název | Popis | Povinní účastníci | Povolené hodnoty | Vlastnost skriptu toku dat |
---|---|---|---|---|
Cesty se zástupnými kartami | Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. | ne | Řetězec[] | Zástupné cardPaths |
Kořenová cesta oddílu | Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. | ne | String | partitionRootPath |
Seznam souborů | Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. | ne | true nebo false |
fileList |
Sloupec pro uložení názvu souboru | Vytvoření nového sloupce s názvem zdrojového souboru a cestou | ne | String | rowUrlColumn |
Po dokončení | Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. | ne | Odstranit: true nebo false Pohnout: ['<from>', '<to>'] |
purgeFiles moveFiles |
Filtrovat podle poslední změny | Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. | ne | Časové razítko | modifiedAfter modifiedBefore |
Povolit žádné nalezené soubory | Pokud je hodnota true, chyba se nevyvolá, pokud se nenašly žádné soubory. | ne | true nebo false |
ignoreNoFilesFound |
Příklad zdroje
Následující obrázek je příkladem konfigurace zdroje Excelu při mapování toků dat pomocí režimu datové sady.
Přidružený skript toku dat je:
source(allowSchemaDrift: true,
validateSchema: false,
wildcardPaths:['*.xls']) ~> ExcelSource
Pokud používáte vloženou datovou sadu, v mapování toku dat se zobrazí následující možnosti zdroje.
Přidružený skript toku dat je:
source(allowSchemaDrift: true,
validateSchema: false,
format: 'excel',
fileSystem: 'container',
folderPath: 'path',
fileName: 'sample.xls',
sheetName: 'worksheet',
firstRowAsHeader: true) ~> ExcelSourceInlineDataset
Poznámka:
Mapování toku dat nepodporuje čtení chráněných excelových souborů, protože tyto soubory můžou obsahovat oznámení o důvěrnosti nebo vynucovat specifická omezení přístupu, která omezují přístup k jejich obsahu.
Zpracování velmi velkých excelových souborů
Konektor Excelu nepodporuje čtení streamování pro aktivita Copy a musí před čtením dat načíst celý soubor do paměti. Pokud chcete importovat schéma, náhled dat nebo aktualizovat datovou sadu Excelu, musí se data vrátit před vypršením časového limitu požadavku HTTP (100s). U velkých excelových souborů se tyto operace nemusí dokončit v daném časovém rámci, což způsobí chybu časového limitu. Pokud chcete přesunout velké excelové soubory (>100 MB) do jiného úložiště dat, můžete toto omezení obejít pomocí jedné z následujících možností:
- Použijte místní prostředí Integration Runtime (SHIR) a pak pomocí aktivita Copy přesuňte velký excelový soubor do jiného úložiště dat pomocí SHIR.
- Velké excelové soubory rozdělte na několik menších a pak pomocí aktivita Copy přesuňte složku obsahující soubory.
- Pomocí aktivity toku dat přesuňte velký excelový soubor do jiného úložiště dat. Tok dat podporuje streamování čtení pro Excel a umožňuje rychle přesouvat a přenášet velké soubory.
- Ručně převeďte velký excelový soubor do formátu CSV a pak ho přesuňte pomocí aktivita Copy.