Formát Avro ve službě Azure Data Factory a Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Pokud chcete analyzovat soubory Avro nebo zapisovat data do formátu Avro, postupujte podle tohoto článku.
Formát Avro je podporovaný pro následující konektory: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage a SFTP.
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Avro.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na Avro. | Ano |
location | Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location . Podrobnosti najdete v článku o konektoru –> část Vlastnosti datové sady. |
Ano |
avroCompressionCodec | Kodek komprese, který se má použít při zápisu do souborů Avro. Při čtení ze souborů Avro služba automaticky určí kodek komprese na základě metadat souboru. Podporované typy jsou none (výchozí), deflate, snappy. Všimněte si, že v současné době aktivita Copy nepodporuje Snappy při čtení a zápisu souborů Avro. |
No |
Poznámka:
U souborů Avro není podporováno prázdné znaky v názvu sloupce.
Níže je příklad datové sady Avro ve službě Azure Blob Storage:
{
"name": "AvroDataset",
"properties": {
"type": "Avro",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"avroCompressionCodec": "snappy"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem a jímkou Avro.
Avro jako zdroj
Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavena na AvroSource. | Ano |
storeSettings | Skupina vlastností, jak číst data z úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení čtení v části storeSettings . Podrobnosti najdete v článku o konektoru –> aktivita Copy části vlastností. |
No |
Avro jako jímka
Následující vlastnosti jsou podporovány v části aktivity kopírování *jímka*.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavena na AvroSink. | Ano |
formatSettings | Skupina vlastností. Níže najdete tabulku nastavení zápisu Avro. | No |
storeSettings | Skupina vlastností pro zápis dat do úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení zápisu v části storeSettings . Podrobnosti najdete v článku o konektoru –> aktivita Copy části vlastností. |
No |
Podporované nastavení zápisu Avro v části formatSettings
:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Typ formatSettings musí být nastaven na AvroWriteSettings. | Ano |
maxRowsPerFile | Při zápisu dat do složky se můžete rozhodnout zapisovat do více souborů a zadat maximální počet řádků na soubor. | No |
fileNamePrefix | Platí, pokud maxRowsPerFile je nakonfigurováno.Při zápisu dat do více souborů zadejte předponu názvu souboru, výsledkem je tento vzor: <fileNamePrefix>_00000.<fileExtension> . Pokud není zadána, automaticky se vygeneruje předpona názvu souboru. Tato vlastnost se nevztahuje, pokud zdroj je úložiště dat založené na souborech nebo úložiště dat s povolenou možností oddílu. |
No |
Mapování vlastností toku dat
Při mapování toků dat můžete číst a zapisovat do formátu avro v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2 a SFTP a můžete číst formát avro v AmazonU S3.
Vlastnosti zdroje
Následující tabulka uvádí vlastnosti podporované zdrojem avro. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje.
Název | Popis | Povinní účastníci | Povolené hodnoty | Vlastnost skriptu toku dat |
---|---|---|---|---|
Cesty se zástupnými kartami | Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. | ne | Řetězec[] | Zástupné cardPaths |
Kořenová cesta oddílu | Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. | ne | String | partitionRootPath |
Seznam souborů | Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. | ne | true nebo false |
fileList |
Sloupec pro uložení názvu souboru | Vytvoření nového sloupce s názvem zdrojového souboru a cestou | ne | String | rowUrlColumn |
Po dokončení | Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. | ne | Odstranit: true nebo false Pohnout: ['<from>', '<to>'] |
purgeFiles moveFiles |
Filtrovat podle poslední změny | Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. | ne | Časové razítko | modifiedAfter modifiedBefore |
Povolit žádné nalezené soubory | Pokud je pravda, chyba se nevyvolá, pokud se nenašly žádné soubory. | ne | true nebo false |
ignoreNoFilesFound |
Vlastnosti jímky
Následující tabulka uvádí vlastnosti podporované jímkou avro. Tyto vlastnosti můžete upravit na kartě Nastavení .
Název | Popis | Povinní účastníci | Povolené hodnoty | Vlastnost skriptu toku dat |
---|---|---|---|---|
Vymazání složky | Pokud je cílová složka před zápisem vymazána. | ne | true nebo false |
truncate |
Možnost názvu souboru | Formát pojmenování zapsaných dat. Ve výchozím nastavení je ve formátu jeden soubor na oddíl. part-#####-tid-<guid> |
ne | Vzor: Řetězec Na oddíl: String[] Jako data ve sloupci: Řetězec Výstup do jednoho souboru: ['<fileName>'] |
filePattern partitionFileNames rowUrlColumn partitionFileNames |
Citace vše | Uzavření všech hodnot do uvozovek | ne | true nebo false |
QuoteAll |
Podpora datových typů
Aktivita kopírování
Komplexní datové typy Avro nejsou podporovány (záznamy, výčty, pole, mapy, sjednocení a pevné) v aktivitě kopírování.
Toky dat
Při práci se soubory Avro v tocích dat můžete číst a zapisovat složité datové typy, ale nezapomeňte nejprve vymazat fyzické schéma z datové sady. V tocích dat můžete nastavit logickou projekci a odvodit sloupce, které jsou komplexními strukturami, a pak tato pole automaticky mapovat na soubor Avro.