Kopírování dat z Cassandra pomocí služby Azure Data Factory nebo Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak pomocí aktivity kopírování v kanálu Azure Data Factory nebo Synapse Analytics kopírovat data z databáze Cassandra. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování.
Podporované funkce
Tento konektor Cassandra je podporovaný pro následující funkce:
Podporované funkce | IR |
---|---|
aktivita Copy (zdroj/-) | (1) (2) |
Aktivita Lookup | (1) (2) |
(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime
Seznam úložišť dat podporovaných jako zdroje nebo jímky najdete v tabulce Podporované úložiště dat.
Konkrétně tento konektor Cassandra podporuje:
- Cassandra verze 2.x a 3.x.
- Kopírování dat pomocí základního nebo anonymního ověřování
Poznámka:
Pro aktivitu spuštěnou v místním prostředí Integration Runtime se Cassandra 3.x podporuje, protože ir verze 3.7 a vyšší.
Požadavky
Pokud se vaše úložiště dat nachází uvnitř místní sítě, virtuální sítě Azure nebo amazonového privátního cloudu, musíte nakonfigurovat místní prostředí Integration Runtime pro připojení k němu.
Pokud je vaše úložiště dat spravovanou cloudovou datovou službou, můžete použít Azure Integration Runtime. Pokud je přístup omezený na IP adresy schválené v pravidlech brány firewall, můžete do seznamu povolených přidat IP adresy prostředí Azure Integration Runtime.
K přístupu k místní síti bez nutnosti instalace a konfigurace místního prostředí Integration Runtime můžete také použít funkci Runtime integrace spravované virtuální sítě ve službě Azure Data Factory.
Další informace o mechanismech zabezpečení sítě a možnostech podporovaných službou Data Factory najdete v tématu Strategie přístupu k datům.
Prostředí Integration Runtime poskytuje integrovaný ovladač Cassandra, takže při kopírování dat z/do Cassandra nemusíte ručně instalovat žádný ovladač.
Začínáme
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby do Cassandry pomocí uživatelského rozhraní
Pomocí následujících kroků vytvořte propojenou službu cassandře v uživatelském rozhraní webu Azure Portal.
Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:
Vyhledejte Cassandra a vyberte konektor Cassandra.
Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.
Podrobnosti konfigurace konektoru
Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro konektor Cassandra.
Vlastnosti propojené služby
Propojená služba Cassandra podporuje následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavená na: Cassandra. | Ano |
host | Nejméně jedna IP adresa nebo názvy hostitelů serverů Cassandra. Zadejte čárkami oddělený seznam IP adres nebo názvů hostitelů pro připojení ke všem serverům současně. |
Ano |
port | Port TCP, který server Cassandra používá k naslouchání klientským připojením. | Ne (výchozí hodnota je 9042) |
authenticationType | Typ ověřování sloužící k připojení k databázi Cassandra Povolené hodnoty jsou: Základní a Anonymní. |
Ano |
username | Zadejte uživatelské jméno pro uživatelský účet. | Ano, pokud je typ authenticationType nastavený na Basic. |
Heslo | Zadejte heslo pro uživatelský účet. Označte toto pole jako securestring, abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault. | Ano, pokud je typ authenticationType nastavený na Basic. |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Další informace najdete v části Požadavky . Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. | No |
Poznámka:
Připojení k Cassandře pomocí protokolu TLS se v současné době nepodporuje.
Příklad:
{
"name": "CassandraLinkedService",
"properties": {
"type": "Cassandra",
"typeProperties": {
"host": "<host>",
"authenticationType": "Basic",
"username": "<username>",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku o datových sadách . Tato část obsahuje seznam vlastností podporovaných datovou sadou Cassandra.
Pokud chcete kopírovat data z Cassandra, nastavte vlastnost typu datové sady na CassandraTable. Podporují se následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na: CassandraTable. | Ano |
keyspace | Název prostoru klíčů nebo schématu v databázi Cassandra | Ne (pokud je zadán dotaz pro CassandraSource) |
tableName | Název tabulky v databázi Cassandra | Ne (pokud je zadán dotaz pro CassandraSource) |
Příklad:
{
"name": "CassandraDataset",
"properties": {
"type": "CassandraTable",
"typeProperties": {
"keySpace": "<keyspace name>",
"tableName": "<table name>"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Cassandra linked service name>",
"type": "LinkedServiceReference"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem Cassandra.
Cassandra jako zdroj
Pokud chcete kopírovat data z Cassandra, nastavte typ zdroje v aktivitě kopírování na CassandraSource. Ve zdrojové části aktivity kopírování jsou podporovány následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavená na: CassandraSource. | Ano |
query | Ke čtení dat použijte vlastní dotaz. Dotaz SQL-92 nebo dotaz CQL Viz referenční dokumentace jazyka CQL. Při použití dotazu SQL zadejte název keyspace name.table představující tabulku, kterou chcete dotazovat. |
Ne (pokud jsou v datové sadě zadány názvy tabulek a keyspace). |
Úroveň konzistence | Úroveň konzistence určuje, kolik replik musí odpovědět na požadavek na čtení před vrácením dat do klientské aplikace. Cassandra zkontroluje zadaný počet replik, aby data splňovala požadavek na čtení. Podrobnosti najdete v tématu Konfigurace konzistence dat. Povolené hodnoty jsou: JEDNA, DVĚ, TŘI, KVORUM, VŠE, LOCAL_QUORUM, EACH_QUORUM a LOCAL_ONE. |
Ne (výchozí hodnota je ONE ) |
Příklad:
"activities":[
{
"name": "CopyFromCassandra",
"type": "Copy",
"inputs": [
{
"referenceName": "<Cassandra input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "CassandraSource",
"query": "select id, firstname, lastname from mykeyspace.mytable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mapování datových typů pro Cassandra
Při kopírování dat z Cassandry se z datových typů Cassandra používají následující mapování k dočasným datovým typům používaným interně v rámci služby. Informace o tom, jak aktivita kopírování mapuje zdrojové schéma a datový typ na jímku, najdete v mapování schématu schématu a datového typu schématu schématu a datového typu.
Datový typ Cassandra | Dočasný datový typ služby |
---|---|
ASCII | String |
BIGINT | Int64 |
BLOB | Bajt[] |
BOOLEOVSKÝ | Logické |
DESETINNÝ | Desetinné |
DVOJITÝ | Hodnota s dvojitou přesností |
FLOAT | Jeden |
INET | String |
INT | Int32 |
TEXT | String |
ČASOVÉ RAZÍTKO | DateTime |
TIMEUUID | Guid |
UUID | Guid |
VARCHAR | String |
VARINT | Desetinné číslo |
Poznámka:
Typy kolekcí (mapování, sada, seznam atd.) najdete v části Práce s kolekcemi Cassandra pomocí oddílu virtuální tabulky .
Uživatelem definované typy nejsou podporovány.
Délka délky binárního sloupce a řetězce sloupce nesmí být větší než 4 000.
Práce s kolekcemi pomocí virtuální tabulky
Služba používá integrovaný ovladač ODBC pro připojení k databázi Cassandra a kopírování dat z databáze Cassandra. U typů kolekcí, včetně mapování, sady a seznamu, ovladač přenormalizuje data do odpovídajících virtuálních tabulek. Konkrétně pokud tabulka obsahuje nějaké sloupce kolekce, ovladač vygeneruje následující virtuální tabulky:
- Základní tabulka, která obsahuje stejná data jako skutečná tabulka s výjimkou sloupců kolekce. Základní tabulka používá stejný název jako skutečná tabulka, kterou představuje.
- Virtuální tabulka pro každý sloupec kolekce, která rozbalí vnořená data. Virtuální tabulky, které představují kolekce, jsou pojmenovány pomocí názvu skutečné tabulky, oddělovače "vt" a názvu sloupce.
Virtuální tabulky odkazují na data v reálné tabulce a umožňují ovladači přístup k denormalizovaným datům. Podrobnosti najdete v části Příklad. K obsahu kolekcí Cassandra se dostanete dotazováním a spojením virtuálních tabulek.
Příklad
Například následující tabulka "ExampleTable" je tabulka databáze Cassandra, která obsahuje celočíselný sloupec primárního klíče s názvem "pk_int", textový sloupec s názvem hodnota, sloupec seznamu, sloupec mapy a nastavený sloupec (s názvem StringSet).
pk_int | Hodnota | List | Mapovat | StringSet |
---|---|---|---|---|
0 | "ukázková hodnota 1" | ["1", "2", "3"] | {"S1": "a", "S2": "b"} | {"A", "B", "C"} |
3 | "ukázková hodnota 3" | ["100", "101", "102", "105"] | {"S1": "t"} | {"A", "E"} |
Ovladač by vygeneroval několik virtuálních tabulek, které by představovaly tuto jedinou tabulku. Sloupce cizího klíče ve virtuálních tabulkách odkazují na sloupce primárního klíče v reálné tabulce a označují, který skutečný řádek tabulky odpovídá řádku virtuální tabulky.
První virtuální tabulka je základní tabulka s názvem ExampleTable zobrazená v následující tabulce:
pk_int | Hodnota |
---|---|
0 | "ukázková hodnota 1" |
3 | "ukázková hodnota 3" |
Základní tabulka obsahuje stejná data jako původní tabulka databáze s výjimkou kolekcí, které nejsou z této tabulky vynechány a rozbalené v jiných virtuálních tabulkách.
Následující tabulky ukazují virtuální tabulky, které přenormalizují data ze sloupců List, Map a StringSet. Sloupce s názvy, které končí na "_index" nebo "_key", označují pozici dat v původním seznamu nebo mapě. Sloupce s názvy, které končí na "_value", obsahují rozbalená data z kolekce.
Tabulka "ExampleTable_vt_List":
pk_int | List_index | List_value |
---|---|---|
0 | 0 | 1 |
1 | 0 | 2 |
1 | 2 | 3 |
3 | 0 | 100 |
3 | 0 | 101 |
3 | 2 | 102 |
3 | 3 | 103 |
Tabulka "ExampleTable_vt_Map":
pk_int | Map_key | Map_value |
---|---|---|
0 | S1 | A |
0 | S2 | b |
3 | S1 | t |
Tabulka "ExampleTable_vt_StringSet":
pk_int | StringSet_value |
---|---|
0 | A |
0 | T |
0 | C |
3 | A |
3 | E |
Vlastnosti aktivity vyhledávání
Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.
Související obsah
Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v podporovaných úložištích dat.