Čtení dat sdílených pomocí otevřeného sdílení delta (pro příjemce)

Článek
08/21/2024

Tento článek popisuje, jak číst data, která s vámi někdo sdílí pomocí otevřeného protokolu sdílení delta. Obsahuje pokyny ke čtení sdílených dat pomocí Databricks, Apache Sparku, pandas, Power BI a Tableau.

Při otevřeném sdílení použijete soubor s přihlašovacími údaji sdílený s členem vašeho týmu poskytovatelem dat, abyste získali zabezpečený přístup ke čtení sdílených dat. Přístup přetrvává, dokud jsou přihlašovací údaje platné a poskytovatel bude dál sdílet data. Zprostředkovatelé spravují vypršení platnosti a obměně přihlašovacích údajů. Aktualizace dat jsou dostupné téměř v reálném čase. Můžete číst a vytvářet kopie sdílených dat, ale nemůžete upravovat zdrojová data.

Poznámka:

Pokud s vámi někdo sdílí data pomocí sdílení Databricks-to-Databricks Delta, nepotřebujete pro přístup k datům soubor přihlašovacích údajů a tento článek se na vás nevztahuje. Pokyny najdete v tématu Čtení dat sdílených pomocí sdílení Databricks-to-Databricks Delta (pro příjemce).

Následující části popisují, jak používat Azure Databricks, Apache Spark, pandas a Power BI pro přístup ke sdíleným datům a ke čtení sdílených dat pomocí souboru s přihlašovacími údaji. Úplný seznam konektorů pro rozdílové sdílení a informace o tom, jak je používat, najdete v opensourcové dokumentaci ke sdílení delta. Pokud narazíte na potíže s přístupem ke sdíleným datům, obraťte se na poskytovatele dat.

Poznámka:

Integrace partnerů jsou, pokud není uvedeno jinak, poskytnuté třetími stranami a musíte mít účet s příslušným poskytovatelem pro použití jejich produktů a služeb. I když se služba Databricks zaměřuje na maximální aktuálnost obsahu, neposkytujeme v souvislosti s integrací nebo přesností obsahu na stránkách s partnerskou integrací žádné záruky. S dotazy ohledně integrace se prosím obracejte na příslušné poskytovatele.

Než začnete

Člen vašeho týmu musí stáhnout soubor přihlašovacích údajů sdílený poskytovatelem dat. Viz Získání přístupu v otevřeném modelu sdílení.

Měli by použít zabezpečený kanál ke sdílení daného souboru nebo umístění souboru s vámi.

Tato část popisuje, jak pomocí otevřeného konektoru pro sdílení přistupovat ke sdíleným datům pomocí poznámkového bloku v pracovním prostoru Azure Databricks. Vy nebo jiný člen vašeho týmu uložíte soubor přihlašovacích údajů do DBFS a pak ho použijete k ověření v účtu Azure Databricks poskytovatele dat a přečtete si data, která s vámi sdílí poskytovatel dat.

Poznámka:

Pokud poskytovatel dat používá sdílení Databricks-to-Databricks a nesdílel s vámi soubor přihlašovacích údajů, musíte k datům přistupovat pomocí katalogu Unity. Pokyny najdete v tématu Čtení dat sdílených pomocí sdílení Databricks-to-Databricks Delta (pro příjemce).

V tomto příkladu vytvoříte poznámkový blok s více buňkami, které můžete spustit nezávisle. Místo toho můžete přidat příkazy poznámkového bloku do stejné buňky a spustit je postupně.

Krok 1: Uložení souboru přihlašovacích údajů do DBFS (pokyny Pythonu)

V tomto kroku použijete poznámkový blok Pythonu v Azure Databricks k uložení souboru přihlašovacích údajů, aby uživatelé ve vašem týmu měli přístup ke sdíleným datům.

Pokud jste vy nebo někdo z vašeho týmu už soubor s přihlašovacími údaji uložili do DBFS, přejděte k dalšímu kroku.

V textovém editoru otevřete soubor přihlašovacích údajů.
V pracovním prostoru Azure Databricks klikněte na Nový > poznámkový blok.
- Zadejte název.
- Nastavte výchozí jazyk poznámkového bloku na Python.
- Vyberte cluster, který chcete připojit k poznámkovému bloku.
- Klikněte na Vytvořit.
Poznámkový blok se otevře v editoru poznámkových bloků.
Pokud chcete pro přístup ke sdíleným datům použít Python nebo pandas, nainstalujte konektor Pythonu pro rozdílové sdílení. V editoru poznámkových bloků vložte následující příkaz:
```
%sh pip install delta-sharing
```
Spusťte buňku.

Knihovna delta-sharing Pythonu se nainstaluje do clusteru, pokud ještě není nainstalovaná.
Do nové buňky vložte následující příkaz, který nahraje obsah souboru přihlašovacích údajů do složky v DBFS. Proměnné nahraďte následujícím způsobem:
- <dbfs-path>: cesta ke složce, do které chcete uložit soubor přihlašovacích údajů.
- <credential-file-contents>: obsah souboru přihlašovacích údajů. Toto není cesta k souboru, ale zkopírovaný obsah souboru.
  
  Soubor přihlašovacích údajů obsahuje JSON, který definuje tři pole: shareCredentialsVersion, endpointa bearerToken.
```
%scala
dbutils.fs.put("<dbfs-path>/config.share","""
<credential-file-contents>
""")
```
Spusťte buňku.

Po nahrání souboru přihlašovacích údajů můžete tuto buňku odstranit. Všichni uživatelé pracovního prostoru mohou číst soubor přihlašovacích údajů z DBFS a soubor s přihlašovacími údaji je k dispozici ve službě DBFS ve všech clusterech a skladech SQL ve vašem pracovním prostoru. Pokud chcete buňku odstranit, klikněte v nabídce akcí buňky úplně vpravo na Cell actionsx.

Krok 2: Použití poznámkového bloku k výpisu a čtení sdílených tabulek

V tomto kroku zobrazíte seznam tabulek ve sdílené složce nebo sadu sdílených tabulek a oddílů a dotazujete se na tabulku.

Pomocí Pythonu vypište tabulky ve sdílené složce.

Do nové buňky vložte následující příkaz. Nahraďte cestou vytvořenou v kroku 1: Uložte <dbfs-path> soubor přihlašovacích údajů do DBFS (pokyny Pythonu).

Když se kód spustí, Python načte soubor přihlašovacích údajů z DBFS v clusteru. Přístup k datům uloženým v DBFS v cestě /dbfs/.
```
import delta_sharing

client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")

client.list_all_tables()
```
Spusťte buňku.

Výsledkem je pole tabulek spolu s metadaty pro každou tabulku. Následující výstup ukazuje dvě tabulky:
```
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
```
Pokud je výstup prázdný nebo neobsahuje očekávané tabulky, obraťte se na poskytovatele dat.
Dotazování na sdílenou tabulku
- Použití scaly:
  
  Do nové buňky vložte následující příkaz. Při spuštění kódu se soubor přihlašovacích údajů načítá z DBFS prostřednictvím prostředí JVM.
  
  Proměnné nahraďte následujícím způsobem:
  - <profile-path>: cesta DBFS souboru přihlašovacích údajů. Například /<dbfs-path>/config.share.
  - <share-name>: hodnota share= tabulky.
  - <schema-name>: hodnota schema= tabulky.
  - <table-name>: hodnota name= tabulky.
```
%scala
    spark.read.format("deltaSharing")
    .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
```
  Spusťte buňku. Při každém načtení sdílené tabulky se zobrazí nová data ze zdroje.
- Pomocí SQL:
  
  Pokud chcete dotazovat data pomocí SQL, vytvoříte v pracovním prostoru místní tabulku ze sdílené tabulky a pak se dotazujete na místní tabulku. Sdílená data nejsou uložená nebo uložená v mezipaměti v místní tabulce. Pokaždé, když se dotazujete na místní tabulku, uvidíte aktuální stav sdílených dat.
  
  Do nové buňky vložte následující příkaz.
  
  Proměnné nahraďte následujícím způsobem:
  - <local-table-name>: název místní tabulky.
  - <profile-path>: umístění souboru přihlašovacích údajů.
  - <share-name>: hodnota share= tabulky.
  - <schema-name>: hodnota schema= tabulky.
  - <table-name>: hodnota name= tabulky.
```
%sql
DROP TABLE IF EXISTS table_name;

CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";

SELECT * FROM <local-table-name> LIMIT 10;
```
  Při spuštění příkazu se sdílená data dotazují přímo. Jako test se na tabulku dotazuje a vrátí se prvních 10 výsledků.
Pokud je výstup prázdný nebo neobsahuje očekávaná data, obraťte se na poskytovatele dat.

Apache Spark: Čtení sdílených dat

Pokud chcete získat přístup ke sdíleným datům pomocí Sparku 3.x nebo novějšího, postupujte takto.

Tyto pokyny předpokládají, že máte přístup k souboru přihlašovacích údajů, který sdílel poskytovatel dat. Viz Získání přístupu v otevřeném modelu sdílení.

Pokud chcete získat přístup k metadatům souvisejícím se sdílenými daty, jako je seznam tabulek, které s vámi někdo sdílí, postupujte takto. V tomto příkladu se používá Python.

Nainstalujte konektor Pythonu pro rozdílové sdílení:
```
pip install delta-sharing
```
Nainstalujte konektor Apache Spark.

Výpis sdílených tabulek pomocí Sparku

Zobrazí seznam tabulek ve sdílené složce. V následujícím příkladu nahraďte <profile-path> umístěním souboru přihlašovacích údajů.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Výsledkem je pole tabulek spolu s metadaty pro každou tabulku. Následující výstup ukazuje dvě tabulky:

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

Pokud je výstup prázdný nebo neobsahuje očekávané tabulky, obraťte se na poskytovatele dat.

Přístup ke sdíleným datům pomocí Sparku

Spusťte následující příkaz a nahraďte tyto proměnné:

<profile-path>: umístění souboru přihlašovacích údajů.
<share-name>: hodnota share= tabulky.
<schema-name>: hodnota schema= tabulky.
<table-name>: hodnota name= tabulky.
<version-as-of>:volitelný. Verze tabulky pro načtení dat. Funguje pouze v případě, že poskytovatel dat sdílí historii tabulky. Vyžaduje delta-sharing-spark verzi 0.5.0 nebo vyšší.
<timestamp-as-of>:volitelný. Načtěte data do verze před nebo v daném časovém razítku. Funguje pouze v případě, že poskytovatel dat sdílí historii tabulky. Vyžaduje delta-sharing-spark verzi 0.6.0 nebo vyšší.

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

Spusťte následující příkaz a nahraďte tyto proměnné:

<profile-path>: umístění souboru přihlašovacích údajů.
<share-name>: hodnota share= tabulky.
<schema-name>: hodnota schema= tabulky.
<table-name>: hodnota name= tabulky.
<version-as-of>:volitelný. Verze tabulky pro načtení dat. Funguje pouze v případě, že poskytovatel dat sdílí historii tabulky. Vyžaduje delta-sharing-spark verzi 0.5.0 nebo vyšší.
<timestamp-as-of>:volitelný. Načtěte data do verze před nebo v daném časovém razítku. Funguje pouze v případě, že poskytovatel dat sdílí historii tabulky. Vyžaduje delta-sharing-spark verzi 0.6.0 nebo vyšší.

spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

Přístup ke sdílenému datovému kanálu změn pomocí Sparku

Pokud s vámi někdo sdílí historii tabulek a ve zdrojové tabulce je povolený datový kanál CDF (Change Data Feed), můžete k datovému kanálu změn přistupovat spuštěním následujícího příkazu a nahrazením těchto proměnných. Vyžaduje delta-sharing-spark verzi 0.5.0 nebo vyšší.

Musí být zadaný pouze jeden počáteční parametr.

<profile-path>: umístění souboru přihlašovacích údajů.
<share-name>: hodnota share= tabulky.
<schema-name>: hodnota schema= tabulky.
<table-name>: hodnota name= tabulky.
<starting-version>:volitelný. Počáteční verze dotazu včetně. Zadejte jako dlouhý.
<ending-version>:volitelný. Koncová verze dotazu včetně. Pokud koncová verze není k dispozici, rozhraní API použije nejnovější verzi tabulky.
<starting-timestamp>:volitelný. Počáteční časové razítko dotazu se převede na verzi vytvořenou větší nebo rovnou tomuto časovému razítku. Zadejte jako řetězec ve formátu yyyy-mm-dd hh:mm:ss[.fffffffff].
<ending-timestamp>:volitelný. Koncové časové razítko dotazu se převede na verzi vytvořenou dříve nebo rovna tomuto časovému razítku. Zadání jako řetězce ve formátu yyyy-mm-dd hh:mm:ss[.fffffffff]

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Pokud je výstup prázdný nebo neobsahuje očekávaná data, obraťte se na poskytovatele dat.

Přístup ke sdílené tabulce pomocí strukturovaného streamování Sparku

Pokud se s vámi sdílí historie tabulek, můžete streamovat čtení sdílených dat. Vyžaduje delta-sharing-spark verzi 0.6.0 nebo vyšší.

Podporované možnosti:

ignoreDeletes: Ignorujte transakce, které odstraňují data.
ignoreChanges: Opětovné zpracování aktualizací, pokud byly soubory přepsány ve zdrojové tabulce z důvodu operace změny dat, jako UPDATEje , MERGE INTO( DELETE v rámci oddílů) nebo OVERWRITE. Nezměněné řádky je možné přesto vygenerovat. Proto by vaši podřízení spotřebitelé měli mít možnost zpracovávat duplicity. Odstranění se nešíří v podřízené části. ignoreChanges zahrnuje ignoreDeletes. Proto pokud použijete ignoreChanges, stream se nenaruší odstraněním nebo aktualizacemi zdrojové tabulky.
startingVersion: Verze sdílené tabulky, od které se má začít. Všechny změny tabulky od této verze (včetně) budou přečtené zdrojem streamování.
startingTimestamp: Časové razítko, od které se má začít. Zdroj streamování přečte všechny změny tabulky potvrzené v časovém razítku (včetně). Příklad: "2023-01-01 00:00:00.0".
maxFilesPerTrigger: Počet novýchsouborůch
maxBytesPerTrigger: Množství dat, která se zpracovávají v každé mikrodávce. Tato možnost nastaví "soft max", což znamená, že dávkové procesy zpracovávají přibližně toto množství dat a můžou zpracovávat více než limit, aby se dotaz streamování v případech, kdy je nejmenší vstupní jednotka větší než tento limit.
readChangeFeed: Stream čte datový kanál změn sdílené tabulky.

Nepodporované možnosti:

Trigger.availableNow

Ukázkové dotazy strukturovaného streamování

Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Viz také streamování v Azure Databricks.

Čtení tabulek s povolenými vektory odstranění nebo mapováním sloupců

Důležité

Tato funkce je ve verzi Public Preview.

Vektory odstranění jsou funkce optimalizace úložiště, kterou může váš poskytovatel povolit u sdílených tabulek Delta. Podívejte se, co jsou vektory odstranění?

Azure Databricks podporuje také mapování sloupců pro tabulky Delta. Viz Přejmenování a vyřazení sloupců s mapováním sloupců Delta Lake.

Pokud váš poskytovatel nasdílel tabulku s povolenými vektory odstranění nebo mapováním sloupců, můžete si tabulku přečíst pomocí výpočetních prostředků, na kterých běží delta-sharing-spark verze 3.1 nebo vyšší. Pokud používáte clustery Databricks, můžete provádět dávkové čtení pomocí clusteru se spuštěným modulem Databricks Runtime 14.1 nebo novějším. Dotazy CDF a streamování vyžadují Databricks Runtime 14.2 nebo vyšší.

Dávkové dotazy můžete provádět tak, jak jsou, protože se dají automaticky přeložit responseFormat na základě funkcí tabulky sdílené tabulky.

Pokud chcete číst datový kanál změn (CDF) nebo provádět streamované dotazy na sdílené tabulky s povolenými vektory odstranění nebo mapováním sloupců, musíte nastavit další možnost responseFormat=delta.

Následující příklady ukazují dávkové, CDF a streamovací dotazy:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Pandas: Čtení sdílených dat

Pokud chcete získat přístup ke sdíleným datům v knihovně pandas 0.25.3 nebo vyšší, postupujte takto.

Tyto pokyny předpokládají, že máte přístup k souboru přihlašovacích údajů, který sdílel poskytovatel dat. Viz Získání přístupu v otevřeném modelu sdílení.

Pokud chcete získat přístup k metadatům souvisejícím se sdílenými daty, jako je seznam tabulek, které s vámi někdo sdílí, musíte nainstalovat konektor Pythonu pro rozdílové sdílení.

pip install delta-sharing

Výpis sdílených tabulek pomocí knihovny pandas

Pokud chcete zobrazit seznam tabulek ve sdílené složce, spusťte následující příkaz a nahraďte <profile-path>/config.share umístěním souboru přihlašovacích údajů.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Pokud je výstup prázdný nebo neobsahuje očekávané tabulky, obraťte se na poskytovatele dat.

Přístup ke sdíleným datům pomocí knihovny pandas

Pokud chcete získat přístup ke sdíleným datům v knihovně pandas pomocí Pythonu, spusťte následující příkaz a nahraďte proměnné následujícím způsobem:

<profile-path>: umístění souboru přihlašovacích údajů.
<share-name>: hodnota share= tabulky.
<schema-name>: hodnota schema= tabulky.
<table-name>: hodnota name= tabulky.

import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

Přístup ke sdílenému datovému kanálu změn pomocí knihovny pandas

Pokud chcete získat přístup ke kanálu změn dat pro sdílenou tabulku v knihovně pandas pomocí Pythonu, spusťte následující příkaz a nahraďte proměnné následujícím způsobem. Datový kanál změn nemusí být k dispozici v závislosti na tom, jestli poskytovatel dat sdílel datový kanál změn pro tabulku nebo ne.

<starting-version>:volitelný. Počáteční verze dotazu včetně.
<ending-version>:volitelný. Koncová verze dotazu včetně.
<starting-timestamp>:volitelný. Počáteční časové razítko dotazu. Převede se na verzi vytvořenou ve větším nebo rovnou tomuto časovému razítku.
<ending-timestamp>:volitelný. Koncové časové razítko dotazu. Tato hodnota se převede na verzi vytvořenou dříve nebo rovna tomuto časovému razítku.

import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

Pokud je výstup prázdný nebo neobsahuje očekávaná data, obraťte se na poskytovatele dat.

Power BI: Čtení sdílených dat

Konektor Rozdílového sdílení Power BI umožňuje zjišťovat, analyzovat a vizualizovat datové sady sdílené s vámi prostřednictvím otevřeného protokolu Delta Sharing.

Požadavky

Power BI Desktop 2.99.621.0 nebo novější
Přístup k souboru přihlašovacích údajů, který sdílel poskytovatel dat. Viz Získání přístupu v otevřeném modelu sdílení.

Připojení k Databricks

Pokud se chcete připojit k Azure Databricks pomocí konektoru Delta Sharing, postupujte takto:

Otevřete sdílený soubor přihlašovacích údajů pomocí textového editoru, abyste získali adresu URL koncového bodu a token.
Otevřete Power BI Desktop.
V nabídce Získat data vyhledejte rozdílové sdílení.
Vyberte konektor a klikněte na Připojit.
Zadejte adresu URL koncového bodu, kterou jste zkopírovali ze souboru s přihlašovacími údaji, do pole adresa URL serveru Delta Sharing Server.
Volitelně můžete na kartě Upřesnit možnosti nastavit limit řádků pro maximální počet řádků, které si můžete stáhnout. Ve výchozím nastavení je tato hodnota nastavená na 1 milion řádků.
Klikněte na OK.
V případě ověřování zkopírujte token, který jste získali ze souboru s přihlašovacími údaji, do nosné tokeny.
Klepněte na tlačítko Připojit.

Konektor rozdílového sdílení Power BI má následující omezení:

Data, která konektor načte, se musí vejít do paměti vašeho počítače. Pokud chcete tento požadavek spravovat, omezí konektor počet importovaných řádků na limit řádků, který jste nastavili na kartě Upřesnit možnosti v Power BI Desktopu.

Tableau: Čtení sdílených dat

Konektor Tableau Delta Sharing umožňuje zjišťovat, analyzovat a vizualizovat datové sady, které s vámi někdo sdílí prostřednictvím otevřeného protokolu Delta Sharing.

Požadavky

Tableau Desktop a Tableau Server 2024.1 nebo novější
Přístup k souboru přihlašovacích údajů, který sdílel poskytovatel dat. Viz Získání přístupu v otevřeném modelu sdílení.

Připojení k Azure Databricks

Pokud se chcete připojit k Azure Databricks pomocí konektoru Delta Sharing, postupujte takto:

Přejděte na Tableau Exchange, podle pokynů stáhněte konektor Delta Sharing Connector a vložte ho do příslušné složky plochy.
Otevřete Desktop Tableau.
Na stránce Konektory vyhledejte "Delta Sharing by Databricks".
Vyberte Nahrát soubor sdílené složky a zvolte soubor přihlašovacích údajů, který sdílel poskytovatel.
Klikněte na Získat data.
V Průzkumníku dat vyberte tabulku.
Volitelně můžete přidat filtry SQL nebo limity řádků.
Klikněte na Získat data tabulky.

Konektor pro sdílení tabulky Tableau Delta má následující omezení:

Data, která konektor načte, se musí vejít do paměti vašeho počítače. Pokud chcete tento požadavek spravovat, omezí konektor počet importovaných řádků na limit řádků, který jste nastavili v Tableau.
Všechny sloupce jsou vráceny jako typ String.
Filtr SQL funguje jenom v případě, že váš server pro rozdílové sdílení podporuje predikátHint.

Žádost o nové přihlašovací údaje

Pokud dojde ke ztrátě, poškození nebo ohrožení přihlašovacích údajů nebo vypršení platnosti přihlašovacích údajů bez odeslání nového poskytovatele, obraťte se na svého poskytovatele a požádejte o nové přihlašovací údaje.

Sdílet prostřednictvím

Než začnete

Krok 1: Uložení souboru přihlašovacích údajů do DBFS (pokyny Pythonu)

Krok 2: Použití poznámkového bloku k výpisu a čtení sdílených tabulek

Apache Spark: Čtení sdílených dat

Výpis sdílených tabulek pomocí Sparku

Přístup ke sdíleným datům pomocí Sparku

Python

Scala

Přístup ke sdílenému datovému kanálu změn pomocí Sparku

Python

Scala

Přístup ke sdílené tabulce pomocí strukturovaného streamování Sparku

Ukázkové dotazy strukturovaného streamování

Scala

Python

Čtení tabulek s povolenými vektory odstranění nebo mapováním sloupců

Pandas: Čtení sdílených dat

Výpis sdílených tabulek pomocí knihovny pandas

Přístup ke sdíleným datům pomocí knihovny pandas

Přístup ke sdílenému datovému kanálu změn pomocí knihovny pandas

Power BI: Čtení sdílených dat

Požadavky

Připojení k Databricks

Tableau: Čtení sdílených dat

Požadavky

Připojení k Azure Databricks

Žádost o nové přihlašovací údaje

Váš názor

Další materiály

Sdílet prostřednictvím

Než začnete

Azure Databricks: Čtení sdílených dat pomocí otevřených konektorů pro sdílení

Krok 1: Uložení souboru přihlašovacích údajů do DBFS (pokyny Pythonu)

Krok 2: Použití poznámkového bloku k výpisu a čtení sdílených tabulek

Apache Spark: Čtení sdílených dat

Instalace konektorů Pythonu a Sparku pro sdílení delta

Výpis sdílených tabulek pomocí Sparku

Přístup ke sdíleným datům pomocí Sparku

Python

Scala

Přístup ke sdílenému datovému kanálu změn pomocí Sparku

Python

Scala

Přístup ke sdílené tabulce pomocí strukturovaného streamování Sparku

Ukázkové dotazy strukturovaného streamování

Scala

Python

Čtení tabulek s povolenými vektory odstranění nebo mapováním sloupců

Pandas: Čtení sdílených dat

Instalace konektoru Delta Sharing Python

Výpis sdílených tabulek pomocí knihovny pandas

Přístup ke sdíleným datům pomocí knihovny pandas

Přístup ke sdílenému datovému kanálu změn pomocí knihovny pandas

Power BI: Čtení sdílených dat

Požadavky

Připojení k Databricks

Omezení konektoru Pro sdílení rozdílového sdílení Power BI

Tableau: Čtení sdílených dat

Požadavky

Připojení k Azure Databricks

Omezení konektoru Tableau Delta Sharing

Žádost o nové přihlašovací údaje

Váš názor

Další materiály