Připojení Tableau a Azure Databricks
V tomto článku se dozvíte, jak se pomocí Partnerského připojení připojit z Azure Databricks k Tableau Desktopu a z Tableau Desktopu nebo Tableau Cloudu do Azure Databricks. Tento článek obsahuje také informace o Tableau Serveru v Linuxu.
Poznámka:
Pokud chcete nakonfigurovat přihlašování k Azure Databricks z Tableau Serveru, přečtěte si téma Konfigurace přihlašování k Azure Databricks ze služby Tableau Server.
Když použijete Azure Databricks jako zdroj dat s Tableau, můžete poskytovat výkonné interaktivní analýzy, které přinášejí příspěvky datových vědců a datových inženýrů do obchodních analytiků škálováním na masivní datové sady.
Prozkoumejte v Tableau Cloud s pomocí Azure Databricks
Při použití Azure Databricks jako zdroje dat s Tableau Cloudem můžete vytvářet zdroje dat Tableau z tabulek nebo schémat přímo z uživatelského rozhraní Databricks.
Požadavky
- Vaše data musí být v katalogu Unity a výpočetní prostředky (cluster) musí být povolené v katalogu Unity. Metastore Hive se v současné době nepodporuje.
Publikování tabulek Azure Databricks do cloudu Tableau
- Přihlaste se k pracovnímu prostoru Databricks a kliknutím na
Katalog na bočním panelu otevřete Průzkumníka katalogu.
- V rozevíracím seznamu v pravém horním rohu vyberte výpočetní prostředek.
- Otevřete katalog a vyberte schéma nebo tabulky, které chcete publikovat. Nevybírejte z metastoru Hive ani z katalogu ukázek.
- V pravém horním rohu klikněte na Použít s nástroji BI pro schéma nebo Otevřít na řídicím panelu pro tabulku.
- Vyberte Prozkoumat v Tableau Cloud.
- Ověřte, že výpočet a publikovaná data jsou požadovaná, a potom klikněte na Prozkoumat v Tableau Cloud.
- Za 10 až 20 sekund vás vyzve nová karta k přihlášení k vašemu účtu Tableau Cloud.
- Po přihlášení se dostanete na stránku Tableau, která vás vyzve k přihlášení zpět do Azure Databricks.
- Po přihlášení k Azure Databricks můžete začít vytvářet řídicí panel na stránce editoru sešitů.
- Můžete také kliknout na tlačítko Otevřít v Tableau Cloud a otevřít sešit v Tableau Cloud.
Funkce a poznámky
- Tabulku nebo schéma můžete publikovat. Při publikování schématu je nutné vybrat tabulku z panelu Tableau Zdroj dat.
- Databricks při publikování do Tableau Cloudu vynucuje OAuth jako režim ověřování.
- Publikovaný zdroj dat je ve stavu návrhu a není nikde uložen, je třeba ho uložit z Tableau Cloudu, aby byl přístupný ostatním uživatelům.
- Odkaz pro přesměrování vrácený Tableau vyprší přibližně po 5 minutách.
Požadavky na připojení Tableau a Azure Databricks
Podrobnosti o připojení pro výpočetní prostředek nebo SQL Warehouse, konkrétně název hostitele serveru a hodnota HTTP cesty .
Tableau Desktop 2019.3 nebo novější
Ovladač ODBC Databricks 2.6.15 nebo novější
Token Microsoft Entra ID (dříve Azure Active Directory) (doporučeno), osobní přístupový token Azure Databricksnebo přihlašovací údaje k vašemu účtu Microsoft Entra ID.
Poznámka:
Osvědčeným postupem při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks místo uživatelů pracovního prostoru používat tokeny patního přístupu, které patří instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Musíte mít přiřazenou jednu z následujících rolí MICROSOFT Entra ID:
Pokud je nakonfigurovaný pracovní postup souhlasu správce, můžou nesprávci požádat o přístup k Tableau při přihlášení.
Připojení Azure Databricks k Tableau Desktopu pomocí Partnerského připojení
Partner Connect můžete použít k připojení výpočetního prostředku nebo SQL Warehouse pomocí Tableau Desktopu během několika kliknutí.
- Ujistěte se, že váš účet, pracovní prostor a přihlášený uživatel Azure Databricks splňují všechny požadavky pro Partner Connect.
- Na bočním panelu klikněte na ikonu
Marketplace.
- V integraci Partner Connectklikněte na Zobrazit vše.
- Klikněte na dlaždici Tableau .
- V dialogovém okně Připojit k partnerovi v části Compute zvolte název výpočetního prostředku Azure Databricks, který chcete připojit.
- Zvolte Stáhnout soubor připojení.
- Otevřete stažený soubor připojení, který spustí Tableau Desktop.
- V Tableau Desktopu zadejte svoje ověřovací přihlašovací údaje a potom klikněte na Přihlásit se:
- Pokud chcete použít token MICROSOFT Entra ID, zadejte token pro uživatelské jméno a token ID Microsoft Entra pro heslo.
- Pokud chcete použít osobní přístupový token Azure Databricks, zadejte token pro uživatelské jméno a váš osobní přístupový token pro heslo.
- Chcete-li použít přihlašovací údaje Microsoft Entra ID, klepněte na Upravit připojení, poklikejte na databázi na kartě Data a potom v seznamu Ověřování vyberte Microsoft Entra ID.
Pro Tableau Desktop 2021.1 a vyšší:
- Pokud nepoužíváte účet hosta B2B B2B microsoft Entra ID (dříve Azure Active Directory) nebo Azure Databricks ve službě Azure Government, můžete jednoduše zadat
https://login.microsoftonline.com/common
jako koncový bod OAuth.
- Pokud použijete účet hosta Microsoft Entra ID B2B nebo službu Azure Databricks na Azure Government, požádejte svého správce o získání vyhrazeného instančního objektu Microsoft Entra ID.
Poznámka:
Pokud nejste správce, zobrazí se chyba Schválení správcem . Požádejte správce cloudových aplikací nebo správce aplikací, aby vám udělil oprávnění pro připojení k Tableau a zkuste se znovu přihlásit.
Pokud má váš účet Microsoft Entra ID povolený pracovní postup souhlasu správce, Tableau Desktop vás vyzve, abyste požádali o přístup k Tableau. Jakmile správce cloudové aplikace nebo správce aplikace žádost schválí, zkuste se znovu přihlásit.
- Pokud nepoužíváte účet hosta B2B B2B microsoft Entra ID (dříve Azure Active Directory) nebo Azure Databricks ve službě Azure Government, můžete jednoduše zadat
Připojení Tableau Desktopu k Azure Databricks
Podle těchto pokynů se připojte z Tableau Desktopu k výpočetnímu prostředku nebo SQL Warehouse.
Poznámka:
Pokud se chcete rychleji připojit pomocí Tableau Desktopu, použijte Partner Connect.
Spusťte Tableau Desktop.
Klepněte na tlačítko > soubor.
Na kartě Data klikněte na Připojit k datům.
V seznamu konektorů klikněte na Databricks .
Zadejte název hostitele serveru a cestu HTTP.
Pro Ověřenízvolte metodu ověření, zadejte ověřovací údaje a potom klikněte na Přihlásit.
Pokud chcete použít token Microsoft Entra ID, vyberte Osobní přístupový token a zadejte token Microsoft Entra ID pro Heslo.
Pokud chcete použít osobní přístupový token Azure Databricks, vyberte osobní přístupový token a zadejte svůj osobní přístupový token pro Heslo.
Pokud chcete použít své přihlašovací údaje Microsoft Entra ID, vyberte Microsoft Entra ID.
Pro Tableau Desktop 2021.1 a vyšší:
Pokud nepoužíváte účet hosta B2B B2B microsoft Entra ID (dříve Azure Active Directory) nebo Azure Databricks ve službě Azure Government, můžete jednoduše zadat
https://login.microsoftonline.com/common
jako koncový bod OAuth.- Pokud používáte účet hosta Microsoft Entra ID B2B nebo Azure Databricks ve službě Azure Government, obraťte se na správce a získejte vyhrazený sklad ID Microsoft Entra.
Poznámka:
Pokud nejste správce, zobrazí se chyba Schválení správcem . Požádejte správce cloudových aplikací nebo správce aplikací, aby vám udělil oprávnění pro připojení k Tableau a zkuste se přihlásit znovu.
Pokud má váš účet Microsoft Entra ID povolený pracovní postup souhlasu správce, Tableau Desktop vás vyzve, abyste požádali o přístup k Tableau. Jakmile správce cloudové aplikace nebo správce aplikace žádost schválí, zkuste se znovu přihlásit.
Pokud je pro váš pracovní prostor povolený katalog Unity, nastavte také výchozí katalog. Na kartě Upřesnit v části Vlastnosti připojení přidejte
Catalog=<catalog-name>
. Chcete-li změnit výchozí katalog, na kartě Počáteční SQL zadejteUSE CATALOG <catalog-name>
.
Připojení Tableau Cloudu k Azure Databricks
Podle těchto pokynů se připojte k výpočetnímu prostředku nebo SQL Warehouse z Tableau Cloudu.
- Spuštění nového sešitu
- Na řádku nabídek klikněte na Data>Nový zdroj dat.
- Na stránce Připojit k datům klikněte na Konektory>Databricks.
- Na stránce Azure Databricks zadejte hodnoty pro název hostitele serveru a pro cestu HTTP .
- Vyberte metodu ověřování a zadejte požadované informace (pokud existuje).
- Klikněte na Přihlásit se.
Tableau Server v Linuxu
Upravte /etc/odbcinst.ini
následující položky:
[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so
Poznámka:
Tableau Server v Linuxu doporučuje 64bitovou architekturu zpracování.
Publikování a aktualizace sešitu v cloudu Tableau z Desktopu Tableau
Tento článek ukazuje, jak publikovat sešit z Tableau Desktopu do Tableau Cloudu a udržovat ho aktualizované při změně zdroje dat. Potřebujete sešit v Desktopu Tableau a účtu Tableau Cloud .
- Extrahujte data sešitu z Tableau Desktop: v desktopové tabulce se zobrazeným sešitem klikněte na >
<data-source-name>
> Data extrahovat data. - V dialogovém okně Extrahovat data klepněte na tlačítko Extrahovat.
- Přejděte do umístění na místním počítači, kam chcete uložit extrahovaná data, a potom klikněte na Uložit.
- Publikujte zdroj dat sešitu do Tableau Cloudu: v Desktopu Tableau klikněte na server > publikovat zdroj >
<data-source-name>
dat . - Pokud se zobrazí dialogové okno Přihlášení k serveru Tableau, klikněte na odkaz Tableau Cloud a podle pokynů na obrazovce se přihlaste ke službě Tableau Cloud.
- V dialogovém okně Publikovat zdroj dat do Tableau Cloud vedle Aktualizace není povolena, klikněte na odkaz Upravit.
- V zobrazeném rozevíracím rámečku pro Ověřovánízměňte Obnovení není povoleno na Povolit přístup k obnovení.
- Kliknutím na libovolné místo mimo tento kontext ho skryjete.
- Vyberte Aktualizovat sešit a použijte publikovaný zdroj dat.
- Klikněte na Publikovat. Zdroj dat se zobrazí v cloudu Tableau.
- V Tableau Cloud v dialogovém okně Dokončení publikování klikněte na Plán a postupujte podle pokynů na obrazovce.
- Publikujte sešit do Tableau Cloud: v Desktopu Tableau se zobrazeným sešitem, který chcete publikovat, klikněte na > serveru.
- V dialogovém okně Publikovat sešit do cloudu Tableau klepněte na tlačítko Publikovat. Sešit se zobrazí v cloudu Tableau.
Tableau Cloud kontroluje změny ve zdroji dat podle nastaveného plánu a aktualizuje publikovaný sešit, pokud se zjistí změny.
Další informace najdete na webu Tableau takto:
- Publikování zdroje dat
- Komplexní kroky pro publikování sešitu
- Naplánování extrakce aktualizací při publikování sešitu
Osvědčené postupy a řešení problémů
Mezi dvě základní akce pro optimalizaci dotazů Tableau patří:
- Snižte počet dotazovaných a vizualizovaných záznamů v jednom grafu nebo řídicím panelu.
- Snižte počet dotazů odesílaných tabulkou v jednom grafu nebo řídicím panelu.
Rozhodnutí, které zkusit nejprve, závisí na řídicím panelu. Pokud máte několik různých grafů pro jednotlivé uživatele na stejném řídicím panelu, je pravděpodobné, že Tableau odesílá do Azure Databricks příliš mnoho dotazů. Pokud máte jenom několik grafů, ale jejich načtení trvá dlouho, pravděpodobně existuje příliš mnoho záznamů, které Azure Databricks vrací, aby se efektivně načetly.
Záznam výkonu Tableau, který je k dispozici na Desktopu Tableau i na Serveru Tableau, vám může pomoct identifikovat kritické body výkonu tím, že identifikuje procesy, které způsobují latenci při spuštění konkrétního pracovního postupu nebo řídicího panelu.
Povolení záznamu výkonu pro ladění jakéhokoli problému s Tableau
Pokud je například příčinou problému provádění dotazu, víte, že to souvisí s procesem datového stroje nebo zdrojem dat, který dotazujete. Pokud rozložení vizuálu funguje pomalu, víte, že se jedná o VizQL.
Pokud záznam výkonu říká, že latence se vyskytuje při provádění dotazu, je pravděpodobné, že Azure Databricks potřebuje příliš mnoho času k vrácení výsledků nebo že procesor ODBC/konektor zpracovává data pro SQL a VizQL. Když k tomu dojde, měli byste analyzovat to, co vracíte, a pokusit se změnit analytický vzor tak, aby měl řídicí panel pro každou skupinu, segment nebo článek, a nemuseli se pokoušet všechno zahltit do jednoho řídicího panelu a spoléhat se na rychlé filtry.
Pokud je nízký výkon způsoben řazením nebo rozložením vizuálu, může být příčinou problému počet značek, které se řídicí panel pokouší vrátit. Azure Databricks může rychle vrátit jeden milion záznamů, ale Tableau nemusí být schopen vypočítat rozložení a seřadit výsledky. Pokud se jedná o problém, agregujte dotaz a přejděte na nižší úrovně. Můžete také vyzkoušet větší počítač, protože Tableau je omezen pouze fyzickými prostředky na počítači, na kterém běží.
Podrobný kurz záznamu výkonu najdete v tématu Vytvoření záznamu výkonu.
Výkon na serveru Tableau versus Tableau Desktop
Obecně platí, že pracovní postup, který běží na Desktopu Tableau, není na Serveru Tableau rychlejší. Řídicí panel, který se nespustí na Desktopu Tableau, se na serveru Tableau nespustí.
Použití Desktopu je mnohem lepší technika řešení potíží, protože Tableau Server má více procesů, které je potřeba vzít v úvahu při řešení potíží. Pokud věci fungují v Tableau Desktopu, ale ne na Tableau Serveru, můžete problém bezpečně zúžit na procesy v Tableau Serveru, které nejsou v Tableau Desktopu.
Konfigurace
Ve výchozím nastavení přepíší parametry z adresy URL připojení ty v názvu DSN rozhraní Simba ODBC. Konfigurace ODBC můžete přizpůsobit dvěma způsoby z Tableau:
.tds
soubor pro jeden zdroj dat:- Podle pokynů v části Uložit zdroje dat exportujte
.tds
soubor pro zdroj dat. - Vyhledejte řádek vlastnosti
odbc-connect-string-extras=''
v souboru.tds
a nastavte parametry. Chcete-li například povolitAutoReconnect
aUseNativeQuery
, můžete změnit řádek naodbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'
. - Znovu načtěte
.tds
soubor opětovným připojením.
Výpočetní prostředek je optimalizovaný tak, aby pro shromažďování velkých výsledků používal méně paměti haldy, takže může obsluhovat více řádků na každý blok načtení než výchozí simba ODBC. Připojte
RowsFetchedPerBlock=100000'
k hodnotěodbc-connect-string-extras
vlastnosti.- Podle pokynů v části Uložit zdroje dat exportujte
.tdc
soubor pro všechny zdroje dat:
Optimalizace grafů (listů)
Existuje řada taktických optimalizací grafů, které vám můžou pomoct zlepšit výkon listů Tableau.
U filtrů, které se často nemění a nejsou určené k interakci, použijte kontextové filtry, které urychlují dobu provádění.
Dalším dobrým pravidlem je použití if/else
příkazů místo case/when
příkazů v dotazech.
Tableau může odesílat filtry do zdrojů dat, což může zlepšit rychlost dotazů. Další informace o prosazování filtru zdroje dat najdete v tématu Filtrování napříč více zdroji dat pomocí parametru a Filtrování dat napříč více zdroji dat.
Pokuste se vyhnout výpočtům tabulek při kontrole celé datové sady. Další informace o výpočtech tabulek naleznete v tématu Transformace hodnot pomocí výpočtů tabulky.
Optimalizace řídicích panelů
Tady jsou některé tipy a cvičení pro řešení potíží, která můžete použít ke zlepšení výkonu řídicího panelu Tableau.
Díky řídicím panelům Tableau připojeným k Azure Databricks můžou být běžným zdrojem problémů rychlé filtry na jednotlivých řídicích panelech, které obsluhují řadu různých uživatelů, funkcí nebo segmentů. Rychlé filtry můžete připojit ke všem grafům na řídicím panelu. Jeden rychlý filtr na řídicím panelu s pěti grafy způsobí odeslání minimálně 10 dotazů do Azure Databricks. To se může při přidání více filtrů zvětšit na větší počet a může to způsobit problémy s výkonem, protože Spark není vytvořený tak, aby zpracovával mnoho souběžných dotazů, které se spouští ve stejnou chvíli. Stává se to problematicjší, pokud cluster Azure Databricks nebo SQL Warehouse, který používáte, není dostatečně velký, aby zvládl velký objem dotazů.
Jako první krok doporučujeme použít záznam výkonu Tableau k řešení potíží s tím, co může být příčinou problému.
Pokud je nízký výkon způsobený řazením nebo rozložení vizuálu, může být příčinou problému počet značek, které se řídicí panel pokouší vrátit. Azure Databricks může rychle vrátit jeden milion záznamů, ale Tableau nemusí být schopen vypočítat rozložení a seřadit výsledky. Pokud se jedná o problém, agregujte dotaz a přejděte na nižší úrovně. Můžete také vyzkoušet větší počítač, protože Tableau je omezený pouze fyzickými prostředky na počítači, na kterém běží.
Informace o procházení k podrobnostem v Tableau najdete v části Přechod k podrobnostem.
Pokud vidíte mnoho podrobných známek, je to často špatný analytický vzor, protože neposkytuje přehled. Procházení z vyšších úrovní agregace dává větší smysl a snižuje počet záznamů, které je potřeba zpracovat a vizualizovat.
Použití akcí k optimalizaci řídicích panelů
Pomocí tableau _actions klikněte na značku (například stav na mapě) a odešlete ji na jiný řídicí panel, který filtruje podle stavu, na který kliknete. Použití _actions snižuje potřebu více filtrů na jednom řídicím panelu a počet záznamů, které se musí vygenerovat. (Nastavujete akci na , ne na, aby se generovaly záznamy, dokud nezíská predikát pro filtrování.
Další informace najdete v tématu Akce a 6 tipů, které vám povedou k vyšší výkonu řídicích panelů.
Ukládání do mezipaměti
Ukládání dat do mezipaměti je dobrým způsobem, jak zlepšit výkon listů nebo řídicích panelů.
Ukládání do mezipaměti v Tableau
Tableau má čtyři vrstvy ukládání do mezipaměti, než se vrátí k datům, ať už jsou tato data v živém připojení, nebo v extrahování:
- dlaždice: Pokud někdo načte stejný řídicí panel a nic se nezmění, Tableau se pokusí znovu použít stejné dlaždice pro grafy. To se podobá dlaždicím Google Maps.
- model: Pokud mezipaměť dlaždic nejde použít, použije se k vygenerování vizualizací mezipaměť modelu matematických výpočtů. Tableau Server se pokusí použít stejné modely.
- Abstraktní: Agregované výsledky dotazů se také ukládají. Toto je třetí úroveň "obrany". Pokud dotaz vrátí Sum(Sales), Count(orders), Sum(Cost), v předchozím dotazu a budoucí dotaz chce jenom Sum(Sales), pak Tableau vezme tento výsledek a použije ho.
- nativní mezipaměti: Pokud je dotaz stejný jako jiný, Tableau používá stejné výsledky. Toto je poslední úroveň ukládání do mezipaměti. Pokud se to nezdaří, Tableau přejde k datům.
Frekvence ukládání do mezipaměti v Tableau
Tableau má nastavení správy pro ukládání do mezipaměti více nebo méně často. Pokud je server nastavený na Aktualizovat méně často, Tableau uchovává data v mezipaměti po dobu až 12 hodin. Pokud je server nastavený na Aktualizovat častěji, Tableau se vrátí k datům na každé aktualizaci stránky.
Zákazníci, kteří opakovaně používají stejnou nástěnku, například "pondělní ranní výkazy pipeline", by měli být na serveru nastaveni tak, aby se aktualizovali méně často, aby nástěnky používaly stejnou mezipaměť.
Oteplení mezipaměti v Tableau
V Tableau můžete zahřát mezipaměť tím, že nastavíte předplatné, aby byl řídicí panel odeslán před tím, než ho budete chtít zobrazit. (Řídicí panel se musí vykreslit, aby se vygeneroval obrázek e-mailu odběru.) Viz část Zahřívání mezipaměti Tableau Serveru pomocí předplatných.
Tableau Desktop: Chyba The drivers... are not properly installed
Problém: Při pokusu o připojení Tableau Desktop k Databricks zobrazí Tableau chybovou zprávu v dialogovém okně připojení s odkazem na stránku pro stažení ovladače, kde najdete odkazy na ovladače a pokyny k instalaci.
Příčina: Instalace Desktopu Tableau nemá podporovaný ovladač.
Řešení: Stáhněte si ovladač ODBC Databricks verze 2.6.15 nebo vyšší.
Viz také: Chyba "Ovladače... nejsou správně nainstalovány" na webu Tableau.
Omezení primárního a cizího klíče
Pokud chcete rozšířit omezení primárního klíče (PK) a cizího klíče (FK) z Azure Databricks do Tableau, musíte pochopit možnosti a omezení obou platforem týkající se omezení.
Principy omezení Azure Databricks
Azure Databricks podporuje omezení primárního a cizího klíče počínaje databricks Runtime 15.2. Tato omezení jsou informační a nevynucují se ve výchozím nastavení, což znamená, že nebrání porušení integrity dat, ale lze je použít k optimalizaci dotazů a poskytování metadat o relacích dat. Viz Deklarujte vztahy primárního klíče a cizího klíče.
Pochopení toho, jak Tableau používá omezení k vytváření relací mezi tabulkami.
Tableau přímo nevynucuje omezení primárního a cizího klíče. Místo toho Tableau používá relace k modelování datových připojení. Pokud chcete pracovat s omezeními v Tableau, musíte pochopit, že datový model Tableau nabízí dvě úrovně modelování: logickou vrstvu a fyzickou vrstvu. Viz Datový model Tableau. Níže jsou popsány důsledky tohoto dvouúrovňového datového modelu na omezení Azure Databricks jako relace v Tableau.
Připojení Azure Databricks k Tableau
Když připojíte Azure Databricks k Tableau, tableau se pokusí vytvořit relace ve fyzické vrstvě mezi tabulkami na základě existujících klíčových omezení a odpovídajících polí. Tableau se automaticky pokusí rozpoznat a vytvořit relace ve fyzické vrstvě na základě omezení primárního a cizího klíče definované v Azure Databricks. Pokud nejsou definována žádná klíčová omezení, Tableau používá k automatickému vygenerování spojení odpovídající názvy sloupců. V logické vrstvě se k určení relace používají pouze jednosloupcové názvové shody. Ve fyzické vrstvě rozpoznává porovnávání názvu sloupce jednoduché (jednosloupcové) i složené (vícesloupcové) klíčové vztahy.
Pokud Tableau nemůže určit odpovídající pole, musíte ručně zadat relaci spojení mezi dvěma tabulkami ve fyzické vrstvě zadáním sloupců, podmínky a typu omezení. Pokud chcete přejít z logické vrstvy v uživatelském rozhraní na fyzickou vrstvu, poklikejte na tabulku v logické vrstvě.