Dela via


Ansluta Tableau och Azure Databricks

Den här artikeln visar hur du använder Partner Connect för att ansluta från Azure Databricks till Tableau Desktop och från Tableau Desktop eller Tableau Cloud till Azure Databricks. Den här artikeln innehåller även information om Tableau Server i Linux.

Kommentar

Information om hur du konfigurerar Azure Databricks-inloggning från Tableau Server finns i Konfigurera Azure Databricks-inloggning från Tableau Server.

När du använder Azure Databricks som datakälla med Tableau kan du tillhandahålla kraftfulla interaktiva analyser som ger dina dataforskares och datateknikers bidrag till dina affärsanalytiker genom att skala till massiva datamängder.

Krav för att ansluta Tableau och Azure Databricks

Ansluta Azure Databricks till Tableau Desktop med Partner Connect

Du kan använda Partner Connect för att ansluta en beräkningsresurs eller ETT SQL-lager med Tableau Desktop med bara några få klick.

  1. Kontrollera att ditt Azure Databricks-konto, din arbetsyta och den inloggade användaren alla uppfyller kraven för Partner Connect.
  2. I sidofältet klickar du på Knappen PartneranslutningPartneranslutning.
  3. Klicka på Tableau-panelen.
  4. I dialogrutan Anslut till partner för Compute väljer du namnet på den Azure Databricks-beräkningsresurs som du vill ansluta till.
  5. Välj Ladda ned anslutningsfil.
  6. Öppna den nedladdade anslutningsfilen, som startar Tableau Desktop.
  7. I Tableau Desktop anger du dina autentiseringsuppgifter och klickar sedan på Logga in:
    • Om du vill använda en Microsoft Entra-ID-token anger du token för Användarnamn och din Microsoft Entra-ID-token för Lösenord.
    • Om du vill använda en personlig åtkomsttoken för Azure Databricks anger du token för Användarnamn och din personliga åtkomsttoken för Lösenord.
    • Om du vill använda dina autentiseringsuppgifter för Microsoft Entra-ID klickar du på Redigera anslutning, dubbelklickar på databasen på fliken Data och väljer sedan Microsoft Entra-ID i listan Autentisering.
      • För Tableau Desktop 2021.1 och senare:

        1. Om du inte använder ett Microsoft Entra-ID (tidigare Azure Active Directory) B2B-gästkonto eller Azure Databricks i Azure Government kan du bara ange som https://login.microsoftonline.com/common.

        Autentisering av konfiguration

        1. Om du använder ett Microsoft Entra ID B2B-gästkonto eller Azure Databricks på Azure Government kontaktar du administratören för att få en dedikerad tjänstprincip för Microsoft Entra ID.

        Kommentar

        Om du inte är administratör visas felet Behöver administratörsgodkännande . Be en molnprogramadministratör eller programadministratör att ge dig behörighet att ansluta till Tableau och försök sedan logga in igen.

        Om ditt Microsoft Entra-ID-konto har aktiverat arbetsflödet för administratörsmedgivande uppmanar Tableau Desktop dig att begära åtkomst till Tableau. När en molnprogramadministratör eller programadministratör har godkänt begäran kan du försöka logga in igen.

Ansluta Tableau Desktop till Azure Databricks

Följ de här anvisningarna för att ansluta från Tableau Desktop till en beräkningsresurs eller ETT SQL-lager.

Kommentar

Om du vill ansluta snabbare med Tableau Desktop använder du Partner Connect.

  1. Starta Tableau Desktop.

  2. Klicka på Ny fil>.

  3. På fliken Data klickar du på Anslut till data.

  4. I listan över anslutningsappar klickar du på Databricks.

  5. Ange servervärdnamnet och HTTP-sökvägen.

  6. För Autentisering väljer du din autentiseringsmetod, anger dina autentiseringsuppgifter och klickar sedan på Logga in.

    • Om du vill använda en Microsoft Entra-ID-token väljer du Personlig åtkomsttoken och anger din Microsoft Entra-ID-token som lösenord.

    • Om du vill använda en personlig åtkomsttoken för Azure Databricks väljer du Personlig åtkomsttoken och anger din personliga åtkomsttoken för Lösenord.

    • Om du vill använda dina autentiseringsuppgifter för Microsoft Entra-ID väljer du Microsoft Entra-ID.

      För Tableau Desktop 2021.1 och senare:

      • Om du inte använder ett Microsoft Entra-ID (tidigare Azure Active Directory) B2B-gästkonto eller Azure Databricks i Azure Government kan du bara ange som https://login.microsoftonline.com/common.

        Autentisering av konfiguration

        • Om du använder ett Microsoft Entra ID B2B-gästkonto eller Azure Databricks på Azure Government kontaktar du administratören för att få ett dedikerat Microsoft Entra ID-lager.

      Kommentar

      Om du inte är administratör visas felet Behöver administratörsgodkännande . Be en molnprogramadministratör eller programadministratör att ge dig behörighet att ansluta till Tableau och försök sedan logga in igen.

      Om ditt Microsoft Entra-ID-konto har aktiverat arbetsflödet för administratörsmedgivande uppmanar Tableau Desktop dig att begära åtkomst till Tableau. När en molnprogramadministratör eller programadministratör har godkänt begäran kan du försöka logga in igen.

    Om Unity Catalog är aktiverat för din arbetsyta anger du dessutom standardkatalogen. På fliken Avancerat för Anslutningsegenskaper lägger du till Catalog=<catalog-name>. Om du vill ändra standardkatalogen går du till fliken Initial SQL och anger USE CATALOG <catalog-name>.

Ansluta Tableau Cloud till Azure Databricks

Följ de här anvisningarna för att ansluta till en beräkningsresurs eller ETT SQL-lager från Tableau Cloud.

  • Starta en ny arbetsbok
  • På menyraden klickar du på Data>Ny datakälla.
  • På sidan Anslut till data klickar du på Anslutningsappar>Databricks.
  • På sidan Azure Databricks anger du värdena servervärdnamn och HTTP-sökväg .
  • Välj din autentiseringsmetod och ange den begärda informationen (om någon).
  • Klicka på Logga in.

Tableau Server på Linux

Redigera /etc/odbcinst.ini för att inkludera följande:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Kommentar

Tableau Server på Linux rekommenderar 64-bitars bearbetningsarkitektur.

Publicera och uppdatera en arbetsbok i Tableau Cloud från Tableau Desktop

Den här artikeln visar hur du publicerar en arbetsbok från Tableau Desktop till Tableau Cloud och håller den uppdaterad när datakällan ändras. Du behöver en arbetsbok i Tableau Desktop och ett Tableau Cloud-konto .

  1. Extrahera arbetsbokens data från Tableau Desktop: i Tableau Desktop, med den arbetsbok som du vill publicera, klickar du på Extrahera data >>.
  2. I dialogrutan Extrahera data klickar du på Extrahera.
  3. Bläddra till en plats på den lokala datorn där du vill spara extraherade data och klicka sedan på Spara.
  4. Publicera arbetsbokens datakälla till Tableau Cloud: i Tableau Desktop klickar du på Server > Publicera datakälla ><data-source-name>.
  5. Om dialogrutan Logga in på Tableau Server visas klickar du på länken Tableau Cloud och följer anvisningarna på skärmen för att logga in på Tableau Cloud.
  6. I dialogrutan Publicera datakälla till Tableau Cloud klickar du på länken Redigera bredvid Uppdatera inte aktiverat.
  7. I den utfällbara rutan som visas för autentisering ändrar du Uppdatera inte aktiverat till Tillåt uppdateringsåtkomst.
  8. Klicka någonstans utanför den här utfällbara menyn för att dölja den.
  9. Välj Uppdatera arbetsbok för att använda den publicerade datakällan.
  10. Klicka på Publicera. Datakällan visas i Tableau Cloud.
  11. I Tableau Cloud klickar du på Schema i dialogrutan Publicerings färdigt och följer anvisningarna på skärmen.
  12. Publicera arbetsboken till Tableau Cloud: i Tableau Desktop, med den arbetsbok som du vill publicera, klickar du på ServerPubliceringsarbetsbok>.
  13. I dialogrutan Publicera arbetsbok till Tableau Cloud klickar du på Publicera. Arbetsboken visas i Tableau Cloud.

Tableau Cloud söker efter ändringar i datakällan enligt det schema du anger och uppdaterar den publicerade arbetsboken om ändringar identifieras.

Mer information finns på tableau-webbplatsen:

Bästa praxis och felsökning

De två grundläggande åtgärderna för att optimera Tableau-frågor är:

  • Minska antalet poster som efterfrågas och visualiseras i ett enda diagram eller en instrumentpanel.
  • Minska antalet frågor som skickas av Tableau i ett enda diagram eller en instrumentpanel.

Att bestämma vilket du vill prova först beror på din instrumentpanel. Om du har ett antal olika diagram för enskilda användare på samma instrumentpanel är det troligt att Tableau skickar för många frågor till Azure Databricks. Om du bara har ett par diagram, men det tar lång tid att läsa in dem, finns det förmodligen för många poster som returneras av Azure Databricks för att kunna läsas in effektivt.

Tableau-prestandainspelning, som finns på både Tableau Desktop och Tableau Server, kan hjälpa dig att identifiera flaskhalsar i prestanda genom att identifiera processer som orsakar svarstid när du kör ett visst arbetsflöde eller en viss instrumentpanel.

Aktivera prestandainspelning för att felsöka eventuella Tableau-problem

Om frågekörning till exempel är problemet vet du att det har att göra med datamotorprocessen eller datakällan som du frågar efter. Om den visuella layouten går långsamt vet du att det är VizQL.

Om prestandainspelningen säger att svarstiden finns i den körande frågan är det troligt att det tar för lång tid för Azure Databricks att returnera resultaten eller av ODBC/Connector-överlägget som bearbetar data till SQL för VizQL. När detta inträffar bör du analysera vad du returnerar och försöka ändra analysmönstret så att det finns en instrumentpanel per grupp, segment eller artikel i stället för att försöka klämma in allt i en instrumentpanel och förlita dig på snabbfilter.

Om den dåliga prestandan orsakas av sortering eller visuell layout kan problemet vara antalet märken som instrumentpanelen försöker returnera. Azure Databricks kan snabbt returnera en miljon poster, men Tableau kanske inte kan beräkna layouten och sortera resultatet. Om det här är ett problem aggregerar du frågan och ökar detaljnivån till de lägre nivåerna. Du kan också prova en större dator eftersom Tableau endast begränsas av fysiska resurser på den dator där den körs.

En djupgående självstudie om prestandaregistratorn finns i Skapa en prestandainspelning.

Prestanda på Tableau Server jämfört med Tableau Desktop

I allmänhet är ett arbetsflöde som körs på Tableau Desktop inte snabbare på Tableau Server. En instrumentpanel som inte körs på Tableau Desktop körs inte på Tableau Server.

Att använda Desktop är en mycket bättre felsökningsteknik eftersom Tableau Server har fler processer att tänka på när du felsöker. Om saker fungerar i Tableau Desktop men inte i Tableau Server kan du på ett säkert sätt begränsa problemet till de processer i Tableau Server som inte finns i Tableau Desktop.

Konfiguration

Som standard åsidosätter parametrarna från anslutnings-URL:en dem i Simba ODBC DSN. Det finns två sätt att anpassa ODBC-konfigurationerna från Tableau:

  • .tds fil för en enda datakälla:

    1. Följ anvisningarna i Spara datakällor för att exportera .tds filen för datakällan.
    2. Leta upp egenskapsraden odbc-connect-string-extras=''.tds i filen och ange parametrarna. Om du till exempel vill aktivera AutoReconnect och UseNativeQuerykan du ändra raden till odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Ladda in filen igen .tds genom att återansluta anslutningen.

    Beräkningsresursen är optimerad för att använda mindre heapminne för att samla in stora resultat, så att den kan hantera fler rader per hämtningsblock än Simba ODBC:s standard. RowsFetchedPerBlock=100000' Lägg till värdet för odbc-connect-string-extras egenskapen.

  • .tdc fil för alla datakällor:

    1. Om du aldrig har skapat en .tdc fil kan du lägga till TableauTdcExample.tdc i mappen Document/My Tableau Repository/Datasources.
    2. Lägg till filen i alla utvecklares Tableau Desktop-installationer så att den fungerar när instrumentpanelerna delas.

Optimera diagram (kalkylblad)

Det finns ett antal taktiska diagramoptimeringar som kan hjälpa dig att förbättra prestandan för dina Tableau-kalkylblad.

För filter som inte ändras ofta och inte är avsedda att interagera med använder du kontextfilter som påskyndar körningstiden. En annan bra tumregel är att använda if/else instruktioner i stället för case/when instruktioner i dina frågor.

Tableau kan push-överföra filter till datakällor, vilket kan förbättra frågehastigheterna. Mer information om push down-filter för datakällor finns i filtrering över flera datakällor med en parameter och filtrering av data över flera datakällor.

Försök att undvika tabellberäkningar eftersom de genomsöker hela datamängden. Mer information om tabellberäkningar finns i Transformera värden med tabellberäkningar.

Optimera instrumentpaneler

Följande är några tips och felsökningsövningar som du kan använda för att förbättra prestanda för Tableau-instrumentpanelen.

Med Tableau-instrumentpaneler anslutna till Azure Databricks kan snabbfilter på enskilda instrumentpaneler som hanterar ett antal olika användare, funktioner eller segment vara en vanlig källa till problem. Du kan koppla snabbfilter till alla diagram på instrumentpanelen. Ett snabbfilter på en instrumentpanel med fem diagram gör att minst 10 frågor skickas till Azure Databricks. Detta kan öka till fler tal när fler filter läggs till, och det kan orsaka prestandaproblem eftersom Spark inte har skapats för att hantera många samtidiga frågor från och med samma tidpunkt. Detta blir mer problematiskt när Azure Databricks-klustret eller SQL-lagret som du använder inte är tillräckligt stort för att hantera den stora mängden frågor.

Som ett första steg rekommenderar vi att du använder Tableau-prestandainspelning för att felsöka vad som kan orsaka problemet.

Om den dåliga prestandan orsakas av sortering eller visuella layoutenkan problemet vara antalet märken som instrumentpanelen försöker returnera. Azure Databricks kan snabbt returnera en miljon poster, men Tableau kanske inte kan beräkna layouten och sortera resultatet. Om det här är ett problem aggregerar du frågan och ökar detaljnivån till de lägre nivåerna. Du kan också prova en större dator eftersom Tableau endast begränsas av de fysiska resurserna på den dator där den körs.

Information om hur du ökar detaljnivån i Tableau finns i Öka detaljnivån i informationen.

Om du ser många detaljerade märken är detta ofta ett dåligt analytiskt mönster eftersom det inte ger insikter. Att bryta ner data från högre aggregeringsnivåer är mer meningsfullt och minskar antalet poster som måste bearbetas och visualiseras.

Använda åtgärder för att optimera instrumentpaneler

Använd Tableau _actions för att klicka på en markering (till exempel ett tillstånd på en karta) och skickas till en annan instrumentpanel som filtrerar baserat på det tillstånd du klickar på. Att använda _actions minskar behovet av flera filter på en instrumentpanel och antalet poster som måste genereras. Du ställer in en åtgärd på , men inte på, för att generera poster tills det finns ett predikat att filtrera på.

Mer information finns i Åtgärder och 6 tips för att göra dina instrumentpaneler mer högpresterande.

Cachelagring

Cachelagring av data är ett bra sätt att förbättra prestanda för kalkylblad eller instrumentpaneler.

Cachelagring i Tableau

Tableau har fyra cachelagringsnivåer innan de återgår till data, oavsett om dessa data finns i en live-anslutning eller ett extraheringslager:

  • rutor: Om någon laddar samma instrumentpanel och inget förändras försöker Tableau återanvända samma rutor för diagrammen. Detta liknar Google Maps-paneler.
  • Model: Om panelcachen inte kan användas används modellcachen för matematiska beräkningar för att generera visualiseringar. Tableau Server försöker använda samma modeller.
  • Sammanfattning: Aggregerade resultat av frågor lagras också. Det här är den tredje "försvarsnivån". Om en fråga returnerar Sum(Sales), Count(orders), Sum(Cost), i en tidigare fråga och en framtida fråga bara vill ha Sum(Sales), hämtar Tableau det resultatet och använder det.
  • intern cache: Om frågan är samma som en annan använder Tableau samma resultat. Det här är den sista cachelagringsnivån. Om detta misslyckas går Tableau till data.

Cachelagringsfrekvens i Tableau

Tableau har administrativa inställningar för cachelagring mer eller mindre ofta. Om servern är inställd på Uppdatera mindre ofta behåller Tableau data i cacheminnet i upp till 12 timmar. Om servern är inställd på Uppdatera oftareåtergår Tableau till data vid varje siduppdatering.

Kunder som använder samma instrumentpanel upprepade gånger, till exempel "pipelinerapporter på måndag morgon", bör vara på en server inställd på att uppdatera mindre ofta så att alla instrumentpaneler använder samma cache.

Cacheuppvärmning i Tableau

I Tableau kan du värma cachen genom att konfigurera en prenumeration för instrumentpanelen som ska skickas innan du vill att instrumentpanelen ska visas. (Instrumentpanelen måste återges för att generera prenumerations-e-postbilden.) Se Värma Tableau Servers Cache med Prenumerationer.

Tableau Desktop: Fel The drivers... are not properly installed

Problem: När du försöker ansluta Tableau Desktop till Databricks visar Tableau ett felmeddelande i anslutningsdialogrutan med en länk till drivrutinsnedladdningssidan, där du hittar drivrutinslänkar och installationsinstruktioner.

Orsak: Installationen av Tableau Desktop kör inte en drivrutin som stöds.

Lösning: Ladda ned Databricks ODBC-drivrutinsversion 2.6.15 eller senare.

Se även: Fel "Drivrutinerna... är inte korrekt installerade" på Tableau-webbplatsen.

Begränsningar för primär/sekundärnyckel

Om du vill sprida begränsningar för primärnyckel (PK) och sekundärnyckel (FK) från Azure Databricks till Tableau måste du förstå funktionerna och begränsningarna för båda plattformarna när det gäller begränsningar.

Förstå Begränsningar för Azure Databricks

Azure Databricks stöder primär- och sekundärnyckelbegränsningar från Databricks Runtime 15.2. Dessa begränsningar är informationsmässiga och tillämpas inte som standard, vilket innebär att de inte förhindrar dataintegritetsöverträdelser utan kan användas för att optimera frågor och tillhandahålla metadata om datarelationer. Se Deklarera primärnyckel och sekundärnyckelrelationer.

Förstå Tableau använder begränsningar för att skapa tabellrelationer

Tableau tillämpar inte primär- och främmande nyckelrestriktioner direkt. Tableau använder i stället relationer för att modellera dataanslutningar. Om du vill arbeta med begränsningar i Tableau måste du förstå att Tableaus datamodell erbjuder två nivåer av modellering: ett logiskt lager och ett fysiskt lager. Se Tableau-datamodell. Konsekvenserna av den här datamodellen på två nivåer för Azure Databricks-begränsningar som identifieras som relationer i Tableau beskrivs nedan.

Ansluta Azure Databricks till Tableau

När du ansluter Azure Databricks till Tableau försöker Tableau skapa relationer på det fysiska lagret mellan tabeller baserat på befintliga nyckelbegränsningar och matchande fält. Tableau försöker automatiskt identifiera och skapa relationer på det fysiska lagret baserat på primär- och sekundärnyckelbegränsningar som definierats i Azure Databricks. Om inga viktiga begränsningar har definierats använder Tableau matchande kolumnnamn för att generera kopplingar automatiskt. I det logiska lagret används endast namnmatchningar med en kolumn för att fastställa en relation. På det fysiska lagret identifierar det här kolumnnamnsmatchningen både enkla nyckelrelationer (en kolumn) och sammansatta nyckelrelationer (flera kolumner).

Om Tableau inte kan fastställa matchande fält måste du manuellt ange kopplingsrelationen mellan de två tabellerna på det fysiska lagret genom att ange kolumner, villkor och typ av villkor. Om du vill flytta från det logiska lagret i användargränssnittet till det fysiska lagret dubbelklickar du på tabellen på det logiska lagret.

Ytterligare resurser