Registrera data från Azure Data Lake Storage Gen1 i Azure Data Catalog
I den här artikeln får du lära dig hur du integrerar Azure Data Lake Storage Gen1 med Azure Data Catalog för att göra dina data identifierbara i en organisation genom att integrera dem med Data Catalog. Mer information om katalogisering av data finns i Azure Data Catalog. Information om scenarier där du kan använda Data Catalog finns i Azure Data Catalog vanliga scenarier.
Förutsättningar
Innan du påbörjar de här självstudierna måste du ha:
En Azure-prenumeration. Se Hämta en kostnadsfri utvärderingsversion av Azure.
Aktivera din Azure-prenumeration för Data Lake Storage Gen1. Se anvisningarna.
Ett Data Lake Storage Gen1 konto. Följ anvisningarna i Kom igång med Azure Data Lake Storage Gen1 med hjälp av Azure Portal. I den här självstudien skapar du ett Data Lake Storage Gen1 konto med namnet datacatalogstore.
När du har skapat kontot laddar du upp en exempeldatauppsättning till det. I den här självstudien ska vi ladda upp alla .csv filer under mappen AmbulanceData i Azure Data Lake Git-lagringsplatsen. Du kan använda olika klienter, till exempel Azure Storage Explorer, för att ladda upp data till en blobcontainer.
Azure Data Catalog. Din organisation måste redan ha en Azure-Data Catalog som skapats för din organisation. Endast en katalog tillåts för varje organisation.
Registrera Data Lake Storage Gen1 som källa för Data Catalog
Gå till
https://azure.microsoft.com/services/data-catalog
och klicka på Kom igång.Logga in på Azure Data Catalog-portalen och klicka på Publicera data.
På nästa sida klickar du på Starta program. Då laddas programmanifestfilen ned på datorn. Dubbelklicka på manifestfilen för att starta programmet.
På sidan Välkommen klickar du på Logga in och anger dina autentiseringsuppgifter.
På sidan Välj en datakälla väljer du Azure Data Lake Store och klickar sedan på Nästa.
På nästa sida anger du det Data Lake Storage Gen1 kontonamn som du vill registrera i Data Catalog. Lämna de andra alternativen som standard och klicka sedan på Anslut.
Nästa sida kan delas in i följande segment.
a. Rutan Serverhierarki representerar mappstrukturen Data Lake Storage Gen1 konto. $Root representerar roten för Data Lake Storage Gen1-kontot och AmbulanceData representerar mappen som skapades i roten för Data Lake Storage Gen1-kontot.
b. I rutan Tillgängliga objekt visas filerna och mapparna under mappen AmbulanceData .
c. Rutan Objekt som ska registreras visar de filer och mappar som du vill registrera i Azure Data Catalog.
I den här självstudien bör du registrera alla filer i katalogen. Klicka på knappen (
) för att flytta alla filer till objekt som ska registreras .
Eftersom data registreras i en organisationsomfattande datakatalog är det en rekommenderad metod att lägga till vissa metadata som du senare kan använda för att snabbt hitta data. Du kan till exempel lägga till en e-postadress för dataägaren (till exempel en som laddar upp data) eller lägga till en tagg för att identifiera data. Skärmbilden nedan visar en tagg som du lägger till i data.
Klicka på Registrera.
Följande skärmbild anger att data har registrerats i Data Catalog.
Klicka på Visa portal för att gå tillbaka till Data Catalog-portalen och kontrollera att du nu kan komma åt registrerade data från portalen. Om du vill söka efter data kan du använda taggen som du använde när du registrerade data.
Nu kan du utföra åtgärder som att lägga till anteckningar och dokumentation till data. Mer information finns på följande länkar.