使用 Java SDK 在 Azure Data Lake Storage Gen1 上進行文件系統作業
瞭解如何使用 Azure Data Lake Storage Gen1 Java SDK 來執行基本作業,例如建立資料夾、上傳和下載數據檔等。如需 Data Lake Storage Gen1 的詳細資訊,請參閱 Azure Data Lake Storage Gen1。
您可以在 Azure Data Lake Storage Gen1 Java API 檔存取 Data Lake Storage Gen1 的 Java SDK API 檔。
先決條件
- Java 開發工具套件 (JDK 7 或更高版本,使用 Java 1.7 版或更高版本)
- Data Lake Storage Gen1 帳戶。 請依照 的指示,使用 Azure 入口網站來開始使用 Azure Data Lake Storage Gen1。
- Maven。 本教學課程使用 Maven 來處理組建和專案相依性。 雖然不需要使用 Maven 或 Gradle 等建置系統來建置,但這些系統可以更輕鬆地管理相依性。
- (選擇性)使用像是 IntelliJ IDEA 或 Eclipse 等類似的 IDE。
建立 Java 應用程式
GitHub 上可用的程式代碼範例 會逐步引導您在存放區中建立檔案、串連檔案、下載檔案,以及刪除存放區中的某些檔案。 本文的本節將逐步引導您完成程序代碼的主要部分。
從命令列或透過 IDE,使用 mvn 原型建立 Maven 專案。 如需有關如何使用 IntelliJ 建立 Java 專案的指示,請參閱這裡。 如需有關如何使用 Eclipse 建立專案的指示,請參閱這裡。
將下列相依性新增至 Maven pom.xml 檔案。 將下列程式碼片段新增至 </project> 標記之前:
<dependencies> <dependency> <groupId>com.microsoft.azure</groupId> <artifactId>azure-data-lake-store-sdk</artifactId> <version>2.1.5</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-nop</artifactId> <version>1.7.21</version> </dependency> </dependencies>
第一個相依性是使用 Maven 存放庫中的 Data Lake Storage Gen1 SDK (
azure-data-lake-store-sdk
)。 第二個相依性是指定要用於此應用程式的記錄架構(slf4j-nop
)。 Data Lake Storage Gen1 SDK 使用 SLF4J 記錄外觀,這可讓您從一些熱門的記錄架構中選擇,例如 Log4j、Java 記錄、Logback 等,或沒有記錄。 在此範例中,我們停用記錄,因此會使用 slf4j-nop 繫結。 若要在應用程式中使用其他記錄選項,請參閱這裡 。在應用程式中新增下列 import 陳述式。
import com.microsoft.azure.datalake.store.ADLException; import com.microsoft.azure.datalake.store.ADLStoreClient; import com.microsoft.azure.datalake.store.DirectoryEntry; import com.microsoft.azure.datalake.store.IfExists; import com.microsoft.azure.datalake.store.oauth2.AccessTokenProvider; import com.microsoft.azure.datalake.store.oauth2.ClientCredsTokenProvider; import java.io.*; import java.util.Arrays; import java.util.List;
認證
- 如需應用程式的終端用戶驗證,請參閱 使用 Java向 Data Lake Storage Gen1 進行的終端用戶驗證。
- 如需應用程式的服務對服務驗證,請參閱使用 Java 進行的 Data Lake Storage Gen1 的服務對服務驗證 。
建立 Data Lake Storage Gen1 用戶端
建立 ADLStoreClient 物件需要您指定 Data Lake Storage Gen1 帳戶名稱和您使用 Data Lake Storage Gen1 進行驗證時所產生的令牌提供者(請參閱 驗證 一節)。 Data Lake Storage Gen1 帳戶名稱必須是完整合格的域名。 例如,將 FILL-IN-HERE 取代為類似 mydatalakestoragegen1.azuredatalakestore.net。
private static String accountFQDN = "FILL-IN-HERE"; // full account FQDN, not just the account name
ADLStoreClient client = ADLStoreClient.createClient(accountFQDN, provider);
下列各節中的代碼段包含一些常見的檔系統作業範例。 您可以查看 ADLStoreClient 物件的完整 Data Lake Storage Gen1 Java SDK API 檔,以查看其他作業。
建立目錄
下列代碼段會在您指定的 Data Lake Storage Gen1 帳戶根目錄中建立目錄結構。
// create directory
client.createDirectory("/a/b/w");
System.out.println("Directory created.");
建立檔案
下列代碼段會在目錄結構中建立檔案 (c.txt),並將一些數據寫入檔案。
// create file and write some content
String filename = "/a/b/c.txt";
OutputStream stream = client.createFile(filename, IfExists.OVERWRITE );
PrintStream out = new PrintStream(stream);
for (int i = 1; i <= 10; i++) {
out.println("This is line #" + i);
out.format("This is the same line (%d), but using formatted output. %n", i);
}
out.close();
System.out.println("File created.");
您也可以使用位元組陣列建立檔案 (d.txt)。
// create file using byte arrays
stream = client.createFile("/a/b/d.txt", IfExists.OVERWRITE);
byte[] buf = getSampleContent();
stream.write(buf);
stream.close();
System.out.println("File created using byte array.");
上述代碼段中使用的 getSampleContent
函式定義是 GitHub 上範例的一部分。
附加至檔案
下列代碼段會將內容附加至現有的檔案。
// append to file
stream = client.getAppendStream(filename);
stream.write(getSampleContent());
stream.close();
System.out.println("File appended.");
上述代碼段中使用的 getSampleContent
函式定義是 GitHub 上範例的一部分。
讀取檔案
下列代碼段會從 Data Lake Storage Gen1 帳戶中的檔案讀取內容。
// Read File
InputStream in = client.getReadStream(filename);
BufferedReader reader = new BufferedReader(new InputStreamReader(in));
String line;
while ( (line = reader.readLine()) != null) {
System.out.println(line);
}
reader.close();
System.out.println();
System.out.println("File contents read.");
合併檔案
下列代碼段會串連 Data Lake Storage Gen1 帳戶中的兩個檔案。 如果成功,串連的檔案會取代兩個現有的檔案。
// concatenate the two files into one
List<String> fileList = Arrays.asList("/a/b/c.txt", "/a/b/d.txt");
client.concatenateFiles("/a/b/f.txt", fileList);
System.out.println("Two files concatenated into a new file.");
重新命名檔案
下列代碼段會重新命名 Data Lake Storage Gen1 帳戶中的檔案。
//rename the file
client.rename("/a/b/f.txt", "/a/b/g.txt");
System.out.println("New file renamed.");
取得檔案的元數據
下列代碼段會擷取 Data Lake Storage Gen1 帳戶中檔案的元數據。
// get file metadata
DirectoryEntry ent = client.getDirectoryEntry(filename);
printDirectoryInfo(ent);
System.out.println("File metadata retrieved.");
設定檔案的許可權
下列代碼段會設定您在上一節中建立之檔案的許可權。
// set file permission
client.setPermission(filename, "744");
System.out.println("File permission set.");
列出目錄內容
下列代碼段會以遞歸方式列出目錄的內容。
// list directory contents
List<DirectoryEntry> list = client.enumerateDirectory("/a/b", 2000);
System.out.println("Directory listing for directory /a/b:");
for (DirectoryEntry entry : list) {
printDirectoryInfo(entry);
}
System.out.println("Directory contents listed.");
上述代碼段中使用的 printDirectoryInfo
函式定義是 GitHub 上範例的一部分。
刪除檔案和資料夾
下列代碼段會以遞歸方式刪除Data Lake Storage Gen1 帳戶中的指定檔案和資料夾。
// delete directory along with all the subdirectories and files in it
client.deleteRecursive("/a");
System.out.println("All files and folders deleted recursively");
promptEnterKey();
建置並執行應用程式
- 若要從 IDE 內執行,請找出並按下 [執行] 按鈕。 若要從 Maven 執行,請使用 exec:exec。
- 若要產生獨立 jar,您可以從命令行建置包含所有相依性的 jar,使用 Maven 元件外掛程式。 在 GitHub 上的 範例原始程式碼中,pom.xml 包含一個範例。