Azure Data Lake Analytics で U-SQL を始める
重要
Azure Data Lake Analytics は、2024 年 2 月 29 日に廃止されました。 このお知らせでさらに学んでください。
データ分析の場合、組織は Azure Synapse Analytics 使用することも、Microsoft Fabric することもできます。
U-SQL は、宣言型 SQL と命令型 C# を組み合わせて、任意の規模でデータを処理できる言語です。 U-SQL のスケーラブルな分散クエリ機能を使用すると、Azure SQL Database などのリレーショナル ストア間でデータを効率的に分析できます。 U-SQL では、カスタム ロジックと UDF の読み取りと挿入にスキーマを適用することで、非構造化データを処理できます。 さらに、U-SQL には拡張性が含まれており、大規模な実行方法をきめ細かく制御できます。
学習リソース
- U-SQL チュートリアル では、ほとんどの U-SQL 言語のガイド付きチュートリアルを提供します。 このドキュメントは、U-SQL を学びたいすべての開発者に読むことをお勧めします。
- U-SQL 言語構文のの詳細については、U-SQL 言語リファレンスを参照してください。
- U-SQL の設計理念を理解するには、Visual Studio のブログ投稿「U-SQL の概要 - ビッグ データ処理を簡単に できる言語」参照してください。
データを作成しましょう
次の U-SQL スクリプトは単純であり、他の U-SQL スクリプトで参照できるサンプル データ ファイルを作成できます。 このスクリプトを次のセクションで進める主な概念について説明します。
USE DATABASE master;
USE SCHEMA dbo;
@a =
SELECT * FROM
(VALUES
(399266, "2/15/2012 11:53:16 AM", "en-us", "microsoft", 73, "microsoft.com;xbox.com", "NULL"),
(382045, "2/15/2012 11:53:18 AM", "en-gb", "azure data lake analytics", 614, "microsoft.com;portal.azure.com", "portal.azure.com"),
(382045, "2/16/2012 11:53:20 AM", "en-gb", "usql", 74, "microsoft.com;github.com", "NULL"),
(106479, "2/16/2012 11:53:50 AM", "en-ca", "xbox", 24, "xbox.com;xbox.com/xbox360", "xbox.com/xbox360"),
(906441, "2/16/2012 11:54:01 AM", "en-us", "machine learning", 1213, "microsoft.com;github.com", "NULL"),
(304305, "2/16/2012 11:54:03 AM", "en-us", "outlook", 60, "microsoft.com;office.com;live.com","microsoft.com"),
(460748, "2/16/2012 11:54:04 AM", "en-us", "azure storage", 1270, "microsoft.com;portal.azure.com", "portal.azure.com"),
(354841, "2/16/2012 11:59:01 AM", "en-us", "azure", 610, "microsoft.com;portal.azure.com", "portal.azure.com"),
(354068, "2/16/2012 12:00:33 PM", "en-mx", "key vault", 422, "microsoft.com;portal.azure.com", "portal.azure.com"),
(347413, "2/16/2012 12:11:55 PM", "en-gr", "github", 305, "github.com", "NULL"),
(840614, "2/16/2012 12:13:56 PM", "en-us", "surface", 1220, "microsoft.com", "NULL"),
(656666, "2/16/2012 12:15:55 PM", "en-us", "visual studio", 691, "microsoft.com;code.visualstudio.com", "NULL"),
(951513, "2/16/2012 12:17:00 PM", "en-us", "power bi", 63, "microsoft.com;app.powerbi.com", "powerbi.com"),
(350350, "2/16/2012 12:18:17 PM", "en-us", "data factory", 30, "microsoft.com;portal.azure.com", "NULL"),
(641615, "2/16/2012 12:19:55 PM", "en-us", "event hubs", 119, "microsoft.com;portal.azure.com", "NULL")
) AS
D( UserId, Start, Region, Query, Duration, Urls, ClickedUrls );
OUTPUT @a
TO "Samples/Data/SearchLog.tsv"
USING Outputters.Tsv();
ファイルからデータを読み取る
データが用意されたので、作成したファイルから読み取りましょう。
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM "/Samples/Data/SearchLog.tsv"
USING Extractors.Tsv();
OUTPUT @searchlog
TO "/output/SearchLog-first-u-sql.csv"
USING Outputters.Csv();
このスクリプトには変換手順はありません。
SearchLog.tsv
というソース ファイルから読み取り、スキーマ化し、行セットを SearchLog-first-u-sql.csvという名前のファイルに書き戻します。
Duration
フィールドのデータ型の横にある疑問符に注目してください。 これは、Duration
フィールドが null になる可能性があることを意味します。
重要な概念
-
行セット変数: 行セットを生成する各クエリ式を変数に割り当てることができます。 U-SQL は、スクリプト内の T-SQL 変数の名前付けパターン (
@searchlog
など) に従います。 -
EXTRACT キーワードは、ファイルからデータを読み取り、読み取り時にスキーマを定義します。
Extractors.Tsv
は、タブ区切り値ファイル用の組み込みの U-SQL エクストラクターです。 カスタム エクストラクターを開発できます。 -
OUTPUT は、行セットからファイルにデータを書き込みます。
Outputters.Csv()
は、コンマ区切り値ファイルを作成するための組み込みの U-SQL 出力子です。 カスタムのアウトプッターを開発できます。
ファイルのパス
EXTRACT ステートメントと OUTPUT ステートメントでは、ファイル パスが使用されます。 ファイル パスには、絶対パスまたは相対パスを指定できます。
次の絶対ファイル パスは、mystore
という名前の Data Lake Store 内のファイルを参照します。
adl://mystore.azuredatalakestore.net/Samples/Data/SearchLog.tsv
この次のファイル パスは、"/"
で始まります。 これは、既定の Data Lake Store アカウント内のファイルを参照します。
/output/SearchLog-first-u-sql.csv
スカラー変数を使用する
スカラー変数を使用して、スクリプトのメンテナンスを容易にすることもできます。 前の U-SQL スクリプトは、次のように記述することもできます。
DECLARE @in string = "/Samples/Data/SearchLog.tsv";
DECLARE @out string = "/output/SearchLog-scalar-variables.csv";
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM @in
USING Extractors.Tsv();
OUTPUT @searchlog
TO @out
USING Outputters.Csv();
行セットの変換
のSELECTを使用して行セットを変換します。 このスクリプトでは、Start、Region、Duration の列が選択され、Region の値が "en-gb" の場合、これらの行がファイルに書き込まれます。
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM "/Samples/Data/SearchLog.tsv"
USING Extractors.Tsv();
@rs1 =
SELECT Start, Region, Duration
FROM @searchlog
WHERE Region == "en-gb";
OUTPUT @rs1
TO "/output/SearchLog-transform-rowsets.csv"
USING Outputters.Csv();
WHERE 句では、C# ブール式を使用します。 C# 式言語を使用して、独自の式と関数を実行できます。 論理積(AND)や論理和(OR)を組み合わせることで、より複雑なフィルタリングを実行することもできます。
次のスクリプトでは、DateTime.Parse() メソッドと組み合わせて使用します。 列の開始、リージョン、期間。Region の値は "en-gb" です。 次に、特定の日付間の期間列の値をチェックし、それらの値をファイルに書き込みます。
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM "/Samples/Data/SearchLog.tsv"
USING Extractors.Tsv();
@rs1 =
SELECT Start, Region, Duration
FROM @searchlog
WHERE Region == "en-gb";
@rs1 =
SELECT Start, Region, Duration
FROM @rs1
WHERE Start >= DateTime.Parse("2012/02/16") AND Start <= DateTime.Parse("2012/02/17");
OUTPUT @rs1
TO "/output/SearchLog-transform-datetime.csv"
USING Outputters.Csv();
注
2 番目のクエリは、2 つのフィルターの複合を作成する最初の行セットの結果で動作しています。 変数名を再利用することもできます。また、名前のスコープは字句的です。
行セットを集計する
U-SQL では、使い慣れた ORDER BY、GROUP BY、集計が提供されます。
次のクエリでは、リージョンごとの合計期間を検索し、上位 5 つの期間を順番に表示します。
U-SQL 行セットでは、次のクエリの順序は保持されません。 したがって、出力を並べ替えるためには、OUTPUT ステートメントに ORDER BY を追加する必要があります。
DECLARE @outpref string = "/output/Searchlog-aggregation";
DECLARE @out1 string = @outpref+"_agg.csv";
DECLARE @out2 string = @outpref+"_top5agg.csv";
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM "/Samples/Data/SearchLog.tsv"
USING Extractors.Tsv();
@rs1 =
SELECT
Region,
SUM(Duration) AS TotalDuration
FROM @searchlog
GROUP BY Region;
@res =
SELECT *
FROM @rs1
ORDER BY TotalDuration DESC
FETCH 5 ROWS;
OUTPUT @rs1
TO @out1
ORDER BY TotalDuration DESC
USING Outputters.Csv();
OUTPUT @res
TO @out2
ORDER BY TotalDuration DESC
USING Outputters.Csv();
U-SQL ORDER BY 句では、SELECT 式で FETCH 句を使用する必要があります。
U-SQL HAVING 句を使用して、HAVING 条件を満たすグループに出力を制限できます。
@searchlog =
EXTRACT UserId int,
Start DateTime,
Region string,
Query string,
Duration int?,
Urls string,
ClickedUrls string
FROM "/Samples/Data/SearchLog.tsv"
USING Extractors.Tsv();
@res =
SELECT
Region,
SUM(Duration) AS TotalDuration
FROM @searchlog
GROUP BY Region
HAVING SUM(Duration) > 200;
OUTPUT @res
TO "/output/Searchlog-having.csv"
ORDER BY TotalDuration DESC
USING Outputters.Csv();
高度な集計シナリオについては、集計関数、分析関数、および参照関数の U-SQL リファレンス ドキュメントを参照してください。