次の方法で共有


Amazon S3 からデータを取得する

この記事では、Amazon S3 から新規または既存のテーブルにデータを取得する方法について説明します。 Amazon S3 は、データを格納および取得するために構築されたオブジェクトストレージサービスです。

Amazon S3 の詳細については、「Amazon S3 とは」を参照してください。.

前提 条件

ソース

  1. KQL データベースの下部のリボンで、[データの取得] 選択します。

    [データの取得] ウィンドウで、[ソース] タブが選択されています。

  2. 使用可能な一覧からデータ ソースを選択します。 この例では、Amazon S3からデータを取り込んでいるとします。

    ソース タブが選択されている [データの取得] ウィンドウのスクリーンショット。

構成

  1. ターゲット テーブルを選択します。 新しいテーブルにデータを取り込む場合は、[+新しいテーブル] を選択し、テーブル名を入力します。

    手記

    テーブル名には、スペース、英数字、ハイフン、アンダースコアを含む最大 1024 文字を指定できます。 特殊文字はサポートされていません。

  2. [URI] フィールドに、1 つのバケットまたは個々のオブジェクトの接続文字列を次の形式で貼り付けます。

    バケット: https://BucketName.s3.RegionName.amazonaws.com;AwsCredentials=AwsAccessID,AwsSecretKey

    必要に応じて、バケット フィルターを適用して、特定のファイル拡張子に従ってデータをフィルター処理できます。

    新しいテーブルが入力され、Amazon S3 接続文字列が貼り付けられた [構成] タブのスクリーンショット。

  3. 次にを選択します。

検査する

[検査] タブが開き、データのプレビューが表示されます。

インジェスト プロセスを完了するには、[完了] を選択します。

検査タブのスクリーンショット。

必要 に応じて:

  • コマンド ビューアー を選択して、入力から生成された自動コマンドを表示およびコピーします。
  • スキーマ定義ファイル ドロップダウンを使用して、スキーマが推論されるファイルを変更します。
  • ドロップダウンから目的の形式を選択して、自動的に推論されるデータ形式を変更します。 詳細については、「Real-Time Intelligence でサポートされるデータ形式の」を参照してください。
  • を編集します。
  • データ型 に基づいて詳細オプションを調べる。

列の編集

手記

  • 表形式 (CSV、TSV、PSV) の場合、列を 2 回マップすることはできません。 既存の列にマップするには、最初に新しい列を削除します。
  • 既存の列の種類を変更することはできません。 別の形式の列にマップしようとすると、最終的に空の列になる可能性があります。

テーブルで行うことができる変更は、次のパラメーターによって異なります。

  • テーブルの種類が新規かまたは既存か
  • マッピングの種類が新規かまたは既存か
テーブルの種類 マッピングの種類 使用可能な調整
新しいテーブル 新しいマッピング 列の名前変更、データ型の変更、データ ソースの変更、マッピング変換 、列の追加、列の削除
既存のテーブル 新しいマッピング 列の追加 (データ型の変更、名前の変更、更新が可能)
既存のテーブル 既存のマッピング 何一つ

編集用に開いている列のスクリーンショット。

マッピング変換

一部のデータ形式マッピング (Parquet、JSON、Avro) では、単純な取り込み時間変換がサポートされています。 マッピング変換を適用するには、[列の編集] ウィンドウで列 作成または更新します。

マッピング変換は、データ型が int または long のソースを使用して、文字列型または datetime 型の列に対して実行できます。 サポートされているマッピング変換は次のとおりです。

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

データ型に基づく詳細オプション

表形式 (CSV、TSV、PSV):

  • 表形式を "既存のテーブル" に取り込もうとしている場合は、[詳細]>[テーブル スキーマを保持する] を選択できます。 表形式データには、ソース データを既存の列にマップするために使用される列名が必ずしも含まれているわけではありません。 このオプションをオンにすると、マッピングは順番に行われ、テーブル スキーマは変わりません。 このオプションをオフにすると、データ構造に関係なく、受信データに対して新しい列が作成されます。

  • 最初の行を列名として使用するには、[詳細設定] を選択し、>[最初の行を列ヘッダーとする] を選択します。

    高度な CSV オプションのスクリーンショット。

JSON:

  • JSON データの列分割を決定するには、高度な>入れ子になったレベルを 1 から 100 まで選択します。

  • [詳細]>[エラーのある JSON 行をスキップする] を選択すると、データは JSON 形式で取り込まれます。 このチェック ボックスをオフのままにすると、データは multijson 形式で取り込まれます。

    高度な JSON オプションのスクリーンショット。

概要

データ準備 ウィンドウでは、データ インジェストが正常に完了すると、3 つのステップすべてが緑色のチェック マークでマークされます。 カードを選択してクエリを実行したり、取り込まれたデータを削除したり、インジェストの概要のダッシュボードを表示したりできます。

正常なインジェストが完了した概要ページのスクリーンショット。

  • データベースを管理するには、「データ の管理」を参照してください。
  • クエリを作成、格納、およびエクスポートするには、KQL クエリセット クエリ データの を参照してください。