カスタム Text Analytics for Health の言語サポート
この記事では、カスタム Text Analytics for Health で現在サポートされている言語について説明します。
多言語オプション
カスタム Text Analytics for Health を使用すると、1 つの言語でモデルをトレーニングし、そのモデルを使用して他の言語でドキュメントからエンティティを抽出できます。 この機能により、言語ごとに個別のプロジェクトを構築する手間を省くことができ、1 つのプロジェクトでデータセットを組み合わせるのではなく、プロジェクトを複数の言語に簡単にスケーリングできます。 英語のドキュメントを使用してプロジェクト全体をトレーニングし、フランス語、ドイツ語、イタリア語などでクエリを実行できます。 多言語オプションは、プロジェクトの作成時に有効にすることも、後からプロジェクト設定で有効にすることもできます。
すべての言語で同じ数のドキュメントを追加することは求められていません。 プロジェクトの大部分は 1 つの言語でビルドする必要があります。また、あまりうまく実行されていないと考える言語では、いくつかのドキュメントのみを追加するようにします。 主に英語であるプロジェクトを作成し、フランス語、ドイツ語、およびスペイン語でのテストを開始した場合、ドイツ語が他の 2 つの言語と同様に実行されないことがわかります。 その場合は、元の英語のドキュメントの 5% をドイツ語で追加し、新しいモデルをトレーニングし、ドイツ語でもう一度テストを行うことを検討してください。 Language Studio のデータのラベル付けページで、追加するドキュメントの言語を選択できます。 ドイツ語のクエリで、より良い結果が得られます。 追加するラベル付けされたドキュメントが多いほど、結果が改善される可能性が高くなります。 別の言語でデータを追加することで他の言語に悪影響を及ぼすことはないはずです。
ヘブライ語は多言語プロジェクトではサポートされていません。 プロジェクトの主要言語がヘブライ語の場合、他の言語のトレーニング データを追加したり、他の言語でモデルにクエリを実行したりすることはできません。 同様に、プロジェクトの主要言語がヘブライ語でない場合に、ヘブライ語のトレーニング データを追加したり、ヘブライ語でモデルにクエリを実行したりすることはできません。
言語のサポート
カスタム Text Analytics for Health では、次の言語の .txt
ファイルがサポートされています。
Language | 言語コード |
---|---|
英語 | en |
フランス語 | fr |
ドイツ語 | de |
スペイン語 | es |
イタリア語 | it |
ポルトガル語 (ポルトガル) | pt-pt |
ヘブライ語 | he |