Internationale Überlegungen zu Integration Services
MicrosoftSQL ServerIntegration Services unterstützt das Analysieren und Bearbeiten von mehrsprachigen Daten, unterstützt alle Windows-Gebietsschemas und bietet spezielle Vergleichsoptionen zum Sortieren und Vergleichen von Zeichenfolgendaten.
Die Integration Services-Transformationen für das Text Mining und die Fuzzyübereinstimmung funktionieren jedoch mit der englischen Sprache möglicherweise besser als mit anderen Sprachen. Allerdings können sowohl die Text Mining- als auch die Fuzzyübereinstimmungs-Transformationen nützliche Ergebnisse liefern, wenn Sie mit anderen Sprachen als Englisch verwendet werden. Die Qualität dieser Ergebnisse hängt von der jeweiligen Sprache ab.
Vom Gebietsschema unabhängiges Analysieren
Integration Services enthält vom Gebietsschema unabhängige Analyseroutinen, die Sie für Daten verwenden können, die in bestimmten Formaten vorliegen. Diese Analyseroutinen unterstützen nur die gängigsten Datumsformatdarstellungen, führt keine gebietsschemaspezifische Analyse aus, erkennt keine Sonderzeichen in Währungsdaten und kann die hexadezimale oder wissenschaftliche Darstellung von ganzen Zahlen nicht konvertieren. Die schnelle Analyse kann eine erhebliche Leistungssteigerung von Integration Services-Paketen bewirken, in denen es keine Gebietsschemaabhängigkeiten gibt. Weitere Informationen finden Sie unter Analysieren von Daten.
Gebietsschemaeinstellungen
Integration Services unterstützt Gebietsschemas auf der Ebene von Paketen, Containern, Tasks und Datenflusskomponenten. Sie können auch das Gebietsschema von Ereignishandlern festlegen.
Ein Paket kann mehrere verschiedene Gebietsschemas verwenden. So kann z. B. das Paket das Gebietsschema Englisch (Vereinigte Staaten) verwenden, während ein Task im Paket das Gebietsschema Deutsch (Deutschland) und ein anderer Task das Gebietsschema Japanisch (Japan) verwendet.
Sie können jedes Windows-Gebietsschema in einem Integration Services-Paket verwenden. Sie legen das Gebietsschema fest, wenn Sie das Paket erstellen. Mit Ausnahme des Falls, wenn das Paket Konfigurationen zum Aktualisieren von Gebietsschemaeigenschaften verwendet, verhält sich das Paket dann garantiert genauso, wenn es auf Computern bereitgestellt wird, die von der Entwicklungsumgebung abweichende Regional- und Sprachoptionen verwenden.
Wenn ein Paket allerdings beim Bereitstellen auf unterschiedlichen Servern verschiedene Gebietsschemas verwenden muss, können Sie Konfigurationen erstellen, mit denen beim Ausführen des Pakets die zu verwendenden aktualisierten Gebietsschemas bereitgestellt werden. Weitere Informationen finden Sie unter Festlegen von Paketeigenschaften und Paketkonfigurationen.
Vergleichsoptionen
Das Gebietsschema stellt die grundlegenden Regeln zum Vergleichen von Zeichenfolgendaten in einem Datenstrom bereit. Beispielsweise gibt das Gebietsschema die Sortierposition jedes Buchstabens im Alphabet an. Diese Regeln sind jedoch möglicherweise für die von Ihnen gewünschten Vergleiche nicht ausreichend. Deshalb unterstützt Integration Services erweiterte Vergleichsoptionen, die über die Vergleichsregeln eines Gebietsschemas hinausgehen. Wenn Sie beispielsweise Zeichen ohne Zwischenraum ignorieren, sind "a" und "á" für Vergleichszwecke identisch. Weitere Informationen finden Sie unter Vergleichen von Zeichenfolgendaten.
Text Mining
Die Transformationen für das Text Mining – Ausdrucksextrahierung und Ausdruckssuche – verwenden ihr eigenes Wörterbuch. Dieses Wörterbuch ist nur in englischer Sprache verfügbar, sodass die Ergebnisse beim Verwenden der Text Mining-Transformationen mit anderen Sprachen als Englisch möglicherweise nur beschränkte Qualität besitzen. Microsoft unterstützt die Verwendung dieser Transformationen nur mit Englisch.
Allerdings können Sie je nach linguistischer Ähnlichkeit einer Sprache mit der englischen Sprache feststellen, dass die Transformation zur Ausdrucksextrahierung auch Ausdrücke in anderen Sprachen als Englisch extrahieren kann und dass die Transformation zur Ausdrucksextrahierung zum Suchen nach Ausdrücken und zum Berechnen der Ausdruckshäufigkeit verwendet werden kann. Je größer die Ähnlichkeit zwischen den Sprachen ist, desto erfolgreicher ist das Text Mining. So könnte z. B. das Verwenden der Transformation zur Ausdrucksextrahierung beim Text Mining von schwedischen Zeichenfolgen effektiv sein, weil in der schwedischen Sprache Wort- und Satzbegrenzungszeichen verwendet werden, die denen in der englischen Sprache ähnlich sind. Dagegen wäre die Verwendung der Transformation zur Ausdrucksextrahierung im Zusammenhang mit der japanischen Sprache wahrscheinlich kaum erfolgreich. Weitere Informationen finden Sie unter Transformation für Ausdrucksextrahierung und Transformation für Ausdruckssuche.
Fuzzyübereinstimmung
Die beiden Transformationen Fuzzygruppierung und Fuzzysuche verwenden die Fuzzyübereinstimmung zum Gruppieren ähnlicher Datensätze in einem Dataset oder zum Durchführen von Suchen in einer Verweistabelle. Beide Transformationen können am effektivsten nach Übereinstimmungen suchen, wenn die Textdaten mehrere lange Wörter enthalten, die durch Leerzeichen oder Begrenzungszeichen getrennt sind. Die Fehlertoleranz der Transformationen ist eventuell in logografischen Sprachen wie Chinesisch geringer, weil die Wörter in solchen Sprachen häufig nur aus wenigen Zeichen bestehen und nicht durch Leerzeichen voneinander getrennt sind. In logografischen Sprachen ist die Erkennung von Rechtschreibfehlern, Wortdopplungen und fehlenden Wörtern durch die Transformationen wahrscheinlich weniger erfolgreich. Weitere Informationen finden Sie unter Transformation für Fuzzygruppierung und Transformation für Fuzzysuche.
|