Przetwarzanie języka naturalnego

Artykuł
01/22/2025

Zadania przetwarzania języka naturalnego można wykonywać w usłudze Azure Databricks przy użyciu popularnych bibliotek typu open source, takich jak Spark ML i spark-nlp lub biblioteki zastrzeżone za pośrednictwem partnerstwa usługi Azure Databricks z Johnem Snow Labs.

Przykłady nlp z przytulanie twarzy, zobacz Dodatkowe zasoby

Tworzenie funkcji na podstawie tekstu przy użyciu usługi Spark ML

Platforma Spark ML zawiera szereg narzędzi do przetwarzania tekstu w celu utworzenia funkcji na podstawie kolumn tekstowych. Funkcje wejściowe można tworzyć na podstawie tekstu dla algorytmów trenowania modelu bezpośrednio w potokach uczenia maszynowego platformy Spark przy użyciu usługi Spark ML. Platforma Spark ML obsługuje szereg procesorów tekstu, w tym tokenizację, zatrzymywanie przetwarzania słów, word2vec i tworzenie skrótów funkcji.

Trenowanie i wnioskowanie przy użyciu usługi Spark NLP

Istnieje możliwość skalowania w poziomie wielu metod uczenia głębokiego na potrzeby przetwarzania języka naturalnego na platformie Spark przy użyciu biblioteki NLP platformy Spark typu open source. Ta biblioteka obsługuje standardowe operacje przetwarzania języka naturalnego, takie jak tokenizowanie, rozpoznawanie nazwanych jednostek i wektoryzacja przy użyciu dołączonych adnotacji. Możesz również podsumowywać, wykonywać rozpoznawanie nazwanych jednostek, tłumaczyć i generować tekst przy użyciu wielu wstępnie wytrenowanych modeli uczenia głębokiego na podstawie transformatorów NLP platformy Spark, takich jak BERT i T5 Marion.

Wnioskowanie w partii przy użyciu usługi Spark NLP na procesorach CPU

Usługa Spark NLP udostępnia wiele wstępnie wytrenowanych modeli, których można używać z minimalnym kodem. Ta sekcja zawiera przykład użycia funkcji Marian Transformer do tłumaczenia maszynowego. Aby zapoznać się z pełnym zestawem przykładów, zobacz dokumentację Spark NLP.

Wymagania

Zainstaluj usługę NlP platformy Spark w klastrze przy użyciu najnowszych współrzędnych narzędzia Maven dla usługi Spark NLP, takich jak com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Aby ta biblioteka działała, należy uruchomić klaster z odpowiednimi opcjami konfiguracji platformy Spark.
Aby korzystać z usługi Spark NLP, klaster musi mieć prawidłowy .jar plik pobrany z usługi John Snow Labs. Możesz utworzyć klaster z dowolnym zgodnym środowiskiem uruchomieniowym lub użyć go.

Przykładowy kod tłumaczenia maszynowego

W komórce notesu zainstaluj sparknlp biblioteki języka Python:

%pip install sparknlp

Skonstruuj potok tłumaczenia i uruchom go w przykładowym tekście:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Przykład: model rozpoznawania nazwanych jednostek przy użyciu usługi Spark NLP i MLflow

W przykładowym notesie pokazano, jak wytrenować nazwany model rozpoznawania jednostek przy użyciu usługi Spark NLP, zapisać model w usłudze MLflow i użyć modelu do wnioskowania tekstu. Zapoznaj się z dokumentacją John Snow Labs dla usługi Spark NLP , aby dowiedzieć się, jak trenować dodatkowe modele przetwarzania języka naturalnego.

Notes trenowania i wnioskowania modelu nlp platformy Spark

Pobierz notatnik

Opieka zdrowotna NLP z John Snow Labs partnerstwa

John Snow Labs Spark NLP for Healthcare to zastrzeżona biblioteka do wyszukiwania tekstu klinicznego i biomedycznego. Ta biblioteka udostępnia wstępnie wytrenowane modele do rozpoznawania i pracy z jednostkami klinicznymi, lekami, czynnikami ryzyka, anatomią, danymi demograficznymi i danymi poufnymi. Możesz wypróbować usługę Spark NLP for Healthcare przy użyciu integracji Partner Connect z Johnem Snow Labs. Aby wypróbować polecenia przedstawione w tym przewodniku, potrzebujesz wersji próbnej lub płatnego konta z Johnem Snow Labs.

Dowiedz się więcej o pełnych możliwościach rozwiązania John Snow Labs Spark NLP for Healthcare i dokumentacji do użycia w swojej witrynie internetowej.

Udostępnij za pośrednictwem