Przetwarzanie języka naturalnego
Zadania przetwarzania języka naturalnego można wykonywać w usłudze Azure Databricks przy użyciu popularnych bibliotek typu open source, takich jak Spark ML i spark-nlp lub biblioteki zastrzeżone za pośrednictwem partnerstwa usługi Azure Databricks z Johnem Snow Labs.
Przykłady nlp z przytulanie twarzy, zobacz Dodatkowe zasoby
Tworzenie funkcji na podstawie tekstu przy użyciu usługi Spark ML
Platforma Spark ML zawiera szereg narzędzi do przetwarzania tekstu w celu utworzenia cech z tekstu columns. Funkcje wejściowe można tworzyć na podstawie tekstu dla algorytmów trenowania modelu bezpośrednio w potokach uczenia maszynowego platformy Spark przy użyciu usługi Spark ML. Platforma Spark ML obsługuje szereg procesorów tekstu, w tym tokenizację, zatrzymywanie przetwarzania słów, word2vec i tworzenie skrótów funkcji.
Trenowanie i wnioskowanie przy użyciu usługi Spark NLP
Istnieje możliwość skalowania w poziomie wielu metod uczenia głębokiego na potrzeby przetwarzania języka naturalnego na platformie Spark przy użyciu biblioteki NLP platformy Spark typu open source. Ta biblioteka obsługuje standardowe operacje przetwarzania języka naturalnego, takie jak tokenizowanie, rozpoznawanie nazwanych jednostek i wektoryzacja przy użyciu dołączonych adnotacji. Możesz również podsumowywać, wykonywać rozpoznawanie nazwanych jednostek, tłumaczyć i generate tekst przy użyciu wielu wstępnie wytrenowanych modeli uczenia głębokiego opartych na transformatorach NLP platformy Spark, takich jak BERT i T5 Marion.
Wnioskowanie w partii przy użyciu usługi Spark NLP na procesorach CPU
Usługa Spark NLP udostępnia wiele wstępnie wytrenowanych modeli, których można używać z minimalnym kodem. Ta sekcja zawiera przykład użycia funkcji Marian Transformer do tłumaczenia maszynowego. Aby zobaczyć pełną liczbę przykładów oznaczonych set, sprawdź dokumentację Spark NLP.
Wymagania
- Zainstaluj usługę NlP platformy Spark w klastrze przy użyciu najnowszych współrzędnych narzędzia Maven dla usługi Spark NLP, takich jak
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
. Aby ta biblioteka działała, należy uruchomić klaster z odpowiednimi opcjami konfiguracji platformy Spark set. - Aby korzystać z usługi Spark NLP, klaster musi mieć prawidłowy
.jar
plik pobrany z usługi John Snow Labs. Możesz utworzyć klaster z dowolnym zgodnym środowiskiem uruchomieniowym lub użyć go.
Przykładowy kod tłumaczenia maszynowego
W komórce notesu zainstaluj sparknlp
biblioteki języka Python:
%pip install sparknlp
Skonstruuj potok tłumaczenia i uruchom go w przykładowym tekście:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Przykład: model rozpoznawania nazwanych jednostek przy użyciu usługi Spark NLP i MLflow
W przykładowym notesie pokazano, jak wytrenować nazwany model rozpoznawania jednostek przy użyciu usługi Spark NLP, zapisać model w usłudze MLflow i użyć modelu do wnioskowania tekstu. Zapoznaj się z dokumentacją John Snow Labs dla usługi Spark NLP , aby dowiedzieć się, jak trenować dodatkowe modele przetwarzania języka naturalnego.
Notes trenowania i wnioskowania modelu nlp platformy Spark
Opieka zdrowotna NLP z John Snow Labs partnerstwa
John Snow Labs Spark NLP for Healthcare to zastrzeżona biblioteka do wyszukiwania tekstu klinicznego i biomedycznego. Ta biblioteka udostępnia wstępnie wytrenowane modele do rozpoznawania i pracy z jednostkami klinicznymi, lekami, czynnikami ryzyka, anatomią, danymi demograficznymi i danymi poufnymi. Możesz wypróbować usługę Spark NLP for Healthcare przy użyciu integracji Partner Connect z Johnem Snow Labs. Aby wypróbować polecenia przedstawione w tym przewodniku, potrzebujesz wersji próbnej lub płatnego konta z Johnem Snow Labs.
Dowiedz się więcej o pełnych możliwościach rozwiązania John Snow Labs Spark NLP for Healthcare i dokumentacji do użycia w swojej witrynie internetowej.