Bearbetning av naturligt språk
Du kan utföra bearbetningsuppgifter för naturligt språk i Azure Databricks med hjälp av populära öppen källkod bibliotek som Spark ML och spark-nlp eller proprietära bibliotek via Azure Databricks-samarbetet med John Snow Labs.
Exempel på NLP med huggande ansikte finns i Ytterligare resurser
Skapa funktioner från text med Spark ML
Spark ML innehåller ett antal textbearbetningsverktyg för att skapa funktioner från textkolumner. Du kan skapa indatafunktioner från text för modellträningsalgoritmer direkt i Spark ML-pipelines med Spark ML. Spark ML stöder en rad textprocessorer, inklusive tokenisering, stop-word-bearbetning, word2vec och funktionshashing.
Utbildning och slutsatsdragning med Spark NLP
Du kan skala ut många djupinlärningsmetoder för bearbetning av naturligt språk i Spark med spark NLP-biblioteket med öppen källkod. Det här biblioteket stöder vanliga bearbetningsåtgärder för naturligt språk, till exempel tokenisering, namngiven entitetsigenkänning och vektorisering med hjälp av de inkluderade anteckningarna. Du kan också sammanfatta, utföra namngiven entitetsigenkänning, översätta och generera text med hjälp av många förtränade djupinlärningsmodeller baserade på Spark NLP:s transformatorer som BERT och T5 Marion.
Utföra slutsatsdragning i batch med Spark NLP på processorer
Spark NLP innehåller många förtränade modeller som du kan använda med minimal kod. Det här avsnittet innehåller ett exempel på hur du använder Marian Transformer för maskinöversättning. Fullständig uppsättning exempel finns i Spark NLP-dokumentationen.
Krav
- Installera Spark NLP i klustret med de senaste Maven-koordinaterna för Spark NLP, till exempel
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
. Klustret måste startas med lämpliga Konfigurationsalternativ för Spark för att biblioteket ska fungera. - Om du vill använda Spark NLP måste klustret ha rätt
.jar
fil nedladdad från John Snow Labs. Du kan skapa eller använda ett kluster som kör valfri kompatibel körning.
Exempelkod för maskinöversättning
Installera Python-bibliotek i en notebook-cell sparknlp
:
%pip install sparknlp
Skapa en pipeline för översättning och kör den på exempeltext:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Exempel: Igenkänningsmodell med namngivna entiteter med Spark NLP och MLflow
Exempelanteckningsboken visar hur du tränar en namngiven entitetsigenkänningsmodell med Spark NLP, sparar modellen till MLflow och använder modellen för slutsatsdragning av text. Mer information om hur du tränar ytterligare bearbetningsmodeller för naturligt språk finns i Dokumentationen om John Snow Labs för Spark NLP .
Spark NLP-modellträning och slutsatsdragningsanteckningsbok
Healthcare NLP med John Snow Labs partnerskap
John Snow Labs Spark NLP för Healthcare är ett patentskyddat bibliotek för klinisk och biomedicinsk textutvinning. Det här biblioteket innehåller förtränade modeller för att identifiera och arbeta med kliniska entiteter, läkemedel, riskfaktorer, anatomi, demografi och känsliga data. Du kan prova Spark NLP for Healthcare med partneranslutningsintegrering med John Snow Labs. Du behöver ett utvärderings- eller betalkonto med John Snow Labs för att prova kommandona som visas i den här guiden.
Läs mer om de fullständiga funktionerna i John Snow Labs Spark NLP for Healthcare och dokumentation för användning på deras webbplats.