Обработка естественного языка
Вы можете выполнять задачи обработки естественного языка в Azure Databricks с помощью популярных библиотек открытый код, таких как Spark ML и spark-nlp или собственные библиотеки через партнерство Azure Databricks с John Snow Labs.
Примеры NLP с hugging Face, см. в разделе "Дополнительные ресурсы"
Создание компонентов из текста с помощью Машинного обучения Spark
Машинное обучение Spark содержит ряд средств обработки текста для создания функций из текстовых columns. Вы можете создавать входные функции из текста для алгоритмов обучения модели непосредственно в конвейерах машинного обучения Spark с помощью Машинного обучения Spark. Машинное обучение Spark поддерживает ряд текстовых процессоров, включая маркеризацию, обработку стоп-слов, word2vec и хэширование функций.
Обучение и вывод с помощью Spark NLP
Вы можете масштабировать множество методов глубокого обучения для обработки естественного языка в Spark с помощью библиотеки NLP с открытым исходным кодом Spark. Эта библиотека поддерживает стандартные операции обработки естественного языка, такие как маркеризация, распознавание именованных сущностей и векторизация с помощью включенных аннотаторов. Кроме того, можно обобщать, выполнять распознавание именованных сущностей, переводить и generate тексты с помощью многих предварительно обученных моделей глубокого обучения, основанных на трансформерах Spark NLP , таких как BERT и T5 Marion.
Выполнение вывода в пакетном режиме с помощью NLP Spark на ЦП
Spark NLP предоставляет множество предварительно обученных моделей, которые можно использовать с минимальным кодом. В этом разделе содержится пример использования Marian Transformer для машинного перевода. Полный set примеров смотрите в документации Spark NLP.
Требования
- Установите NLP Spark в кластере с помощью последних координат Maven для NLP Spark, таких как
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
. Кластер должен быть запущен с соответствующими параметрами конфигурации Spark set, чтобы эта библиотека работала. - Чтобы использовать NLP Spark, кластер должен иметь правильный
.jar
файл, скачанный из John Snow Labs. Вы можете создать или использовать кластер под управлением любой совместимой среды выполнения.
Пример кода для машинного перевода
В ячейке записной книжки установите sparknlp
библиотеки Python:
%pip install sparknlp
Создайте конвейер для перевода и запустите его на некоторых примерах текста:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Пример: модель распознавания именованных сущностей с помощью Spark NLP и MLflow
В примере записной книжки показано, как обучить модель распознавания именованных сущностей с помощью Spark NLP, сохранить модель в MLflow и использовать модель для вывода текста. Ознакомьтесь с документацией по John Snow Labs для Spark NLP , чтобы узнать, как обучать дополнительные модели обработки естественного языка.
Записная книжка обучения и вывода модели Spark NLP
Здравоохранение NLP с Джоном Сноу Labs партнерство
Джон Snow Labs Spark NLP для здравоохранения является частной библиотекой для клинического и биомедического анализа текста. Эта библиотека предоставляет предварительно обученные модели для распознавания и работы с клиническими сущностями, наркотиками, факторами риска, анатомией, демографическими данными и конфиденциальными данными. Вы можете попробовать Spark NLP для здравоохранения с помощью интеграции Partner Connect с John Snow Labs. Вам нужна пробная или платная учетная запись с Джоном Сноу Labs, чтобы попробовать команды, показанные в этом руководстве.
Узнайте больше о полных возможностях John Snow Labs Spark NLP для здравоохранения и документации по использованию на своем веб-сайте.