다음을 통해 공유


자연어 처리

John Snow Labs와의 Azure Databricks 파트너십을 통해 Spark ML 같은 인기 있는 오픈 소스 라이브러리 및 spark-nlp 또는 독점 라이브러리를 사용하여 Azure Databricks에서 자연어 처리 작업을 수행할 수 있습니다.

Hugging Face을 사용하는 NLP의 예제는 추가 리소스를 참조하세요.

Spark ML을 사용하여 텍스트로 기능 만들기

Spark ML에는 텍스트 열로 기능을 만드는 다양한 텍스트 처리 도구가 포함되어 있습니다. Spark ML을 사용하여 Spark ML 파이프라인에서 직접 모델 학습 알고리즘에 대한 텍스트로 입력 기능을 만들 수 있습니다. Spark ML은 토큰화, 중지 단어 처리, word2vec 및 기능 해시를 비롯한 다양한 텍스트 프로세서를 지원합니다.

Spark NLP를 사용한 학습 및 유추

오픈 소스 Spark NLP 라이브러리를 사용하여 Spark에서 자연어 처리를 위한 많은 딥 러닝 방법을 스케일 아웃할 수 있습니다. 이 라이브러리는 포함된 주석 처리기를 사용하여 토큰화, 명명된 엔터티 인식 및 벡터화와 같은 표준 자연어 처리 작업을 지원합니다. 또한 BERT 및 T5 Marion과 같은 Spark NLP의 변환기를 기반으로 미리 학습된 여러 딥 러닝 모델을 사용하여 요약, 명명된 엔터티 인식, 번역 및 텍스트 생성을 수행할 수 있습니다.

CPU에서 Spark NLP를 사용하여 일괄 유추 수행

Spark NLP는 최소한의 코드로 사용할 수 있는 미리 학습된 여러 모델을 제공합니다. 이 섹션에는 기계 번역에 Marian Transformer를 사용하는 예제가 포함되어 있습니다. 전체 예제 집합은 Spark NLP 설명서를 참조하세요.

요구 사항

  • Spark NLP에 대한 최신 Maven 좌표(예: com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0)를 사용하여 클러스터에 Spark NLP를 설치합니다. 이 라이브러리가 작동하려면 클러스터를 적절한 Spark 구성 옵션으로 시작해야 합니다.
  • Spark NLP를 사용하려면 클러스터에 John Snow Labs에서 다운로드한 올바른 .jar 파일이 있어야 합니다. 호환 가능한 런타임을 실행하는 클러스터를 만들거나 사용할 수 있습니다.

기계 번역에 대한 예제 코드

Notebook 셀에서 python 라이브러리 sparknlp를 설치합니다.

%pip install sparknlp

번역을 위한 파이프라인을 생성하고 일부 샘플 텍스트에서 실행합니다.

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

예제: Spark NLP 및 MLflow를 사용한 명명된 엔터티 인식 모델

이 예제 Notebook에서는 Spark NLP를 사용하여 명명된 엔터티 인식 모델을 학습시키고, 모델을 MLflow에 저장하고, 모델을 사용하여 텍스트를 유추하는 방법을 보여 줍니다. 추가 자연어 처리 모델을 학습시키는 방법을 알아보려면 Spark NLP에 대한 John Snow Labs 설명서를 참조하세요.

Spark NLP 모델 학습 및 유추 Notebook

Notebook 가져오기

John Snow Labs와의 의료 NLP 파트너십

John Snow Labs Spark NLP for Healthcare는 임상 및 생명 공학 텍스트 마이닝을 위한 독점 라이브러리입니다. 이 라이브러리는 임상 엔터티, 약물, 위험 요소, 해부학, 인구 통계 및 중요한 데이터를 인식하고 사용하기 위한 미리 학습된 모델을 제공합니다. John Snow Labs와 Partner Connect 통합을 사용하여 의료용 Spark NLP를 사용해 볼 수 있습니다. 이 가이드에 설명된 명령을 사용해 보려면 John Snow Labs의 평가판 또는 유료 계정이 필요합니다.

의료용 John Snow Labs Spark NLP의 웹 사이트에서 전체 기능 및 사용 설명서를 자세히 읽어 보세요.