Hugging Face Transformers란 무엇인가요?
이 문서에서는 Azure Databricks에서 얼굴 변환기를 포옹하는 방법을 소개합니다. 여기에는 Hugging Face Transformers를 사용하는 이유와 클러스터에 설치하는 방법에 대한 지침이 포함되어 있습니다.
얼굴 변압기를 포옹하는 배경
Hugging Face Transformers는 Hugging Face가 만든 딥 러닝을 위한 오픈 소스 프레임워크입니다. 미리 학습된 최신 모델을 다운로드하고 성능을 최대화하기 위해 추가로 조정하는 API 및 도구를 제공합니다. 이러한 모델은 자연어 처리, Computer Vision, 오디오, 멀티 모달 애플리케이션 등 다양한 형식의 일반적인 작업을 지원합니다.
참고 항목
Machine Learning용 Databricks 런타임에는 Databricks Runtime 10.4 LTS ML 이상의 Hugging Face transformers
가 포함되며, Face 데이터 세트 포옹, 가속 및 평가가 Databricks Runtime 13.0 ML 이상에서 포함됩니다.
구성된 Databricks Runtime ML 버전에 포함되는 Hugging Face 버전을 확인하려면 관련 릴리스 정보에서 Python 라이브러리 섹션을 참조하세요.
포옹 얼굴 변압기를 사용하는 이유는 무엇입니까?
감정 분석 및 텍스트 요약과 같은 많은 애플리케이션의 경우 미리 학습된 모델은 추가 모델 학습 없이도 잘 작동합니다.
포옹 얼굴 변환기 파이프라인은 모범 사례를 인코딩하고 다양한 작업에 대해 기본 모델을 선택하므로 쉽게 시작할 수 있습니다. 파이프라인을 사용하면 사용 가능한 경우 GPU를 쉽게 사용할 수 있으며 더 나은 처리량 성능을 위해 GPU로 전송된 항목의 일괄 처리를 허용합니다.
포옹 얼굴은 다음을 제공합니다.
- 미리 학습된 여러 모델이 포함된 모델 허브입니다.
- 🤗 NLP 애플리케이션 및 미세 조정을 위해 이러한 모델의 다운로드 및 사용을 지원하는 변환기 라이브러리입니다. 자연어 처리 작업을 위해 토큰라이저와 모델이 모두 필요한 것이 일반적입니다.
- 🤗 대부분의 자연어 처리 작업에 대한 간단한 인터페이스가 있는 변환기 파이프라인 입니다.
transformers
설치
클러스터의 Databricks 런타임 버전에 Hugging Facetransformers
가 포함되지 않은 경우 최신 Hugging Face transformers
라이브러리를 Databricks PyPI 라이브러리로 설치할 수 있습니다.
%pip install transformers
모델 종속성 설치
모델별로 종속성이 다를 수 있습니다. Databricks는 필요에 따라 %pip 매직 명령을 사용하여 이러한 종속성을 설치하는 것이 좋습니다.
다음은 일반적인 종속성입니다.
librosa
: 오디오 파일 디코딩을 지원합니다.soundfile
: 일부 오디오 데이터 세트를 생성하는 동안 필요합니다.bitsandbytes
: 를 사용할load_in_8bit=True
때 필요합니다.SentencePiece
: NLP 모델의 토케나이저로 사용됩니다.timm
: DetrForSegmentation에 필요합니다.
단일 노드 학습
단일 컴퓨터 워크플로를 테스트하고 마이그레이션하려면 단일 노드 클러스터를 사용합니다.
추가 리소스
다음 문서에는 Azure Databricks에서 LLM(큰 언어 모델) 미세 조정 및 모델 유추에 Hugging Face transformers
를 사용하는 방법에 대한 예제 Notebook 및 지침이 포함되어 있습니다.