비전 지원 채팅 모델 개념
비전 지원 채팅 모델은 이미지를 분석하고 질문에 대한 텍스트 응답을 제공할 수 있는 OpenAI에서 개발한 대형 LMM(다중 모드 모델)입니다. 자연어 처리와 시각적 이해를 모두 통합합니다. 현재 비전 지원 모델은 비전, GPT-4o 및 GPT-4o-mini를 사용하는 GPT-4 Turbo입니다. 이 가이드에서는 기능 및 제한 사항에 대한 세부 정보를 제공합니다.
비전 지원 채팅 모델을 사용해 보려면 빠른 시작을 참조 하세요.
비전 지원 채팅
비전 지원 모델은 업로드하는 이미지에 있는 항목에 대한 일반적인 질문에 답변합니다.
특별 가격 책정 정보
Important
가격 책정 세부 정보는 나중에 변경될 수 있습니다.
비전 지원 모델은 다른 Azure OpenAI 채팅 모델과 같은 요금이 발생합니다. 가격 책정 페이지에 자세히 설명된 프롬프트 및 완료에 대해 토큰당 요금을 지불합니다. 기본 요금 및 추가 기능은 다음과 같습니다.
GPT-4 Turbo with Vision의 기본 가격은 다음과 같습니다.
- 입력: 토큰 1000개당 $0.01
- 출력: 토큰 1000개당 $0.03
텍스트 및 이미지가 토큰으로 변환되는 방법에 대한 내용은 개요의 토큰 섹션을 참조하세요.
이미지 가격 계산 예제
Important
다음 콘텐츠는 예제일 뿐이며 가격은 나중에 변경될 수 있습니다.
일반적인 사용 사례의 경우 표시되는 개체와 텍스트, 100개 토큰 프롬프트 입력이 모두 있는 이미지를 사용합니다. 서비스에서 프롬프트를 처리하면 100개의 출력 토큰이 생성됩니다. 이미지에서 텍스트와 개체를 모두 검색할 수 있습니다. 이 트랜잭션의 가격은 다음과 같습니다.
Item | 세부 정보 | 비용 |
---|---|---|
텍스트 프롬프트 입력 | 100개 텍스트 토큰 | $0.001 |
이미지 입력 예제(이미지 토큰 참조) | 이미지 토큰 170개 + 85개 | $0.00255 |
OCR에 대한 향상된 추가 기능 | 1000개 트랜잭션당 $1.50 | $0.0015 |
개체 정보 제공에 대한 향상된 추가 기능 | 1000개 트랜잭션당 $1.50 | $0.0015 |
출력 토큰 | 토큰 100개(가정) | $0.003 |
합계 | $0.00955 |
입력 제한 사항
이 섹션에서는 비전 지원 채팅 모델의 제한 사항에 대해 설명합니다.
이미지 지원
- 최대 입력 이미지 크기: 입력 이미지의 최대 크기는 20MB로 제한됩니다.
- 낮은 해상도 정확도: "낮은 해상도" 설정을 사용하여 이미지를 분석하면 응답 속도가 빨라지고 특정 사용 사례에 더 적은 입력 토큰이 사용됩니다. 그러나 이것은 이미지 내의 개체 및 텍스트 인식의 정확도에 영향을 미칠 수 있습니다.
- 이미지 채팅 제한: Azure AI Foundry 포털 또는 API에서 이미지를 업로드하는 경우 채팅 호출당 10개의 이미지로 제한됩니다.
다음 단계
- 빠른 시작을 수행 하여 비전 지원 모델 사용을 시작합니다.
- API에 대한 자세한 내용은 방법 가이드를 따르세요.
- 완료 및 포함 API 참조를 참조하세요.