이미지 캡션(버전 4.0)

아티클
09/27/2024

이미지 분석 4.0의 이미지 캡션은 캡션 및 조밀 캡션 기능을 통해 사용할 수 있습니다.

캡션 기능은 모든 이미지 내용에 대한 한 문장 설명을 생성합니다. 조밀 캡션은 전체 이미지를 설명하는 것 외에도 이미지의 최대 10개의 다양한 영역에 대한 한 문장 설명을 생성하여 더 자세한 정보를 제공합니다. 조밀 캡션은 설명된 이미지 영역의 경계 상자 좌표도 반환합니다. 이러한 두 기능 모두 Florence 기반의 최신 AI 모델을 사용합니다.

이미지 캡션은 영어로만 사용할 수 있습니다.

Important

이미지 분석 4.0의 이미지 캡션은 특정 Azure 데이터 센터 지역에서만 사용할 수 있습니다. 지역 가용성을 참조하세요. 캡션 및 조밀 캡션 기능에서 결과를 얻으려면 이러한 지역 중 하나에 있는 Azure AI 비전 리소스를 사용해야 합니다.

이러한 지역 외부에서 Vision 리소스를 사용하여 이미지 캡션을 생성해야 하는 경우 모든 Azure AI 비전 지역에서 사용할 수 있는 이미지 분석 3.2를 사용하세요.

Vision Studio를 사용하여 브라우저에서 이미지 캡션 기능을 빠르고 쉽게 사용해 보세요.

Vision Studio 사용해 보기

성 중립적 캡션

기본적으로 캡션에는 성별 용어("남자", "여자", "소년" 및 "소녀")가 포함됩니다. 이러한 용어를 결과에서 "사람"으로 바꾸고 성 중립적 캡션을 받을 수 있습니다. 요청 URL에서 선택적 API 요청 매개 변수 gender-neutral-caption을(를) true(으)로 설정하여 수행할 수 있습니다.

다음 JSON 응답은 시각적 기능을 기반으로 예제 이미지를 설명할 때 이미지 분석 4.0 API가 반환하는 내용을 보여 줍니다.

화면을 가리키는 남자의 사진

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

다음 JSON 응답은 예제 이미지에 대한 조밀 캡션을 생성할 때 이미지 분석 4.0 API가 반환하는 내용을 보여 줍니다.

농장의 트랙터 사진

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

API 사용

이미지 캡션
조밀 캡션

이미지 캡션 기능은 Analyze Image API의 일부입니다. features 쿼리 매개 변수에 Caption를 포함합니다. 그런 다음, 전체 JSON 응답을 받으면 "captionResult" 섹션의 콘텐츠에 대한 문자열을 구문 분석합니다.

다음을 통해 공유

이미지 캡션(버전 4.0)

성 중립적 캡션

캡션 및 조밀 캡션 예제

API 사용

다음 단계

피드백

추가 리소스