Azure AI 비전 시작

완료됨

컴퓨터 시스템이 필기 텍스트 및 인쇄 텍스트를 처리하는 기능은 Computer Vision자연어 처리와 교차하는 AI 영역입니다. 텍스트를 "읽기" 위해 Vision 기능이 필요하며 이를 이해하기 위해 자연어 처리 기능이 필요합니다.

OCR은 이미지의 텍스트 처리의 기초이며 문자, 숫자, 문장 부호 또는 기타 텍스트 요소로 개별 모양을 인식하도록 학습된 기계 학습 모델을 사용합니다. 이러한 종류의 기능을 구현하는 초기 작업의 상당수는 우편 번호에 따라 메일의 자동 정렬을 지원하는 우편 서비스로 실시되었습니다. 그 이후로 텍스트 읽기를 위한 최첨단 기술이 발전했으며 이미지에서 인쇄되거나 손으로 쓴 텍스트를 검색하여 한 줄씩, 한 단어씩 읽는 모델이 있습니다.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Azure AI 비전의 OCR 엔진

Azure AI 비전 서비스에는 이미지에서 컴퓨터가 읽을 수 있는 텍스트를 추출하는 기능이 있습니다. Azure AI 비전의 Read API는 이미지, PDF 및 TIFF 파일에서 텍스트 추출을 지원하는 OCR 엔진입니다. 이미지용 OCR은 사용자 환경 시나리오에 OCR을 더 쉽게 포함할 수 있도록 문서가 아닌 일반적인 이미지에 최적화되어 있습니다.

Read OCR 엔진이라고도 알려진 Read API는 최신 인식 모델을 사용하며 상당한 양의 텍스트가 있거나 상당한 시각적 노이즈가 있는 이미지에 최적화되어 있습니다. 텍스트 줄 수, 텍스트가 포함된 이미지 및 필기를 고려하여 사용할 적절한 인식 모델을 자동으로 결정할 수 있습니다.

OCR 엔진은 이미지 파일을 가져와 이미지 내 항목이 있는 경계 상자 또는 좌표를 식별합니다. OCR에서 모델은 이미지에서 텍스트로 보이는 모든 항목 주위의 경계 상자를 식별합니다.

Read API를 호출하면 다음 계층 구조로 정렬된 결과가 반환됩니다.

  • 페이지 - 페이지 크기 및 방향에 관한 정보를 포함한 텍스트의 각 페이지입니다.
  • - 한 페이지의 텍스트 줄 수입니다.
  • 단어: 경계 상자 좌표 및 텍스트 자체 등이 포함된 텍스트 줄의 단어입니다.

각 줄과 단어에는 페이지 상의 위치를 나타내는 경계 상자 좌표가 포함됩니다.

A screenshot showing bounding boxes around the page, line, and word of a letter.