편집

다음을 통해 공유


이미지 및 텍스트 처리 기능을 갖춘 AI 보강을 사용해보세요.

Azure App Service
Azure Blob Storage
Azure AI Search
Azure 기능

솔루션 아이디어

이 문서는 솔루션 아이디어 설명입니다. 클라우드 설계자는 이 지침을 사용하여 이 아키텍처의 일반적인 구현을 위한 주요 구성 요소를 시각화할 수 있습니다. 이 문서를 시작점으로 사용하여 워크로드의 특정 요구 사항에 맞는 잘 설계된 솔루션을 디자인할 수 있습니다.

이 문서에서는 이미지 처리, 자연어 처리 및 사용자 지정 기술을 사용하여 도메인별 데이터를 캡처하는 방법을 설명합니다. 해당 데이터를 사용하여 텍스트 및 이미지 문서를 보강할 수 있습니다. AI 보강을 통한 Azure AI Search를 포함시켜 관련 콘텐츠를 대규모로 식별하고 탐색하는 것을 도울 수 있습니다. 이 솔루션은 AI 보강을 사용하여 원래의 복잡하고 구조화되지 않은 JFK 암살 기록(JFK 파일) 데이터 세트에서 의미를 추출합니다.

아키텍처

구조화되지 않은 데이터를 구조화된 데이터로 변환하는 AI Search 아키텍처를 보여 주는 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

다음 데이터 흐름은 이전 다이어그램에 해당합니다. 데이터 흐름은 구조화되지 않은 JFK 파일 데이터 세트가 AI Search 기술 파이프라인을 통과하여 구조화되고 인덱싱 가능한 데이터를 생성하는 방법을 설명합니다.

  1. 문서 및 이미지와 같은 Azure Blob Storage의 구조화되지 않은 데이터는 AI Search로 수집됩니다.

  2. 인덱싱 프로세스를 시작하기 위해, 문서 크래킹 단계는 데이터에서 이미지와 텍스트를 추출한 다음 콘텐츠를 보강합니다. 이 프로세스의 보강 단계는 선택한 기술의 데이터 및 형식에 따라 다릅니다.

  3. Azure AI Vision 및 Azure AI Language API를 기반으로 하는 기본 제공 기술은 이미지 OCR(선택적 문자 인식), 이미지 분석, 텍스트 번역, 엔터티 인식 및 전체 텍스트 검색과 같은 AI 보강을 지원합니다.

  4. 사용자 지정 기술은 더 복잡한 AI 모델 또는 서비스가 필요한 시나리오를 지원합니다. 예를 들어 Azure AI Document Intelligence, Azure Machine Learning 모델 및 Azure Functions가 있습니다.

  5. 보강 프로세스가 완료되면 인덱서는 보강된 문서와 인덱싱된 문서를 검색 인덱스에 저장합니다. 전체 텍스트 쿼리 및 기타 쿼리 양식에서 이 인덱스를 사용할 수 있습니다.

  6. 보강된 문서는 지식 저장소로 프로젝션할 수도 있으며 지식 마이닝 앱 또는 데이터 과학 앱과 같은 다운스트림 앱에서 사용할 수 있습니다.

  7. 쿼리는 검색 인덱스의 풍부한 콘텐츠에 액세스합니다. 인덱스는 사용자 지정 분석기, 유사 항목 검색 쿼리, 필터 및 쿼리 관련성을 조정하기 위한 점수 매기기 프로필을 지원합니다.

  8. Blob Storage 또는 Azure Table Storage에 연결하는 애플리케이션은 지식 저장소에 액세스할 수 있습니다.

구성 요소

이 솔루션은 다음 Azure 구성 요소를 사용합니다.

AI Search은 이 솔루션에서 콘텐츠를 인덱스화하고 사용자 환경을 강화합니다. AI Search를 사용하여 미리 빌드된 AI 기술을 콘텐츠에 적용할 수 있습니다. 또한 확장성 메커니즘을 사용하여 특정 보강 변환을 제공하는 사용자 지정 기술을 추가할 수 있습니다.

Azure AI Vision

Vision텍스트 인식을 사용하여 이미지에서 텍스트 정보를 추출하고 인식합니다. Read API는 최신 OCR 인식 모델을 사용하며 크고 텍스트가 많은 문서와 노이즈가 많은 이미지에 최적화되어 있습니다.

레거시 OCR API는 대용량 문서에 최적화되어 있지 않지만 더 많은 언어를 지원합니다. OCR 결과의 정확도는 검사 품질 및 이미지에 따라 달라질 수 있습니다. 이 솔루션은 OCR을 사용하여 hOCR 형식으로 데이터를 생성합니다.

언어

언어명명된 엔터티 인식핵심 구 추출과 같은 텍스트 분석 기능을 사용하여 구조화되지 않은 문서에서 텍스트 정보를 추출합니다.

Azure Storage

Blob Storage는 HTTPS를 통해 전 세계 어디에서나 액세스할 수 있는 데이터용 REST 기반 개체 스토리지입니다. Blob Storage를 사용하여 세상에 공개적으로 표시하거나 애플리케이션 데이터를 비공개적으로 저장할 수 있습니다. Blob Storage는 텍스트나 그래픽과 같은 대량의 구조화되지 않은 데이터에 이상적입니다.

Table Storage는 가용성, 확장성, 구조화 그리고 반구조화 NoSQL 데이터를 클라우드에 저장합니다.

Azure 기능

Functions는 인프라를 명시적으로 프로비전하거나 관리할 필요 없이 이벤트 트리거 코드의 작은 조각을 실행하는데 사용할 수 있는 서버리스 컴퓨팅 서비스입니다. 이 솔루션은 Functions 메서드를 사용하여 JFK 파일에 CIA(중앙 정보국) 암호화 목록을 사용자 지정 기술로 적용합니다.

Azure App Service

이 솔루션은 또한 Azure App Service에서 독립형 웹앱을 빌드하여 인덱스를 테스트, 시연, 검색하고 보강되고 인덱스가 생성된 문서의 연결을 탐색합니다.

시나리오 정보

구조화되지 않은 대규모 데이터 세트에는 타자기 및 손으로 쓴 메모, 사진 및 다이어그램, 표준 검색 솔루션이 구문 분석할 수 없는 기타 구조화되지 않은 데이터가 포함될 수 있습니다. JFK 파일에는 1963년 JFK 암살에 대한 CIA 조사에 관한 34,000페이지 이상의 문서가 포함되어 있습니다.

AI Search의 AI 보강은 이미지, Blob 및 JFK 파일과 같은 기타 구조화되지 않은 데이터 원본에서 검색 가능하고 인덱싱 가능한 텍스트를 추출하고 향상시키는 데에 사용할 수 있습니다. AI 보강은 Azure AI 서비스 VisionLanguage API에서 미리 학습된 기계 학습 기술 세트를 사용합니다. 또한 CIA Cryptonyms와 같은 도메인별 데이터에 대한 특수 처리를 추가하기 위해 사용자 지정 기술을 만들고 첨부할 수 있습니다. 그런 다음 AI Search는 해당 컨텍스트를 인덱싱하고 검색할 수 있습니다.

이 솔루션의 AI Search 기술은 다음 그룹으로 분류할 수 있습니다.

  • 이미지 처리: 이 솔류션에는 텍스트 추출이미지 분석 기술에는 개체 및 얼굴 감지, 태그 및 캡션 생성, 유명인 및 랜드마크 식별이 기본 제공됩니다. 이러한 기술은 AI Search의 쿼리 기능을 사용하여 검색 할 수 있는 이미지 콘텐츠의 텍스트 표현을 만듭니다. 문서 크래킹은 텍스트가 아닌 원본에서 텍스트 콘텐츠를 추출하거나 만드는 과정입니다.

  • 자연어 처리: 이 솔루션은 엔터티 인식, 언어 인식, 핵심 구 추출과 같은 기본 제공 기술로 구조화되지 않은 텍스트를 인덱스를 검색 및 필터링 가능한 필드에 매핑합니다.

  • 사용자 지정 기술: 이 솔루션은 AI Search를 확장하는 사용자 지정 기술을 사용하여 콘텐츠에 특정 보강 변환을 적용합니다. 사용자 지정 웹 API 기술을 통해 사용자 지정 기술에 대한 인터페이스를 지정할 수 있습니다.

잠재적인 사용 사례

JFK Files 샘플 프로젝트온라인 데모는 특정 AI Search 사용 사례를 보여줍니다. 이 솔루션 아이디어는 모든 시나리오에 대한 프레임워크 또는 확장 가능한 아키텍처를 위한 것이 아닙니다. 대신 이 솔루션 아이디어는 일반적인 지침과 예제를 제공합니다. 코드 프로젝트 및 데모는 추출된 이미지에 대한 공용 웹 사이트 및 공개적으로 읽을 수 있는 스토리지 컨테이너를 만들므로 비공용 데이터에 이 솔루션을 사용하면 안 됩니다.

이 아키텍처를 사용하여 다음을 수행할 수도 있습니다.

  • 검색 앱 및 데이터 과학 앱에서 구조화되지 않은 텍스트 및 이미지 콘텐츠의 가치와 유용성을 높입니다.

  • 사용자 지정 기술을 사용하여 오픈 소스 코드, 비 Microsoft 코드 또는 Microsoft 코드를 인덱싱 파이프라인에 통합합니다.

  • 검사한 JPG, PNG 또는 비트맵 문서를 전체 텍스트로 검사할 수 있습니다.

  • 이미지와 텍스트가 결합된 PDF의 경우 표준 PDF 텍스트 추출보다 더 나은 결과를 생성합니다. 일부 검사 및 네이티브 PDF 형식은 AI Search에서 올바르게 구문 분석되지 않을 수 있습니다.

  • 더 큰 구조화되지 않은 문서 또는 반구조화된 문서에 숨겨져 있는 본질적으로 의미 있는 원시 콘텐츠 또는 컨텍스트에서 새로운 정보를 만듭니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 이 문서를 처음에 작성한 기여자는 다음과 같습니다.

보안 주체 작성자:

비공용 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계

이 솔루션에 대한 자세한 정보

제품 설명서 읽기:

학습 경로를 시도합니다.