Начало работы с распознаванием текста (OCR) в пакете SDK для приложений Windows

Статья
12/17/2024

Внимание

Эта функция пока недоступна. Ожидается, что он будет отправлен в предстоящем экспериментальном выпуске пакета SDK для приложений Windows.

Экспериментальный канал пакета SDK для приложений Windows включает API и функции на ранних этапах разработки. Все API-интерфейсы в экспериментальном канале подвергаются обширным исправлениям и критическим изменениям и могут быть удалены из последующих выпусков в любое время. Они не поддерживаются для использования в рабочих средах, а приложения, использующие экспериментальные функции, не могут быть опубликованы в Microsoft Store.

Распознавание текста, также известное как оптическое распознавание символов (OCR), будет поддерживаться пакетом SDK для приложений Windows с помощью набора ИНТЕРФЕЙСов API, поддерживаемых искусственным интеллектом (ИИ), которые могут обнаруживать и извлекать текст в изображениях и преобразовывать его в потоки символов, доступные для машинного чтения.

Эти API могут определять символы, слова, строки, многоугольники и предоставлять уровни достоверности для каждого совпадения. Они также поддерживаются исключительно аппаратным ускорением на устройствах с нейронной единицей обработки (NPU), что делает их более быстрыми и более точными, чем устаревшие API Windows.Media.Ocr.Ocr.OcrEngine в пакете SDK для платформы Windows.

Дополнительные сведения об API см . в справочнике ПО API для распознавания текста с поддержкой ИИ (OCR) в пакете SDK для приложений Windows.

Совет

Предоставьте отзыв об этих API и их функциональных возможностях, создав новую проблему в репозитории GitHub пакета SDK для приложений Windows. (Убедитесь, что вы включили OCR в название!)

Необходимые компоненты

CoPilot+ ПК с процессором Qualcomm Snapdl® X Elite.

Что можно сделать с помощью пакета SDK для приложений Windows и распознавания текста ИИ?

Используйте новые функции распознавания текста ИИ в пакете SDK для приложений Windows для идентификации и распознавания текста на изображении. Вы также можете получить границы текста и оценки достоверности для распознанного текста.

Создание ImageBuffer из файла

В этом примере мы вызываем LoadImageBufferFromFileAsync функцию для получения ImageBuffer из файла изображения.

В функции LoadImageBufferFromFileAsync мы выполните следующие действия:

Создайте объект StorageFile из указанного пути к файлу.
Откройте поток в StorageFile с помощью OpenAsync.
Создайте bitmapDecoder для потока.
Вызовите GetSoftwareBitmapAsync в декодирования растрового изображения, чтобы получить объект SoftwareBitmap .
Возвращает буфер изображения из CreateBufferAttachedToBitmap.

using Microsoft.Windows.Vision;
using Microsoft.Windows.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<ImageBuffer> LoadImageBufferFromFileAsync(string filePath)
{
    StorageFile file = await StorageFile.GetFileFromPathAsync(filePath);
    IRandomAccessStream stream = await file.OpenAsync(FileAccessMode.Read);
    BitmapDecoder decoder = await BitmapDecoder.CreateAsync(stream);
    SoftwareBitmap bitmap = await decoder.GetSoftwareBitmapAsync();

    if (bitmap == null)
    {
        return null;
    }

    return ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Windows::Graphics::Imaging;
    using namespace Windows::Storage;
    using namespace Windows::Storage::Streams;
}

winrt::IAsyncOperation<winrt::ImageBuffer> LoadImageBufferFromFileAsync(
    const std::wstring& filePath)
{
    auto file = co_await winrt::StorageFile::GetFileFromPathAsync(filePath);
    auto stream = co_await file.OpenAsync(winrt::FileAccessMode::Read);
    auto decoder = co_await winrt::BitmapDecoder::CreateAsync(stream);
    auto bitmap = co_await decoder.GetSoftwareBitmapAsync();
    if (bitmap == nullptr) {
        co_return nullptr;
    }
    co_return winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
}

Распознавание текста в изображении растрового изображения

В следующем примере показано, как распознать некоторый текст в объекте SoftwareBitmap как одно строковое значение:

Создайте объект TextRecognizer с помощью вызова EnsureModelIsReady функции, которая также подтверждает наличие языковой модели в системе.
Используя растровое изображение, полученное в предыдущем фрагменте кода, мы вызываем функцию RecognizeTextFromSoftwareBitmap .
Вызовите CreateBufferAttachedToBitmap в файле изображения, чтобы получить объект ImageBuffer .
Вызовите RecognizeTextFromImage , чтобы получить распознанный текст из ImageBuffer.
Создайте объект wstringstream и загрузите его с распознаваемым текстом.
Возвратите строку.

Примечание.

Функция EnsureModelIsReady используется для проверки состояния готовности модели распознавания текста (и при необходимости).

using Microsoft.Windows.Vision;
using Microsoft.Windows.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<string> RecognizeTextFromSoftwareBitmap(SoftwareBitmap bitmap)
{
    TextRecognizer textRecognizer = await EnsureModelIsReady();
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText recognizedText = textRecognizer.RecognizeTextFromImage(imageBuffer);
    StringBuilder stringBuilder = new StringBuilder();

    foreach (var line in recognizedText.Lines)
    {
        stringBuilder.AppendLine(line.Text);
    }

    return stringBuilder.ToString();
}

public async Task<TextRecognizer> EnsureModelIsReady()
{
    if (!TextRecognizer.IsAvailable())
    {
        var loadResult = await TextRecognizer.MakeAvailableAsync();
        if (loadResult.Status != PackageDeploymentStatus.CompletedSuccess)
        {
            throw new Exception(loadResult.ExtendedError().Message);
        }
    }

    return await TextRecognizer.CreateAsync();
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Windows::Graphics::Imaging;
}

winrt::IAsyncOperation<winrt::TextRecognizer> EnsureModelIsReady();

winrt::IAsyncOperation<winrt::hstring> RecognizeTextFromSoftwareBitmap(winrt::SoftwareBitmap const& bitmap)
{
    winrt::TextRecognizer textRecognizer = co_await EnsureModelIsReady();
    winrt::ImageBuffer imageBuffer = winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
    winrt::RecognizedText recognizedText = textRecognizer.RecognizeTextFromImage(imageBuffer);
    std::wstringstream stringStream;
    for (const auto& line : recognizedText.Lines())
    {
        stringStream << line.Text().c_str() << std::endl;
    }
    co_return winrt::hstring{stringStream.view()};
}

winrt::IAsyncOperation<winrt::TextRecognizer> EnsureModelIsReady()
{
  if (!winrt::TextRecognizer::IsAvailable())
  {
    auto loadResult = co_await winrt::TextRecognizer::MakeAvailableAsync();
    if (loadResult.Status() != winrt::PackageDeploymentStatus::CompletedSuccess)
    {
        throw winrt::hresult_error(loadResult.ExtendedError());
    }
  }

  co_return winrt::TextRecognizer::CreateAsync();
}

Получение границ слов и достоверности

Здесь показано, как визуализировать BoundingBox каждого слова в объекте SoftwareBitmap в виде коллекции цветокодированных многоугольников в элементе Grid .

Примечание.

В этом примере предполагается, что объект TextRecognizer уже создан и передан в функцию.

using Microsoft.Windows.Vision;
using Microsoft.Windows.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public void VisualizeWordBoundariesOnGrid(
    SoftwareBitmap bitmap,
    Grid grid,
    TextRecognizer textRecognizer)
{
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    SolidColorBrush greenBrush = new SolidColorBrush(Microsoft.UI.Colors.Green);
    SolidColorBrush yellowBrush = new SolidColorBrush(Microsoft.UI.Colors.Yellow);
    SolidColorBrush redBrush = new SolidColorBrush(Microsoft.UI.Colors.Red);

    foreach (var line in result.Lines)
    {
        foreach (var word in line.Words)
        {
            PointCollection points = new PointCollection();
            var bounds = word.BoundingBox;
            points.Add(bounds.TopLeft);
            points.Add(bounds.TopRight);
            points.Add(bounds.BottomRight);
            points.Add(bounds.BottomLeft);

            Polygon polygon = new Polygon();
            polygon.Points = points;
            polygon.StrokeThickness = 2;

            if (word.Confidence < 0.33)
            {
                polygon.Stroke = redBrush;
            }
            else if (word.Confidence < 0.67)
            {
                polygon.Stroke = yellowBrush;
            }
            else
            {
                polygon.Stroke = greenBrush;
            }

            grid.Children.Add(polygon);
        }
    }
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Micrsooft::Windows::UI::Xaml::Controls;
    using namespace Micrsooft::Windows::UI::Xaml::Media;
    using namespace Micrsooft::Windows::UI::Xaml::Shapes;
}

void VisualizeWordBoundariesOnGrid(
    winrt::SoftwareBitmap const& bitmap,
    winrt::Grid const& grid,
    winrt::TextRecognizer const& textRecognizer)
{
    winrt::ImageBuffer imageBuffer = winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
    
    winrt::RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    auto greenBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Green);
    auto yellowBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Yellow);
    auto redBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Red);
    
    for (const auto& line : recognizedText.Lines())
    {
        for (const auto& word : line.Words())
        {
            winrt::PointCollection points;
            const auto& bounds = word.BoundingBox();
            points.Append(bounds.TopLeft);
            points.Append(bounds.TopRight);
            points.Append(bounds.BottomRight);
            points.Append(bounds.BottomLeft);

            winrt::Polygon polygon;
            polygon.Points(points);
            polygon.StrokeThickness(2);

            if (word.Confidence() < 0.33)
            {
                polygon.Stroke(redBrush);
            }
            else if (word.Confidence() < 0.67)
            {
                polygon.Stroke(yellowBrush);
            }
            else
            {
                polygon.Stroke(greenBrush);
            }

            grid.Children().Add(polygon);
        }
    }
}

Дополнительные ресурсы

Доступ к файлам и папкам с помощью пакета SDK для приложений Windows и API WinRT

Поделиться через

Начало работы с распознаванием текста (OCR) в пакете SDK для приложений Windows

Необходимые компоненты

Что можно сделать с помощью пакета SDK для приложений Windows и распознавания текста ИИ?

Создание ImageBuffer из файла

Распознавание текста в изображении растрового изображения

Получение границ слов и достоверности

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы

Поделиться через

Начало работы с распознаванием текста (OCR) в пакете SDK для приложений Windows

Необходимые компоненты

Что можно сделать с помощью пакета SDK для приложений Windows и распознавания текста ИИ?

Создание ImageBuffer из файла

Распознавание текста в изображении растрового изображения

Получение границ слов и достоверности

Дополнительные ресурсы

Связанный контент

Обратная связь

Дополнительные ресурсы