Kom igång med AI-textigenkänning (OCR) i Windows App SDK

Artikel
02/08/2025

Viktig

Tillgänglig i den senaste experimentella kanalen version av Windows App SDK.

Windows App SDK:s experimentella kanal innehåller API:er och funktioner i tidiga utvecklingsstadier. Alla API:er i den experimentella kanalen är föremål för omfattande revisioner och icke-bakåtkompatibla ändringar och kan när som helst tas bort från efterföljande versioner. Experimentella funktioner stöds inte för användning i produktionsmiljöer och appar som använder dem kan inte publiceras till Microsoft Store.

Fristående appar stöds inte.

Textigenkänning, även kallat optisk teckenigenkänning (OCR), stöds av Windows App SDK via en uppsättning AI-stödda API:er (artificiell intelligens) som kan identifiera och extrahera text i bilder och konvertera den till maskinläsbara teckenströmmar.

Dessa API:er kan identifiera tecken, ord, linjer, polygonala textgränser och ge konfidensnivåer för varje matchning. De stöds också uteslutande av maskinvaruacceleration i enheter med en neural bearbetningsenhet (NPU), vilket gör dem snabbare och mer exakta än äldre Windows.Media.Ocr.OcrEngine-API:er i Windows-plattformens SDK.

Information om APIfinns i API-referens för textigenkänning (OCR) i Windows App SDK.

Tips

Ge feedback om dessa API:er och deras funktioner genom att skapa ett nytt ärende i Windows App SDK:s GitHub-repo (inkludera OCR i rubriken) eller genom att svara på ett befintligt ärende.

Förutsättningar

En Copilot+ PC från Qualcomm, Intel eller AMD.
- Arm64EC (emuleringskompatibel) stöds inte för närvarande.
Windows 11 Insider Preview Build 26120.3073 (Dev- och Beta-kanaler) eller senare måste installeras på enheten.

Vad kan jag göra med Windows App SDK och AI-textigenkänning?

Använd de nya funktionerna för AI-textigenkänning i Windows App SDK för att identifiera och identifiera text i en bild. Du kan också hämta textgränser och konfidenspoäng för den identifierade texten.

Skapa en ImageBuffer från en fil

I det här exemplet anropar vi en LoadImageBufferFromFileAsync-funktion för att hämta en ImageBuffer- från en bildfil.

I funktionen LoadImageBufferFromFileAsync slutför vi följande steg:

Skapa ett StorageFile- objekt från den angivna filsökvägen.
Öppna en dataström på StorageFile med OpenAsync-.
Skapa en BitmapDecoder för dataströmmen.
Anropa GetSoftwareBitmapAsync på bitmappsdekodaren för att hämta ett SoftwareBitmap-objekt.
Returnera en bildbuffert från CreateBufferAttachedToBitmap.

using Microsoft.Windows.Vision;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<ImageBuffer> LoadImageBufferFromFileAsync(string filePath)
{
    StorageFile file = await StorageFile.GetFileFromPathAsync(filePath);
    IRandomAccessStream stream = await file.OpenAsync(FileAccessMode.Read);
    BitmapDecoder decoder = await BitmapDecoder.CreateAsync(stream);
    SoftwareBitmap bitmap = await decoder.GetSoftwareBitmapAsync();

    if (bitmap == null)
    {
        return null;
    }

    return ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Windows::Graphics::Imaging;
    using namespace Windows::Storage;
    using namespace Windows::Storage::Streams;
}

winrt::IAsyncOperation<winrt::ImageBuffer> LoadImageBufferFromFileAsync(
    const std::wstring& filePath)
{
    auto file = co_await winrt::StorageFile::GetFileFromPathAsync(filePath);
    auto stream = co_await file.OpenAsync(winrt::FileAccessMode::Read);
    auto decoder = co_await winrt::BitmapDecoder::CreateAsync(stream);
    auto bitmap = co_await decoder.GetSoftwareBitmapAsync();
    if (bitmap == nullptr) {
        co_return nullptr;
    }
    co_return winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
}

Identifiera text i en bitmappsbild

I följande exempel visas hur du känner igen text i en SoftwareBitmap- objekt som ett enda strängvärde:

Skapa ett TextRecognizer- objekt via ett anrop till funktionen EnsureModelIsReady, vilket också bekräftar att det finns en språkmodell i systemet.
Med hjälp av bitmappen som hämtades i föregående kodfragment anropar vi funktionen RecognizeTextFromSoftwareBitmap.
Anropa CreateBufferAttachedToBitmap på bildfilen för att erhålla ett ImageBuffer-objekt.
Anropa RecognizeTextFromImage för att hämta den igenkända texten från ImageBuffer-.
Skapa ett wstringstream-objekt och läs in det med den igenkända texten.
Returnera strängen.

Not

Funktionen EnsureModelIsReady används för att kontrollera beredskapstillståndet för textigenkänningsmodellen (och installera den om det behövs).

using Microsoft.Windows.Vision;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<string> RecognizeTextFromSoftwareBitmap(SoftwareBitmap bitmap)
{
    TextRecognizer textRecognizer = await EnsureModelIsReady();
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText recognizedText = textRecognizer.RecognizeTextFromImage(imageBuffer);
    StringBuilder stringBuilder = new StringBuilder();

    foreach (var line in recognizedText.Lines)
    {
        stringBuilder.AppendLine(line.Text);
    }

    return stringBuilder.ToString();
}

public async Task<TextRecognizer> EnsureModelIsReady()
{
    if (!TextRecognizer.IsAvailable())
    {
        var loadResult = await TextRecognizer.MakeAvailableAsync();
        if (loadResult.Status != PackageDeploymentStatus.CompletedSuccess)
        {
            throw new Exception(loadResult.ExtendedError().Message);
        }
    }

    return await TextRecognizer.CreateAsync();
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Windows::Graphics::Imaging;
}

winrt::IAsyncOperation<winrt::TextRecognizer> EnsureModelIsReady();

winrt::IAsyncOperation<winrt::hstring> RecognizeTextFromSoftwareBitmap(winrt::SoftwareBitmap const& bitmap)
{
    winrt::TextRecognizer textRecognizer = co_await EnsureModelIsReady();
    winrt::ImageBuffer imageBuffer = winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
    winrt::RecognizedText recognizedText = textRecognizer.RecognizeTextFromImage(imageBuffer);
    std::wstringstream stringStream;
    for (const auto& line : recognizedText.Lines())
    {
        stringStream << line.Text().c_str() << std::endl;
    }
    co_return winrt::hstring{stringStream.view()};
}

winrt::IAsyncOperation<winrt::TextRecognizer> EnsureModelIsReady()
{
  if (!winrt::TextRecognizer::IsAvailable())
  {
    auto loadResult = co_await winrt::TextRecognizer::MakeAvailableAsync();
    if (loadResult.Status() != winrt::PackageDeploymentStatus::CompletedSuccess)
    {
        throw winrt::hresult_error(loadResult.ExtendedError());
    }
  }

  co_return winrt::TextRecognizer::CreateAsync();
}

Hämta ordgräns och konfidens

Här visar vi hur du visualiserar BoundingBox- för varje ord i ett SoftwareBitmap- objekt som en samling färgkodade polygoner på ett Grid-element.

Not

I det här exemplet förutsätter vi att ett TextRecognizer objekt redan har skapats och skickats till funktionen.

using Microsoft.Windows.Vision;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public void VisualizeWordBoundariesOnGrid(
    SoftwareBitmap bitmap,
    Grid grid,
    TextRecognizer textRecognizer)
{
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    SolidColorBrush greenBrush = new SolidColorBrush(Microsoft.UI.Colors.Green);
    SolidColorBrush yellowBrush = new SolidColorBrush(Microsoft.UI.Colors.Yellow);
    SolidColorBrush redBrush = new SolidColorBrush(Microsoft.UI.Colors.Red);

    foreach (var line in result.Lines)
    {
        foreach (var word in line.Words)
        {
            PointCollection points = new PointCollection();
            var bounds = word.BoundingBox;
            points.Add(bounds.TopLeft);
            points.Add(bounds.TopRight);
            points.Add(bounds.BottomRight);
            points.Add(bounds.BottomLeft);

            Polygon polygon = new Polygon();
            polygon.Points = points;
            polygon.StrokeThickness = 2;

            if (word.Confidence < 0.33)
            {
                polygon.Stroke = redBrush;
            }
            else if (word.Confidence < 0.67)
            {
                polygon.Stroke = yellowBrush;
            }
            else
            {
                polygon.Stroke = greenBrush;
            }

            grid.Children.Add(polygon);
        }
    }
}

namespace winrt
{
    using namespace Microsoft::Windows::Vision;
    using namespace Microsoft::Windows::Imaging;
    using namespace Micrsooft::Windows::UI::Xaml::Controls;
    using namespace Micrsooft::Windows::UI::Xaml::Media;
    using namespace Micrsooft::Windows::UI::Xaml::Shapes;
}

void VisualizeWordBoundariesOnGrid(
    winrt::SoftwareBitmap const& bitmap,
    winrt::Grid const& grid,
    winrt::TextRecognizer const& textRecognizer)
{
    winrt::ImageBuffer imageBuffer = winrt::ImageBuffer::CreateBufferAttachedToBitmap(bitmap);
    
    winrt::RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    auto greenBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Green);
    auto yellowBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Yellow);
    auto redBrush = winrt::SolidColorBrush(winrt::Microsoft::UI::Colors::Red);
    
    for (const auto& line : recognizedText.Lines())
    {
        for (const auto& word : line.Words())
        {
            winrt::PointCollection points;
            const auto& bounds = word.BoundingBox();
            points.Append(bounds.TopLeft);
            points.Append(bounds.TopRight);
            points.Append(bounds.BottomRight);
            points.Append(bounds.BottomLeft);

            winrt::Polygon polygon;
            polygon.Points(points);
            polygon.StrokeThickness(2);

            if (word.Confidence() < 0.33)
            {
                polygon.Stroke(redBrush);
            }
            else if (word.Confidence() < 0.67)
            {
                polygon.Stroke(yellowBrush);
            }
            else
            {
                polygon.Stroke(greenBrush);
            }

            grid.Children().Add(polygon);
        }
    }
}

Ytterligare resurser

Åtkomst till filer och mappar med Windows App SDK och WinRT-API:er

Dela via

Kom igång med AI-textigenkänning (OCR) i Windows App SDK

Förutsättningar

Vad kan jag göra med Windows App SDK och AI-textigenkänning?

Skapa en ImageBuffer från en fil

Identifiera text i en bitmappsbild

Hämta ordgräns och konfidens

Ytterligare resurser

Feedback

Ytterligare resurser

Dela via

Kom igång med AI-textigenkänning (OCR) i Windows App SDK

Förutsättningar

Vad kan jag göra med Windows App SDK och AI-textigenkänning?

Skapa en ImageBuffer från en fil

Identifiera text i en bitmappsbild

Hämta ordgräns och konfidens

Ytterligare resurser

Relaterat innehåll

Feedback

Ytterligare resurser