Share via


Einkreisen, ausschneiden, Text erkennen (InkToOcr Open Source Projekt auf Github)

Der Stift des Surface haut mich regelmäßig um, deshalb habe ich in den letzten Tagen an einer Library gearbeitet, die die Nutzung des Stifts als Entwickler von Windows Apps vereinfachen soll. Die Library ist komplett Open Source auf GitHub und auch als Nuget Package zur Verfügung.

Die Idee ist folgende: Ich möchte in meiner App ermöglichen, auf einem Bild eine bestimmte Stelle zu markieren und anschließend soll der Text auf genau diesem Schnipsel erkannt werden. Texterkennung generell kann ja schon die windows-eigene OCR Library sowie der grandiose Project Oxford Service (jetzt bekannt als Cognitive Services). Es geht im Wesentlichen also „nur“ noch um folgende Punkte

  1. Per Stift auf ein Bild malen
  2. Pan, Rotate & Zoom auf dem Bild ermöglichen, die Markierungen korrekt beibehalten
  3. Auf Knopfdruck die markierte Fläche ausschneiden
  4. Den Abschnitt via OCR auswerten lassen

Klingt auf den ersten Blick einfach, ist auch nicht wahnsinnig kompliziert. Aber es gibt genug Ecken, an denen was schiefgehen kann. Ich hab in der Vergangenheit bei diversen Vorträgen genau diesen  Workflow als Beispiel für neue Interaktionsmöglichkeiten beschrieben. Stellt Euch Eure Reisekostenapp vor – wär’s nicht schön, wenn man einfach ein Foto des Belegs machen kann und schnell einen Kringel um die Summe und das Datum macht und schon ist der Eintrag vermerkt? Noch schöner wäre es natürlich, wenn man den Kringel nicht benötigen würde. Leider gibt es aktuell noch kein einheitliches Format für Kassenzettel und ich denke, es wird auch noch etwas dauern, bis es soweit ist...

screen

Mein Aufruf an Euch: Wenn Ihr ein ähnliches Szenario habt – schaut Euch den Quellcode an. Vielleicht hilft er Euch über die ein oder andere Hürde. Mit Sicherheit gibt es noch ganz viel zu verbessern, aber der „Dolchstoß“, der „technologische Durchstich“ ist programmiert.

ink

Wenn Ihr Lust habt, daran mitzuarbeiten, freue ich mich auf Contributions. Wenn Ihr einfach nur den Code nehmen wollt und, tut es. Es gibt keine Lizenzbeschränkungen, aber ich freue mich über jede Rückmeldung und über jeden, der mir sagt, dass es ihm weiterhilft.