Wettbewerbsvorteile durch Bildverarbeitung: Praxisbeispiele für branchenübergreifende Anwendungen von Bild- und Schrifterkennung

Welches Potenzial Bildverarbeitung, Bilderkennung sowie Schrift- und Texterkennung (OCR) in der Theorie haben, ist vielerorts ausführlich beschrieben. Doch was haben Unternehmen praktisch davon? Wir möchten Ihnen drei Praxisbeispiele aus Kundenprojekten vorstellen und aufzeigen, dass der maßgeschneiderte Einsatz dieser Technologien jedem Unternehmen – unabhängig von der Branche – zahlreiche Vorteile bietet:

optimierte Nutzerfreundlichkeit
sinnvolle Prozessvereinfachung
schnelle Validierungsverfahren
Fehlerkorrektur auf diversen Ebenen
kreative Experimente

Unsere Anwendungsbeispiele:

Produktfinder (Graf-Dichtungen GmbH)
Interaktiver Film (Mitmalfilm / Uli Seis)
Personalausweisvalidierung (Bundesdruckerei)

1. Produktfinder (Graf-Dichtungen GmbH)

Ziel:	Kunden fotografieren den Querschnitt ihrer Dichtung und finden im Online-Shop schnell das richtige Produkt, um ein schnelles und frustfreies Einkaufserlebnis zu erfahren.
Problemstellung:	Graf-Dichtungen GmbH bietet im auf der Website über 4.000 Dichtungen an, die sich teilweise stark ähneln und dadurch für Laien wie auch Profis manchmal schwer zu unterscheiden sind.
Lösung:	Damit die Kunden nicht das gesamte Sortiment nach der passenden Dichtung durchforsten müssen, können sie mit der App ein Foto der eigenen Dichtung hochladen und sofort das richtige Produkt finden.

Funktionsweise der Bilderkennung:

Binäre Darstellung des Querschnitts

Interner Prozessablauf der Bilderkennung

Die Bilderkennung der Dichtungen erfolgt konturbasiert. Das Foto des Dichtungsquerschnitts wird zunächst mit einem starken Unschärfefilter überzogen (blurring). Anschließend wird das Eingabebild von dem unscharfen Bild subtrahiert. Auf dieses subtrahierte Ergebnis wird ein Canny Filter gelegt, der für Kantenextraktion sorgt. Falls Lücken entstehen – also Kanten nicht durchgehend sind – werden sie durch einen Dilate-Algorithmus vervollständigt, um fehlende Pixel automatisch zu ergänzen. In diesem Prozess entstehen besonders dicke Kanten, die über einen Thinning-Algorithmus wieder schmaler gemacht werden. Als Resultat entsteht ein Konturbild ohne Lücken. Nun hat ein Algorithmus zur Konturerkennung die Aufgabe, sämtliche Kanten pixelgenau zu überprüfen. Die Herausforderung dabei ist, Störsignale herauszufiltern: Es gilt die richtige und größte Kontur zu identifizieren.

Nutzern wird für die Aufnahme empfohlen, ihre Dichtung für das Foto in die Mitte des Bildes zu legen, damit sie als größte Kontur wahrgenommen wird. Außerhalb des Zentrums entsteht eine Art Rauschen (z.B. durch die Maserung der Tischoberfläche etc.). Das Ziel ist es, Polygone mit Inhalt zu prüfen, die eine Flächenberechnung zulassen und keine offenen Kanten aufweisen. Die Herausforderung dabei ist der Vergleich von Innenkontur versus Außenkontur. Für das Testing wurden empirisch ermittelte Mittelwerte genutzt, die einen bestimmten Mindestflächeninhalt aufweisen. Alle übrigen werden ignoriert. Somit ist die Messung der Außenkontur für die Bilderkennung maßgeblich. In der Datenbank befinden sich perfekte Konturbilder bzw. Trainingsbilder, mit denen das individuelle Eingabebild abgeglichen wird. Hierbei berücksichtigt der Algorithmus verschiedene Rotationen und Winkel. Mögliche Matches werden mit Score-Werten ausgegeben. Dem Nutzer werden absteigend die passendsten Ergebnisse angezeigt.

Zusammenfassung:

Der Nutzer lädt sein eigenes Foto auf der Website hoch.
Intern erfolgt ein Abgleich mit perfekten Kontur-/Trainingsbildern.
Dem Nutzer werden die besten Matches angezeigt.

2. Interaktiver Film (Mitmalfilm / Uli Seis)

Ziel:	Ein Malbuch entsteht, das sich in eine kurze Trickfilm-Serie (10 x 1,5 min) verwandeln lässt. Insgesamt 10 vorgegebene Bilder werden heruntergeladen und von dem Kind individuell ausgemalt. Das fertige Bild wird per App hochgeladen. Über den QR-Code auf den Bildern wird der entsprechende Film zugeordnet, der das Ausmalbild als Hintergrund nutzt.
Problemstellung:	Der Bildinhalt des Hauptrahmens muss korrekt gegenüber anderen Kanten herausgefiltert werden, wie z.B. das Feld für den QR-Code, die Namensbox oder den Außenrand des Bildes.
Lösung:	Das Ausmalbild wird in das als relevant identifizierte „Hauptviereck“ hinein projiziert.

Funktionsweise der Bilderkennung:

Kinder downloaden ein Bild aus der Datenbank, das sie ausmalen können. Das gesamte Blatt mitsamt Zeichnung, QR-Code und Namensfeld wird anschließend auf einer beliebigen Unterlage mittig positioniert und abfotografiert. Über die App laden Eltern das Ausmalbild hoch. Technisch finden eine Bilderkennung und Zuordnung des QR-Codes statt, damit für das individuelle Bild auch mit dem richtigen Film hinterlegt wird.

Die App beginnt nach dem Upload mit einer Square Detection. Das bedeutet, dass zuerst alle Vierecke im gesucht werden. Der Algorithmus identifiziert dabei den Außenrahmen des Hauptbildes, die Namensbox, den äußeren Papierrand und das Feld für den QR-Code. Anschließend wird das Bild entzerrt und in die Vierecke projiziert. Dabei wird das Viereck gewählt, das das richtige Höhen- und Seitenverhältnis sowie eine bestimmte Größe hat. Hierfür wurde ein vorab definierter Toleranzbereich ermittelt. Störende Konturen mit anderen Inhalten werden herausgefiltert.

Zusammenfassung:

Ein Bild aus der Datenbank wird ausgemalt, abfotografiert und per App hochgeladen.
Technisch wird das Hauptbild ausgelesen.
Über den QR-Code wird dem Bild ein Video zugewiesen.
Das Kind erlebt einen Kurzfilm, der das eigene Bild als Hintergrund nutzt.

3. Personalausweisvalidierung (Bundesdruckerei)

Ziel:	Behörden erhalten eine Android-App, mit der sie alte und neue Personalausweise auf deren Gültigkeit zu prüfen. Dazu werden die Ausweisnummern auf der Vorder- bzw. Rückseite per Texterkennung erfasst und mit einer Prüfformel ausgewertet.
Problemstellung:	Zum einen spiegeln die Ausweise durch ihre glatte Oberfläche stark, was die Texterkennung beim Fotografieren erschwert. Zum anderen müssen nicht eindeutige Zeichen wie „0“ und „O“ korrekt identifiziert werden.
Lösung:	Bild- und Schrifttrainings sowie eigene Algorithmen wurden entwickelt, die zur Bildverbesserung und fehlerfreien Anwendung des Prüfalgorithmus / der Prüfformel führten.

Funktionsweise der Bilderkennung:

Obere Reihe: Ausweisfoto
Untere Reihe: Texterkennung

Wir haben Behörden eine Android-App bereitgestellt, die es ermöglicht, alte und neue Personalausweise zu validieren. Ein Prüfalgorithmus erkennt, ob der Ausweis noch gültig, ungültig oder gar gefälscht ist. Da die Ausweise eine glatte Oberfläche besitzen und stark spiegeln, wurde die Texterkennung der Ausweisnummern und -buchstaben erschwert. Zur Lösung wurden zahlreiche Testbilder generiert, um den Algorithmus zu „trainieren“ und schnelle Abgleiche zu ermöglichen.

Zudem müssen Grenzfälle wie „O“ und „0“ klar voneinander unterschieden werden. Diese Herausforderung wurde mittels Schrifttraining gelöst, um nicht eindeutige Zeichen zu erkennen – auch bei abweichenden Bildwinkeln oder Rotationen.

Für die Validierung war die fehlerfreie Anwendung der fixen Prüfformel essentiell. Eigene Algorithmen im Hintergrund haben mehrmals die Formel in verschiedenen Kombinationen mit den nicht eindeutigen Zeichen angewendet und gegen den Erfolg getestet.

Fazit und Ausblick:

Diese drei völlig unterschiedlichen Praxisbeispiele für Bildverarbeitung und Texterkennung verdeutlichen das vielseitige Anwendungsspektrum dieser wegweisenden Technologien. Sie sind keine Zukunftsmusik, sondern bereits Realität – und weiterführend betrachtet elementar für das Machine Learning. Falls Sie noch keine Berührungspunkte mit diesem Thema hatten, finden Sie hier einige Beispiele (von vielen weiteren potenziellen Anwendungsfeldern), die für Sie interessant sein könnten:

automatisierte Verschlagwortung von Kategoriebildern
Auswahl des Bildes mit der größten Aufmerksamkeit durch KI
erleichterte Beschwerdebearbeitung
automatisches Retouren-Management
schnelle Filial- oder Onlineshop-Findung durch Fotografieren der Produktverpackung

Wir sind fest davon überzeugt: Jedes Unternehmen erzielt Wettbewerbsvorteile durch den maßgeschneiderten Einsatz von Bildverarbeitung und Texterkennung.

***Rolf Neuschel***
*Online Marketing Manager bei IronShark GmbH*

Seit 2017 ist Rolf Projektverantwortlicher im Performance Marketing für Kunden aus verschiedensten Branchen. Als Experte für kreative, wissenschaftliche und zielgruppenspezifische Inhalte unterstützt er sie in den Bereichen Suchmaschinenoptimierung, Content Marketing und Consulting.

Info Für Auftraggeber

Info Für Agenturen

Wettbewerbsvorteile durch Bildverarbeitung: Praxisbeispiele für branchenübergreifende Anwendungen von Bild- und Schrifterkennung

Unsere Anwendungsbeispiele:

1. Produktfinder (Graf-Dichtungen GmbH)

Funktionsweise der Bilderkennung:

Zusammenfassung:

2. Interaktiver Film (Mitmalfilm / Uli Seis)

Funktionsweise der Bilderkennung:

Zusammenfassung:

3. Personalausweisvalidierung (Bundesdruckerei)

Funktionsweise der Bilderkennung:

Fazit und Ausblick: