Objekterkennung: Wenn die KI sehen lernt

Das Zukunftszentrum präsentiert einfaches System zum Erkennen von Gesten

Die Einsatzbereiche von Künstlicher Intelligenz (KI) im Unternehmen sind vielfältig. In der Industrie wird sie z.B. genutzt, um Fließbänder zu kontrollieren und zu stoppen, wenn ein Problem auftaucht und in der Robotik, um das korrekte Greifen unterschiedlich positionierter Gegenstände zu steuern. Dies geschieht durch sogenannte Objekterkennung, die es ermöglicht, dass die KI die Objekte eines definierten Bereichs aufzeichnen, auswerten und auf ihre Aufgaben anwenden kann – und zwar in sämtlichen Bereichen, die einen Überblick über ihre Umgebung benötigen.


Um sich einmal tiefergehend mit dem Thema zu befassen, hat sich das Zukunftszentrum KI NRW die Aufgabe gestellt, selbst einen kleinen Prototypen zu entwickeln, der Handgesten erkennen soll. Als zusätzliche Herausforderung sollte demonstriert werden, dass eine solche KI bereits auf einer vergleichsweise leistungsschwachen Hardware – hier einem Raspberry Pi – laufen kann. Dafür wurde online ein bestehendes Modell als Grundlage herausgesucht und anschließend die Daten, mit denen die KI lernen sollte, zusammengesammelt. Insgesamt wurden dafür um die 300 Fotos von verschiedenen Handgesten aufgenommen und gelabelt – also beschriftet und kategorisiert –, um damit die KI zu trainieren. Dabei zeigte sich aber schnell, dass die Datenmenge bei Weitem noch nicht ausreichte: Neben Schwierigkeiten, Gesten mit verschiedenen Distanzen und vor unterschiedlichen Hintergründen korrekt zu erkennen, erreichte sie gute Genauigkeit lediglich bei der Hand, von der ihr die meisten Trainingsdaten zur Verfügung standen.

Um die Datenmenge zu erhöhen, wurden die 300 Bilder dann auf ungefähr 1000 erweitert und zusätzlich augmentiert – d.h. durch Drehung, Spiegelung sowie der Veränderung von Farbe und Kontrast in (für die KI) neue Bilder geändert –, um eine Datengrundlage von 4000 Bildern zu erreichen. Auch wurde auf eine stärkere Vielfalt der Hände geachtet, indem sie unterschiedliche Alter, Geschlechter und Hautfarben aufwiesen. Dadurch konnte die Genauigkeit der KI zwar maßgeblich verbessert werden, führte aber zu dem Problem, dass ihr Umfang zu groß für den Raspberry Pi wurde. Trotz starker Grafikkarte las sie lediglich alle zehn Sekunden einen Frame aus – was einer Geschwindigkeit von 0,1fps entspricht – und konnte das Ziel, mit geringer Leistungsfähigkeit zu laufen, nicht erreichen. Mithilfe erneuter Recherche wurde ein anderes Modell gefunden, das weniger präzise in der Erkennung, dafür aber speziell für mobile Endgeräte geeignet ist. Dieses wurde wieder mit den bestehenden Daten trainiert und getestet und erreichte eine Geschwindigkeit von 4fps, also das Vierzigfache des vorherigen Modells.


Dies zeigt eindrucksvoll, dass eine objekterkennende KI bereits mit wenig Rechenleistung laufen kann, aber besser und schneller wird, je mehr ihr zur Verfügung steht. Die Schwierigkeiten liegen vielmehr darin, ausreichend (unterschiedliche) Testdaten zusammenzusammeln, deren Anzahl oft über Gelingen und Scheitern entscheiden. Ist die KI ausreichend trainiert, kann sie ihre Aufgaben leicht erfüllen und in Bereichen wie den oben genannten eingesetzt werden. Auch lässt sie sich weiterführend in anderen Bereichen einsetzen, in denen sie z.B. mithilfe von OCR (zu dt. optische Zeichen-Erkennung) Texte eines zuvor erkannten Bereichs ausliest. Die Kombinationsmöglichkeiten mit anderen Technologien sind vielfältig und veranschaulichen, dass Objekterkennung selten den Endpunkt, sondern in vielen Bereichen erst den Anfang darstellt. 


Bild: Marco Fries (Urheber)


Zurück

Das Projekt Zukunftszentrum KI NRW wird im Rahmen des Programms Zukunftszentren durch das Bundesministerium für Arbeit und Soziales und vom Ministerium für Arbeit, Gesundheit und Soziales NRW sowie durch die Europäische Union über den Europäischen Sozialfonds Plus (ESF Plus) gefördert.