DFKI-Technologie lässt Roboter sehen

Wie kann eine Maschine lernen, sich in unserer Lebenswelt visuell zu orientieren? Mit dieser Frage setzen sich die Wissenschaftler am Deutschen Forschungsinstitut für Künstliche Intelligenz (DFKI) aktuell auseinander – und entwickeln Lösungen.

 (Bild: ©VicenSanh/stock.adobe.com)

(Bild: ©VicenSanh/stock.adobe.com)

Was für Menschen intuitiv mit dem Spracherwerb einhergeht, ist die Ermittlung von Bedeutung, unabhängig von der tatsächlichen sprachlichen Äußerung. Das bedeutet, wir können auf einer Vielzahl von Wegen eine Intention oder Referenz nachvollziehen und diese mit einem Objekt in unserer Lebenswelt in Verbindung bringen.

Maschinen haben diese Fähigkeit bislang nicht – oder nur in unausgereifter Form. Das soll sich durch MiKASA, eine von DFKI-Forschen den entwickelte Technologie, in Zukunft ändern. Der Multi-Key-Anchor Scene-Aware Transformer for 3D Visual Grounding (MiKASA) ermöglicht es, komplexe räumliche Abhängigkeiten und Merkmale von Objekten im dreidimensionalen Raum zu identifizieren und semantisch zu begreifen.

Kontext ist alles

„Wenn wir beispielsweise ein großes, würfelförmiges Objekt in einer Küche wahrnehmen, können wir ganz natürlich annehmen, dass es sich dabei womöglich um einen Geschirrspüler handelt. Erkennen wir eine vergleichbare Form in einem Badezimmer, ist die Annahme, dass es sich um eine Waschmaschine handelt, plausibler“, erklärt Projektleier Alain Pagani vom Forschungsbereich Augmented Vision.

Bedeutung ist kontextabhängig. Dieser Zusammenhang ist für ein nuanciertes Verständnis unserer Umgebung unerlässlich. Durch einen „szenenbewussten Objekt-Erkenner“ können nun auch Maschinen Rückschlüsse aus der Umgebung eines Referenzobjekts ziehen – und das Objekt so zielsicherer erkennen und korrekt definieren. Eine weitere Herausforderung für Programme ist es, relative räumliche Abhängigkeiten zu verstehen. „Der Stuhl vor dem blauen Monitor“ ist schließlich mit einer anderen Perspektive „der Stuhl hinter dem Monitor“.

Damit der Maschine klar wird, dass es sich bei beiden Stühlen tatsächlich um ein und dasselbe Objekt handelt, arbeitet MiKASA mit einem sogenannten „multi-key-anchor concept“. Das übermittelt die Koordinaten von Ankerpunkten im Blickfeld in Relation zu dem Zielobjekt und bewertet die Wichtigkeit von nahen Objekten anhand von Textbeschreibungen.

Objekte erkennen: So genau wie noch nie

So können semantische Rückbezüge helfen, das Objekt zu lokalisieren. Ein Stuhl ist typischerweise in Richtung eines Tisches platziert oder steht an einer Wand. Die Anwesenheit eines Tisches oder einer Wand definiert also indirekt die Ausrichtung des Stuhls.

Durch die Verknüpfung von Sprachmodellen, gelernter Semantik und der Wiedererkennung der Objekte im realen dreidimensionalen Raum erzielt MiKASA eine Genauigkeit von bis zu 78,6 Prozent (Sr3D Challenge). Damit konnte die Trefferquote zur Objekterfassung um rund 10 Prozent im Vergleich zu der besten bisherigen Technologie in diesem Bereich gesteigert werden!

Das könnte Sie auch interessieren

Die digitale Transformation wird zur Schlüsselfrage für den Erfolg im Maschinen- und Anlagenbau. Welche Handlungsoptionen Unternehmen dabei haben, beleuchtet die Impuls-Stiftung des VDMA in ihrer neuen Kurzstudie 'Erfolgsfaktoren digitaler Geschäftsmodelle', die vom Institut FIR der RWTH Aachen erstellt wurde.‣ weiterlesen

Was bedeutet 2025 für unsere Cybersicherheit? Welche Cyberattacken werden häufiger, welche Branchen stehen besonders im Visier und welche Rolle spielt KI? Michael Veit, Technology Evangelist beim Security-Spezialisten Sophos, gibt Antworten.‣ weiterlesen

Im Forschungsprojekt 'AutoPres' des IPH - Institut für Integrierte Produktion Hannover und Jobotec zeigen die Beteiligten am Beispiel einer Spindelpresse, dass sich auch ältere Maschinen mit KI nachrüsten lassen.‣ weiterlesen

Digitale Tools bringen den Aufbau einer Circular Economy auf Touren, wenn sie systemisch eingesetzt werden. Wie das gelingen kann, zeigt die Studie 'Digitale Enabler der Kreislaufwirtschaft' anhand von drei sehr unterschiedlichen Produkten: T-Shirts, Waschmaschinen und Einfamilienhäusern. Die Studie der Deutschen Akademie der Technikwissenschaften (Acatech) arbeitet heraus, welche digitalen Technologien und Anwendungen Wertschöpfungsketten zirkulär gestalten können - und wie die einzelnen Enabler im Zusammenspiel ein erweitertes Potenzial entfalten.‣ weiterlesen

Apps können die SPS-Programmierung erweitern und einige Hersteller bieten entsprechende Tools bereits an. Allerdings erfordert deren Funktion die Nutzung firmeneigener Schnittstellen. In einem kommenden Projekt arbeitet die SmartFactory-KL an einer standardisierten Schnittstelle.‣ weiterlesen

Aktuell prägen vier Trends die Automatisierung und setzen die produzierende Industrie unter Transformationsdruck. Die Antwort auf die Herausforderungen liegt in der Integration taktiler Roboter und ihrer datengetriebenen Programmierung. Auf diesen Bereich hat sich ArtiMinds mit seinen Softwarelösungen spezialisiert.‣ weiterlesen