DFKI-Technologie lässt Roboter sehen

Wie kann eine Maschine lernen, sich in unserer Lebenswelt visuell zu orientieren? Mit dieser Frage setzen sich die Wissenschaftler am Deutschen Forschungsinstitut für Künstliche Intelligenz (DFKI) aktuell auseinander – und entwickeln Lösungen.

 (Bild: ©VicenSanh/stock.adobe.com)

(Bild: ©VicenSanh/stock.adobe.com)

Was für Menschen intuitiv mit dem Spracherwerb einhergeht, ist die Ermittlung von Bedeutung, unabhängig von der tatsächlichen sprachlichen Äußerung. Das bedeutet, wir können auf einer Vielzahl von Wegen eine Intention oder Referenz nachvollziehen und diese mit einem Objekt in unserer Lebenswelt in Verbindung bringen.

Maschinen haben diese Fähigkeit bislang nicht – oder nur in unausgereifter Form. Das soll sich durch MiKASA, eine von DFKI-Forschen den entwickelte Technologie, in Zukunft ändern. Der Multi-Key-Anchor Scene-Aware Transformer for 3D Visual Grounding (MiKASA) ermöglicht es, komplexe räumliche Abhängigkeiten und Merkmale von Objekten im dreidimensionalen Raum zu identifizieren und semantisch zu begreifen.

Kontext ist alles

„Wenn wir beispielsweise ein großes, würfelförmiges Objekt in einer Küche wahrnehmen, können wir ganz natürlich annehmen, dass es sich dabei womöglich um einen Geschirrspüler handelt. Erkennen wir eine vergleichbare Form in einem Badezimmer, ist die Annahme, dass es sich um eine Waschmaschine handelt, plausibler“, erklärt Projektleier Alain Pagani vom Forschungsbereich Augmented Vision.

Bedeutung ist kontextabhängig. Dieser Zusammenhang ist für ein nuanciertes Verständnis unserer Umgebung unerlässlich. Durch einen „szenenbewussten Objekt-Erkenner“ können nun auch Maschinen Rückschlüsse aus der Umgebung eines Referenzobjekts ziehen – und das Objekt so zielsicherer erkennen und korrekt definieren. Eine weitere Herausforderung für Programme ist es, relative räumliche Abhängigkeiten zu verstehen. „Der Stuhl vor dem blauen Monitor“ ist schließlich mit einer anderen Perspektive „der Stuhl hinter dem Monitor“.

Damit der Maschine klar wird, dass es sich bei beiden Stühlen tatsächlich um ein und dasselbe Objekt handelt, arbeitet MiKASA mit einem sogenannten „multi-key-anchor concept“. Das übermittelt die Koordinaten von Ankerpunkten im Blickfeld in Relation zu dem Zielobjekt und bewertet die Wichtigkeit von nahen Objekten anhand von Textbeschreibungen.

Objekte erkennen: So genau wie noch nie

So können semantische Rückbezüge helfen, das Objekt zu lokalisieren. Ein Stuhl ist typischerweise in Richtung eines Tisches platziert oder steht an einer Wand. Die Anwesenheit eines Tisches oder einer Wand definiert also indirekt die Ausrichtung des Stuhls.

Durch die Verknüpfung von Sprachmodellen, gelernter Semantik und der Wiedererkennung der Objekte im realen dreidimensionalen Raum erzielt MiKASA eine Genauigkeit von bis zu 78,6 Prozent (Sr3D Challenge). Damit konnte die Trefferquote zur Objekterfassung um rund 10 Prozent im Vergleich zu der besten bisherigen Technologie in diesem Bereich gesteigert werden!

Das könnte Sie auch interessieren

Werkzeugbahnen für Zerspanprozesse in CAM-Systemen zu planen erfordert Expertenwissen. Viele Parameter müssen bestimmt und geprüft werden, um die Bahnplanung Schritt für Schritt zu optimieren. Im Projekt CAMStylus arbeiten die Beteiligten daran, diese Aufgabe zu vereinfachen - per KI-gestützter Virtual-Reality-Umgebung.‣ weiterlesen

AappliedAI hat vier KI Use Cases identifiziert, die es dem produzierenden Gewerbe ermöglichen, ihre Effizienz und Produktivität zu steigern. Mit der Anwendung bewährter Technologien können sich die Investitionen bereits nach einem Jahr amortisieren.‣ weiterlesen

Hinter jedem erfolgreichen Start-up steht eine gute Idee. Bei RockFarm sind es gleich mehrere: Das Berliner Unternehmen baut nachhaltige Natursteinmauern aus CO2 bindendem Lavagestein. Oder besser gesagt, es lässt sie bauen - von einem Yaskawa-Cobot HC10DTP.‣ weiterlesen

In einer Studie von Techconsult in Zusammenarbeit mit Grandcentrix wurden 200 Unternehmen ab 250 Beschäftigten aller Branchen zum Thema ESG in ihren Unternehmen befragt. Die Studie hebt die zentrale Rolle der jüngsten CSR-Direktive der EU bei der Förderung von Transparenz und Nachhaltigkeit in Unternehmen hervor. Dabei beleuchtet sie die Fortschritte und Herausforderungen bei der Umsetzung von Umwelt-, Sozial- und Unternehmensführungskriterien (ESG) im Zusammenhang mit der Nutzung von IoT-Technologien.‣ weiterlesen

Mit über 2,2Mio.t verarbeitetem Schrott pro Jahr ist die Swiss Steel Group einer der größten Recyclingbetriebe Europas. Für seinen 'Green Steel', also Stahl aus recyceltem Material, arbeitet das Unternehmen an einem digitalen Zwilling des ankommenden Schrotts.‣ weiterlesen

Laut einer aktuellen Studie von Hitachi Vantara betrachten fast alle der dafür befragten Unternehmen GenAI als eine der Top-5-Prioritäten. Aber nur 44 Prozent haben umfassende Governance-Richtlinien eingeführt.‣ weiterlesen

61 Prozent der Unternehmen in Deutschland wollen laut einer Bitkom-Befragung per Cloud interne Prozesse digitalisieren, vor einem Jahr waren es nur 45 Prozent. Mittelfristig wollen die Unternehmen mehr als 50 Prozent ihrer Anwendungen in die Cloud verlagern.‣ weiterlesen

Mit generativer KI erlebt 'Right Brain AI', also eine KI, die kreative Fähigkeiten der rechten menschlichen Gehirnhälfte nachahmt, derzeit einen rasanten Aufstieg. Dieser öffnet aber auch die Tür für einen breiteren Einsatz von eher analytischer 'Left Brain AI'. Das zeigt eine aktuelle Studie von Pegasystems.‣ weiterlesen

Um klima- und ressourcengerechtes Bauen voranzubringen, arbeiten Forschende der Bergischen Universität Wuppertal in ihrem Projekt TimberConnect an der Optimierung von digitalen Prozessen entlang der Lieferkette von Holzbauteilen. Ihr Ziel ist unter anderem, digitale Produktpässe zu erzeugen.‣ weiterlesen

Rund zwei Drittel der Erwerbstätigen in Deutschland verwenden ChatGPT und Co. zumindest testweise, 37 Prozent arbeiten regelmäßig mit KI-Anwendungen. Doch auch Cyberkriminelle machen sich vermehrt die Stärken künstlicher Intelligenz zunutze - mit weitreichenden Folgen.‣ weiterlesen

Erstmals seit der Energiekrise verzeichnet der Energieeffizienz-Index der deutschen Industrie mit allen drei Teilindizes (die Bedeutung, Produktivität und Investitionen betreffend) einen leichten Rückgang. Mögliche Gründe erkennt EEP-Institutsleiter Professor Alexander Sauer in der Unsicherheit und der drohenden Rezession, der dadurch getriebenen Prioritätenverschiebung und der Reduktion von Produktionskapazität.‣ weiterlesen