KI-Projekte mit sauberen Daten angehen

“Du bist, was Du isst”

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Anwendungen, aber oft wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. Der Datenspezialist Aparavi erklärt, wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

(Bild: ©Lee/stock.adobe.com)

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die Frage ihrer Qualität. Und die wiederum hängt von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden. Doch genau daran hapert es oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren. Aparavi erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:

  • •  Schlechter Input – schlechter Output: Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.
  • •  Ausgefilterte Risiken – weniger Fallstricke: In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen, wie etwa personenbezogene Daten. Diese müssen vorab herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.
  • •  Synthetische Daten – echte Daten: Die Unzufriedenheit von Data Scientists mit dem Datenmaterial zeigt sich oft an der wachsenden Nutzung synthetischer Daten. Mit Originaldaten können Algorithmen und Anwendungen in der Praxis jedoch schneller und effizienter entwickelt werden.
  • •  Lange Entwicklungszeiten – hohe Kosten: KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market.

“Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle”, erklärt Adrian Knapp, CEO bei Aparavi. “Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.”

Das könnte Sie auch interessieren

61 Prozent der Unternehmen in Deutschland wollen laut einer Bitkom-Befragung per Cloud interne Prozesse digitalisieren, vor einem Jahr waren es nur 45 Prozent. Mittelfristig wollen die Unternehmen mehr als 50 Prozent ihrer Anwendungen in die Cloud verlagern.‣ weiterlesen

Mit generativer KI erlebt 'Right Brain AI', also eine KI, die kreative Fähigkeiten der rechten menschlichen Gehirnhälfte nachahmt, derzeit einen rasanten Aufstieg. Dieser öffnet aber auch die Tür für einen breiteren Einsatz von eher analytischer 'Left Brain AI'. Das zeigt eine aktuelle Studie von Pegasystems.‣ weiterlesen

Um klima- und ressourcengerechtes Bauen voranzubringen, arbeiten Forschende der Bergischen Universität Wuppertal in ihrem Projekt TimberConnect an der Optimierung von digitalen Prozessen entlang der Lieferkette von Holzbauteilen. Ihr Ziel ist unter anderem, digitale Produktpässe zu erzeugen.‣ weiterlesen

Rund zwei Drittel der Erwerbstätigen in Deutschland verwenden ChatGPT und Co. zumindest testweise, 37 Prozent arbeiten regelmäßig mit KI-Anwendungen. Doch auch Cyberkriminelle machen sich vermehrt die Stärken künstlicher Intelligenz zunutze - mit weitreichenden Folgen.‣ weiterlesen

Erstmals seit der Energiekrise verzeichnet der Energieeffizienz-Index der deutschen Industrie mit allen drei Teilindizes (die Bedeutung, Produktivität und Investitionen betreffend) einen leichten Rückgang. Mögliche Gründe erkennt EEP-Institutsleiter Professor Alexander Sauer in der Unsicherheit und der drohenden Rezession, der dadurch getriebenen Prioritätenverschiebung und der Reduktion von Produktionskapazität.‣ weiterlesen

Mehr als jedes dritte Unternehmen wurde in den letzten zwei Jahren Opfer von Cyberkriminalität - am häufigsten durch Phishing, Attacken auf Cloud-Services oder Datenlecks. Dies geht aus einer Studie des Beratungsunternehmens KPMG hervor. Darin schätzt der Großteil der befragten Unternehmen das eigene Risiko als hoch oder sehr hoch ein.‣ weiterlesen

Wie kann man die virtuelle Realität (VR) haptisch, also durch den Tastsinn, erfahrbar machen? Der Saarbrücker Informatiker André Zenner ist in seiner Doktorarbeit der Antwort auf diese Frage ein großes Stück nähergekommen - indem er neue Geräte erfunden und die passende Software dazu entwickelt hat.‣ weiterlesen

Die Einführung generativer künstlicher Intelligenz ist oft mit Herausforderungen verbunden, etwa wenn es um den Datenschutz geht. Für die Industrie verspricht die Technologie jedoch Potenziale, sofern richtig eingesetzt. Die APPL-Firmengruppe nutzt GenAI beispielsweise, um Maschinenstörungen abzustellen.‣ weiterlesen

Eine aktuelle Studie von Protolabs, zu der mehr als 700 Ingenieure weltweit befragt und Daten der Industrie ausgewertet wurden, zeigt den aktuellen und künftigen Zustand der additiven Fertigung auf. Demnach wächst der Markt sogar schneller als bisher angenommen.‣ weiterlesen

Die Integration von Ergonomie in den Entwicklungsprozess von Maschinen und Arbeitsplätzen spielt eine entscheidende Rolle für die Kosteneffizienz und die Benutzerfreundlichkeit. Virtual Reality (VR) bietet einen modernen Ansatz, um frühzeitige Ergonomieuntersuchungen zu beschleunigen und zu verbessern. Die Integration von VR ermöglicht eine realistische Simulation menschlicher Bewegungen und vermeidet kostspielige spätere Anpassungen. Die Anwendung erfordert jedoch geeignete Hardware und Software sowie geschultes Personal.‣ weiterlesen

Die Innovationstätigkeit in Digitaltechnologien nimmt weiter an Fahrt auf. Und laut Deutschem Patent- und Markenamt dominieren die USA und China in diesen Bereichen. Die deutsche Bilanz ist zwiespältig.‣ weiterlesen