KI-Projekte mit sauberen Daten angehen

“Du bist, was Du isst”

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Anwendungen, aber oft wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. Der Datenspezialist Aparavi erklärt, wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

(Bild: ©Lee/stock.adobe.com)

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die Frage ihrer Qualität. Und die wiederum hängt von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden. Doch genau daran hapert es oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren. Aparavi erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:

  • •  Schlechter Input – schlechter Output: Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.
  • •  Ausgefilterte Risiken – weniger Fallstricke: In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen, wie etwa personenbezogene Daten. Diese müssen vorab herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.
  • •  Synthetische Daten – echte Daten: Die Unzufriedenheit von Data Scientists mit dem Datenmaterial zeigt sich oft an der wachsenden Nutzung synthetischer Daten. Mit Originaldaten können Algorithmen und Anwendungen in der Praxis jedoch schneller und effizienter entwickelt werden.
  • •  Lange Entwicklungszeiten – hohe Kosten: KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market.

“Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle”, erklärt Adrian Knapp, CEO bei Aparavi. “Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.”

Das könnte Sie auch interessieren

Wie können Big-Data- und KI-Anwendungen gewinnbringend genutzt werden, ohne Datenschutz und IT-Sicherheit zu verletzen? Mit dieser Frage beschäftigt sich eine juristische Studie des Nationalen Forschungszentrums für angewandte Cybersicherheit Athene.‣ weiterlesen

Künstliche Intelligenz könnte in Zukunft dabei helfen, die Arbeit in Industriebetrieben sicherer, einfacher und produktiver zu machen. Das ist die Vision des europäischen Forschungsprojekts Perks, an dem auch die Wirtschaftsuniversität Wien (WU) beteiligt ist.‣ weiterlesen

Das kanadische Technologieunternehmen Vention hat ausgewertet, wie Hersteller den 'Do-it-yourself'-Ansatz (DIY) nutzen, um ihre Produktion zu automatisieren. Die Studie basiert auf anonymisierten Daten von weltweit mehr als 4.000 B2B-Nutzern der Manufacturing Automation Platform (MAP) von Vention.‣ weiterlesen

Laut International-Innovation-Barometer des Beratungsunternehmens Ayming ist Deutschland ein beliebter Standort für Investitionen für Forschung und Entwicklung. Die Untersuchung zeigt zudem, dass Expertise wichtiger ist als Geld.‣ weiterlesen

Industriesteuerungen werden durch die Nutzung moderner Technologien zunehmend abstrahiert - und damit kompakter, flexibler und einfacher zu warten. Diese Entwicklung führt schließlich zur virtuellen SPS. Doch wie sieht dies in der Praxis aus, wie lässt sie sich verwenden und kann sie auch noch sicher sein?‣ weiterlesen

Im Rahmen der Initiative ’Mission KI’ der Bundesregierung entstehen zwei KI-Zentren, eines davon in enger Kooperation mit dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern. Gründer, Startups und Unternehmen sollen dort Zugang zur Spitzenforschung erhalten und ihre Anwendungen in Testumgebungen verbessern können.‣ weiterlesen

In sämtlichen Bereichen der Produktion fallen Daten an und auch KMU können daraus einen Nutzen ziehen. Beispiele aus Forschungsprojekten des Technologieprogramms Edge Datenwirtschaft zeigen, wie die Zukunft der sicheren und effizienten Datennutzung und -verarbeitung für Unternehmen aus der Produktion aussehen kann.‣ weiterlesen

In einer aktuellen Studie mahnt der Elektronikkonzern Sharp die Wichtigkeit von IT-Sicherheitsmaßnahmen für Multifunktionsdrucker (MFPs) an. Demnach war bereits jedes fünfte deutsche KMU von einer über MFPs ausgehenden IT-Sicherheitsverletzung betroffen. Dennoch hat mehr als ein Drittel keine druckerspezifischen Sicherheitsvorkehrungen getroffen.‣ weiterlesen

Nachhaltigkeit ja, nur wie? Eine Lünendonk-Studie zeigt, dass viele Industrieunternehmen zwar eine Strategie haben, die Umsetzung dieser allerdings vielerorts noch stockt. Die Erwartungen an die Unternehmen werden jedoch nicht kleiner.‣ weiterlesen

Die vierte industrielle Revolution macht aus Produktionsanlagen ein intelligentes Netz aus Maschinen und Prozessen – theoretisch. Auf dem Weg dorthin scheitern Unternehmen häufig, wenn künstliche Intelligenz und ML-Methoden im Spiel sind. Eine sorgsam geplanten Transformationsstrategie hilft das zu vermeiden.‣ weiterlesen

Lieferkettenstörungen sind eine Belastung für Industrieunternehmen, die bis hin zum Produktionsstillstand führen können. Dies war im vergangenen Jahr an 32 Tagen der Fall. Um sich diesem Problem entgegenzustellen, will die Mehrheit der Unternehmen auf die Diversifizierung der Lieferketten setzen.‣ weiterlesen