KI-Projekte mit sauberen Daten angehen

“Du bist, was Du isst”

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Anwendungen, aber oft wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. Der Datenspezialist Aparavi erklärt, wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

(Bild: ©Lee/stock.adobe.com)

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die Frage ihrer Qualität. Und die wiederum hängt von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden. Doch genau daran hapert es oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren. Aparavi erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:

  • •  Schlechter Input – schlechter Output: Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.
  • •  Ausgefilterte Risiken – weniger Fallstricke: In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen, wie etwa personenbezogene Daten. Diese müssen vorab herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.
  • •  Synthetische Daten – echte Daten: Die Unzufriedenheit von Data Scientists mit dem Datenmaterial zeigt sich oft an der wachsenden Nutzung synthetischer Daten. Mit Originaldaten können Algorithmen und Anwendungen in der Praxis jedoch schneller und effizienter entwickelt werden.
  • •  Lange Entwicklungszeiten – hohe Kosten: KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market.

“Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle”, erklärt Adrian Knapp, CEO bei Aparavi. “Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.”

Das könnte Sie auch interessieren

Digitale Tools bringen den Aufbau einer Circular Economy auf Touren, wenn sie systemisch eingesetzt werden. Wie das gelingen kann, zeigt die Studie 'Digitale Enabler der Kreislaufwirtschaft' anhand von drei sehr unterschiedlichen Produkten: T-Shirts, Waschmaschinen und Einfamilienhäusern. Die Studie der Deutschen Akademie der Technikwissenschaften (Acatech) arbeitet heraus, welche digitalen Technologien und Anwendungen Wertschöpfungsketten zirkulär gestalten können - und wie die einzelnen Enabler im Zusammenspiel ein erweitertes Potenzial entfalten.‣ weiterlesen

Aktuell prägen vier Trends die Automatisierung und setzen die produzierende Industrie unter Transformationsdruck. Die Antwort auf die Herausforderungen liegt in der Integration taktiler Roboter und ihrer datengetriebenen Programmierung. Auf diesen Bereich hat sich ArtiMinds mit seinen Softwarelösungen spezialisiert.‣ weiterlesen

Das IFL am Karlsruher Institut für Technologie und der IAS an der Universität Stuttgart entwickeln einen anpassungsfähigen Roboter mit Greifsystem, der menschliche Fähigkeiten durch Nachahmung erlernt. Dafür haben sie mit dem ICM-Zukunftslabor HaptXDeep in Karlsruhe eine Forschungsinfrastruktur aufgebaut - ausgestattet mit einem Komplettsystem der Firma Shadow Robot und finanziert aus Mitteln des InnovationsCampus Mobilität der Zukunft (ICM).‣ weiterlesen

Das Bundesamt für Sicherheit in der Informationstechnik hat den aktuellen Lagebericht zur IT-Sicherheit veröffentlicht. Daraus geht unter anderem hervor, dass mehr neue Schadprogrammvarianten identifiziert wurden und die Zahl der Ransomware-Angriffe zugenommen hat. Doch auch Ransomware-Opfer werden resilienter.‣ weiterlesen

Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort auf Hugging Face zum Download bereit: 'Teuken-7B' wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Akteure aus Forschung und Unternehmen können das kommerziell einsetzbare Open-Source-Modell für ihre eigenen Anwendungen der künstlichen Intelligenz (KI) nutzen.‣ weiterlesen

Das Forschungsprojekt Simobot der Frankfurt UAS, der SimPlan AG und weiterer Partner entwickelt prädiktive Simulationsansätze für mobile Transportroboter. Unter anderem soll ein Demonstrator entstehen, der der Materialflusssimulation und Flottenmanagement verknüpft. Auf einem Kickoff-Meeting haben die Beteiligten erste Weichen für das Projekt gestellt.‣ weiterlesen

Künstliche Intelligenz hat in den vergangenen Jahren enorme Fortschritte gemacht. Mit Edge Computing rückt sie nah an die Produktion heran. Für Unternehmen verspricht das viel Potenzial für Echtzeit-Anwendungen. Doch wie wenden sie die Technologie effizient an?‣ weiterlesen

Der Sicherheitsplattformanbieter Check Point prognostiziert, wie Cyberkriminelle im kommenden Jahr mit neuen Technologien und Taktiken die globale Bedrohungslandschaft verändern könnten.‣ weiterlesen

Der Digital Product Passport soll den ökologischen und digitalen Wandel forcieren, ist dem Vorschlag der Europäischen Kommission zu entnehmen. Indem entlang der Lebenszyklen von Produkten Informationen digital bereitstehen, sollen Ressourcenverbrauch und Entsorgungslasten massiv reduziert werden. Reparatur, Wiederverwendung, Umwidmung und Verwertung alter Produkte sollen die Kreislaufwirtschaft voranbringen.‣ weiterlesen

Die universitäre Forschung ist laut einer Untersuchung des EPA für 10,2 Prozent aller Patentanmeldungen in Europa verantwortlich. Führende Länder sind hier Deutschland, Frankreich, das Vereinigte Königreich und Italien. Die Hälfte aller universitären Patentanmeldungen stammt von einer kleinen Gruppe europäischer Hochschulen.‣ weiterlesen

60 der vom Spezialversicherer Hiscox befragten Unternehmen wurden häufiger Opfer von Cyberangriffen. 46 Prozent verloren durch die Angriffe Kunden und ein Viertel hatte Kosten von mehr als 500.000 Euro.‣ weiterlesen