Leitfaden für die Machine-Learning-Entwicklung

Künstliche Intelligenz strukturiert projektiert

Wirklich Nutzen aus Machine Learning zu ziehen, ist schon schwer genug. Umso ärgerlicher ist es, wenn Fehler den Fortschritt verzögern. Dieser Leitfaden führt, angelehnt an zahlreiche Best Practices, durch ein erfolgreiches ML-Projekt und zeigt typische Fallstricke auf.
In der strategischen Planung großer Unternehmen spielen Machine-Learning-Projekte eine immer wichtigere Rolle. Dabei kann die Machine-Learning-Logik selbst zwar oft sehr schnell und kostengünstig entwickelt werden. Doch die Integration die Geschäftsprozesse und die allgemeine Software-Bereitstellung und -Wartung ist eine aufwendige und oft teure Angelegenheit. Drei Faktoren sind wichtig für die erfolgreiche Umsetzung:

• Erstens können traditionelle Softwareentwicklungsparadigmen den Projekterfolg nicht mehr garantieren, sobald große Datenmengen ins Spiel kommen.

• Zweitens ist ein hohes Maß an Koordination und Kooperation nötig, da häufig viele Teams in die Projekte eingebunden sind. Neben Data-Science- und Data-Engineering-Teams sind auch Infrastruktur- und Applikationsentwicklungs-Teams involviert.

• Drittens bauen ML-Entwicklungsprojekte zu Beginn oft nicht direkt auf den Daten auf – sondern auf einmaligen Daten-Exporten. Dies kann dazu führen, dass die Projektteams weder nicht-funktionale noch Skalierungsanforderungen einbeziehen können. Beispiele dafür sind unterschiedliche Datenformate, aber auch die Größe von Datenmengen oder die Geschwindigkeit, mit der Daten bereitgestellt werden, sowie erwartete Antwortzeiten.

Typische Fallstricke

Die folgenden Erkenntnisse zeigen, wie typische Fallstricke vermieden werden können. Wichtig ist zu Projektbeginn das richtige Setup für eine hohe Entwicklungsgeschwindigkeit zu wählen. Darüber hinaus sollte das Ziel – das produktive Deployment – so unkompliziert wie möglich erreicht werden.

Fachartikel

FactorySmart® Automatisierung

Gocator - Ein benutzerfreundliches, flexibles Design ermöglicht eine leistungsstarke Bildverarbeitung mit nahtloser Datenkommunikation für eine effizientere und profitablere Produktion. ‣ weiterlesen

Die Daten

Es ist üblich, lokal gespeicherte Beispieldaten, lokale Skripts und unstrukturierte Entwicklungsumgebungen für die Arbeit mit Daten und die Ergebnisanalyse zu nutzen. Dies sorgt anfangs für mehr Geschwindigkeit, weil die Daten vorhanden und beherrschbar sind. Wenn die Ressourcenanforderungen steigen, stößt das jedoch schnell an Grenzen. Vor allem der Anspruch, die Entwicklungen universal nutzen zu können, leidet darunter. Der stark lokal getriebene Entwicklungsansatz macht es schwer, reproduzierbare Ergebnisse zu liefern, kollaborativ zu arbeiten und Aufgaben wie Parsen, Prozessierung, Training oder Inferenz unabhängig voneinander zu bearbeiten. Das ist beim Deployment in Produktivumgebungen fatal, in denen sich Datenschemata, Speicher- und Prozessierungstechnologien sowie weitere Faktoren ständig ändern. Je früher an das produktive Deployment gedacht wird, desto besser. Best Practices umfassen dabei:

• einen gut strukturierten Code in Verbindung mit Tests, Fehlerbehandlung, Logging und Verwaltung von Abhängigkeiten,

• eine Unterteilung in logische, voneinander unabhängige Abläufe,

• die gleichen Datenquellen, die später in der Produktivumgebung genutzt werden,

• bei der initialen Auswahl der ML-Algorithmen an die späteren Skalierbarkeits-Anforderungen denken.

Datum:18. Februar 2021

Autoren:

Themen:

Webseite: https://www.reply.com/de/

Downloads:

Das könnte Sie auch interessieren

Topstory

MINT-Fachkräftelücke kleiner als im Vorjahr

Zwar ist die Fachkräftelücke im MINT-Bereich im Vergleich zum Vorjahr zurückgegangen. Dennoch konnten laut einer Analyse des Instituts der deutschen Wirtschaft mindestens 235.400 Stellen nicht besetzt werden.‣ weiterlesen