Big Data: Wie Daten sprechen lernen

Knoten und logische Regeln

Entscheidungsb?ume sind die logische Folge einer Prozessanalyse mit Parallelkoordinaten, in dem sie daraus logische Entscheidungsdiagramme generieren. Daraus folgt, dass diese Algorithmen nur dann erfolgreich eingesetzt werden, wenn die Resultate der Prozessanalyse mit Parallelkoordinaten eindeutig ausfallen. Die Komplexit?t der Regeln ist bei Entscheidungsb?umen unbeschr?nkt. Bei bin?ren Entscheidungsb?umen kann jede Regel nur einen von zwei Werte annehmen. Alle Entscheidungsb?ume lassen sich immer in bin?re Entscheidungsb?ume ?berf?hren. Entscheidungsb?ume k?nnen entweder von Experten manuell erstellt oder mithilfe von Techniken des maschinellen Lernens automatisch aus Beispieldatens?tzen generiert werden. F?r diese Induktion gibt es mehrere konkurrierende Algorithmen. Stark miteinander korrelierende Eingangsvariablen k?nnen redundante Informationen enthalten, das hei?t eine der beiden Variablen w?re dann zweckm??igerweise von der weiteren Datenanalyse auszunehmen. Sollen stark korrelierende Eingangsmerkmale untersucht werden, kann die Korrelation durch Berechnungen wie das Verh?ltnis oder die Differenz der Variablen aufgehoben und die Datenanalyse so erleichtert werden. Das statistische Ma? der Korrelation ist nicht eindeutig interpretierbar, weil es linear und eindimensional ist und somit nur einen sehr begrenzten Einblick in tats?chliche Zusammenh?nge erm?glicht, die ja zum Beispiel nichtlinear sein k?nnen. Es gibt aber gute erste Hinweise auf bestehende Zusammenh?nge. Gibt es eine hohe Korrelation zwischen Ein- und Ausg?ngen, ist es eventuell sinnvoll, die Differenz zwischen der Zielgr??e und dem Vielfachen der Einflussgr??e zu modellieren. Mittels der Assoziationsanalyse kann das gemeinsame h?ufige Vorkommen kategorialer oder bin?rer Variablen untersucht werden. Dazu eignen sich grunds?tzlich einfache Verfahren wie Assoziationsregeln, die ausgehend von einer Kombination von bin?ren (beschreibenden) Variablen eine Kombination von Zielvariablen mit einem vorgegeben Mindestsupport und einer gewissen Konfidenz vorhersagen. Dabei ist die Konfidenz durch den relativen Anteil der Zielvariablen in der Subgruppe der Datenmenge gegeben, der Mindestsupport durch deren Gr??e, die durch die beschreibenden Variablen definiert wird. Im Vergleich zu Assoziationsregeln ist die Subgruppenentdeckung eine m?chtigere Methode, um auch mit analogen Variablen, also kontinuierlichen Messgr??en umgehen zu k?nnen. Bei der Subgruppenentdeckung geht es darum, m?glichst interessante Subgruppen hinsichtlich eines bestimmten Zielkonzepts zu identifizieren, beispielsweise f?r eine analoge Messgr??e Ausschussrate als Zielvariable. Grunds?tzlich wird meist auf m?glichst gro?e Subgruppen mit einer m?glichst hohen Abweichung dieser Zielvariablen im Vergleich zur Gesamtdatenmenge abgezielt. Im bin?ren Fall wird der Anteil der Zielvariablen in der Subgruppe betrachtet, die durch die beschreibenden Variablen (zum Beispiel Parameter Druck und Temperatur) gegeben ist. Diese Beschreibung kann als Kondition einer Regel aufgefasst werden, die Konklusion der Regel als das Zielkonzept.

Komplexe Zusammenh?nge

Die Interessantheit wird durch eine Qualit?tsfunktion definiert. Bei analogen Zielgr??en kann einfach der Durchschnitt ?ber die Datenmenge der Subgruppe gebildet werden, um m?glichst auff?llige Subgruppen zu identifizieren. Assoziations- und Abweichungsanalyse kann damit als eine Technik zur initialen Untersuchung komplexerer Zusammenh?nge dienen. Diese werden als leicht interpretierbare Regeln pr?sentiert. Im Vergleich zu Entscheidungsb?umen werden diskriminierende Regeln f?r ein Zielkonzept bestimmt, die lokal f?r sich stehen, und auch losgel?st von den anderen Regeln betrachtet werden k?nnen. Damit liegt der Vorteil der Subgruppenentdeckung auch darin, komplexe Probleme einer ?bersichtlichen Menge von Subgruppen abzubilden, die verst?ndlich sind, um Prozesskenntnis generieren. Subgruppenentdeckung l?sst sich beispielsweise auch als statistischer Plausibilit?tsfilter nutzen, um lokale Abweichungen zu entdecken. Eine wichtige Anwendung in technischen Produktionsprozessen ist beispielsweise auch die Fehleranalyse, in der Einflussgr??en f?r Zielvariablen wie Ausschuss- oder Reparaturrate mittels Subgruppenentdeckung analysiert werden. Die Hauptkomponentenanalyse (PCA) ist ein mathematisches Verfahren der multivariaten Statistik, bei dem vieldimensionale Daten in einem gedachten Koordinatensystem so gedreht werden, dass f?r jede Achse eine m?glichst hohe Varianz erreicht wird. Nach dieser Rotation entsprechen die Achsen nicht mehr bestimmten physikalischen Gr??en, sondern jeweils einer Linearkombination mehrerer Variablen. Die Linearkombinationen mit der h?chsten Varianz werden als Hauptkomponenten bezeichnet.

Variablen reduzieren

Durch die PCA kann die Zahl von Variablen reduziert werden, weil eine geringe Anzahl von Komponenten meist ausreicht, um die vieldimensionalen Daten mit ihrer gesamten Varianz abzubilden. Das Ergebnis einer PCA ist nicht immer klar interpretierbar. Wenn physikalisch ?hnliche oder miteinander zusammenh?ngende Gr??en zu einer Hauptkomponente beitragen, kann man diese mit einem sprechenden Namen bezeichnen (zum Beispiel ‘Gr??e’, wenn die variablen L?nge, Breite und H?he eines Werkst?cks am meisten zu einer Komponente beitragen). Kann eine solche Bezeichnung nicht gefunden werden, bleibt die Komponente abstrakt und die Interpretation sowohl der PCA an sich, als auch eventuell nachfolgender Datenanalysen ist erschwert. Mutual Information (auch Transinformation, Synentropie oder gegenseitige Information) ist eine Gr??e aus der Informationstheorie, die im Zusammenhang von Big-Data-Projekten angibt, wie viel Information eine (Eingangs-)Variable ?ber eine andere (Ausgangs-) Variable enth?lt. Sie ist maximal, wenn eine der Variablen sich aus der jeweils anderen berechnen l?sst. Sie ist minimal, wenn die untersuchten Variablen statistisch unabh?ngig sind. Der Begriff Entropie aus der shannonschen Theorie ist eine Ma?zahl f?r die Informationsdichte oder den Informationsgehalt von zu untersuchenden Datenreihen. Die Informationsdichte berechnet sich aus der Wahrscheinlichkeitsverteilung. Eine maximale Entropie zeichnet sich durch eine gleichm??ige Verteilung einer Datenfolge ?ber den Wertebereich aus. Datenfolgen mit einer maximalen Entropie lassen sich nicht verdichten oder komprimieren, da zur Datenverdichtung immer Redundanzen notwendig sind. Mit einer Entropieanalyse k?nnen irrelevante Variablen identifiziert und entfernt werden.

Datum:21. Dezember 2016

Autoren:

Themen: Fachartikel

Webseite: www.vdi.de

Downloads: