Posts Tagged ‘Statistik’

h1

Daten als Ausgangspunkt von Innovation – Big Data?

2. Februar 2014
fury

fotolia_52537005_xswutc2a9-olly-fotolia-com

Das statistische Herausfiltern von potentiellen Terroristen hat sich nicht bewährt. Der unschuldige Berliner Dozent, der in seinem Fach-Blog zufälligerweise die selbe Formulierung verwendete wie in einem Bekennerschreiben, wurde 6 Monate überwacht, Telefone abgehört und bespitzelt – er wartet nach Jahren noch auf eine Entschädigung. Auch der Mieter im Haus über einer „verdächtigen“ Person, dem von der Vega um 3 Uhr in der Früh die Türe eingetreten wurde, ja der wartet auch vergeblich. OK, war halt das falsche Stockwerk… Das bisschen nackt an der Wand stehen hat auch noch keinem geschadet…

OK, also beim Suchen von seltenen singulären Merkmalen (Terrorist) hat die Statistik ein Problem. Tatsächlich liegt das an dem riesigen Merkmalsraum den Menschen durch ihr Verhalten zeigen. Mit anderen Worten, man kann Menschen nicht durch wenige (100 oder 300) Merkmale charakterisieren. Allein das Foto Ihrer Oma hat 3MByte – das heißt, dass alleine das Erscheinungsbild (nur von einer Seite) 3,000.000 Farbpunkt  Information benötigt.

Es ist ja tatsächlich verführerisch die Verfahren, die für das Aufsuchen von „Ausreißern“ in technischen Daten bewährt sind, in der Verbrechensbekämpfung zu verwenden. Der Unterschied ist (sollte) aber augenfällig sein: Ein Wert des Druckes hat einen „Verhaltensraum“ von 1 – es kann nur der Druck variieren. Selbst wenn wir in einem technischen System andere Parameter dazunehmen, sind das viel weniger als Parameter notwendig wären um einen Menschen zu charakterisieren. Deswegen funktioniert das (oft!). Diese Verfahren kann man nun sehr gut zur Innovation einsetzen: Systeme die Wälzlager überwachen und nur bei Bedarf einen Austausch anmelden – im Gegensatz zu periodischem Austausch.  Oder das Herausfinden ob ein Baum rotfaul ist oder nicht (ein ehemaliges Projekt von uns). Amazon demonstriert das auch sehr selbstbewusst „Diese Produkte könnten Sie auch interessieren…“. Und ich kann nur persönlich sagen – die Dinger interessieren mich auch – das ist eine Innovation. Der Fall der 12-Jährigen, die sich im Internet gerne Babykleidung ansah und der dann zur Geburt gratuliert wurde… das ist keine Innovation, das ist Blödheit. Oder anders ausgedrückt „technisch machbare Ignoranz“. Aber auch hier: die Verhaltensmannigfaltigkeit von Menschen ist (zum Glück) zu groß für eine statistische Datenbankabfrage.

Was, nach unserer Erfahrung, sehr gut funktioniert ist das Aufsuchen von Zusammenhängen in technischen Systemen: z.B. wahrscheinliche Ausfälle aus Betriebsdaten ermitteln oder aus den Betriebsdaten der Produktionsanlage und den Daten der Qualitätssicherung fundamentale Hinweise für Qualitätssteigerung oder Ressourceneinsparung zu liefern.

Die Erfahrung zeigt jedoch: viele Daten und die Statistik alleine reicht nicht. Da wird oft Unsinn gefunden (wie Storchpopulation und Geburtenhäufigkeit) oder nichts gefunden. Warum wird nichts gefunden? Weil der Statistiker oft keine Sachkenntnis über das System hat und weil er selten Kenntnisse über fundamentale Zusammenhänge besitz. Also beispielsweise der Zusammenhang zwischen einem Produktausfall und Belastung mit Vibration, also von Resonanzphänomenen. Oft führt hier der Weg über die mathematisch, physikalische Konstruktion von Sekundärmerkmalen, die dann plötzlich Zusammenhänge offen legen.

Das mit der „normalen“ Statistik nur lineare Abhängigkeiten abgebildet werden ist ein weiteres Problem, das kann man mit künstlicher Intelligenz umgehen kann.

Klar ist: Daten können zum Auffinden von Zusammenhängen sehr gut verwendet werden – solche Zusammenhänge münden tatsächlich oft in Innovationen. Aber bitte Vorsicht: trauen Sie nie einer „black box“ (einem Verfahren, das Sie nicht durchschauen), fordern Sie Verständlichkeit und diskutieren Sie das Verfahren mit Kollegen aus der Praxis.

Viel Erfolg

Gottfried Schaffar