Was ist Data-Mining?
Unter dem Begriff „Data-Mining“ versteht man die zielführende Auswertung großer Datenmengen, um neue, potenziell nützliche Informationen zu gewinnen. Wir erklären den Begriff etwas naher, und erläutern einige zugehörige Analyseverfahren.
Data-Mining im Überblick
Um zu einer Data-Mining-Definition zu gelangen, ist es hilfreich, die Metapher aufzuschlüsseln und den Analyseansatz freizulegen. Betrachtet man den Output des nahezu allgegenwärtigen Besuchenden-Trackings im Internet als scheinbar unnützen Datenberg, bietet Data-Mining (wörtlich übersetzt: „Datenschürfung“) die notwendigen Werkzeuge, um die gesammelten Daten zu erschließen und relevante Informationen zutage zu fördern. Anders als im Bergbau kommen dabei statistische Methoden zum Einsatz, die es ermöglichen, Trends und Querverbindungen zu identifizieren.
Diskutiert wird Data-Mining in der Regel im Zusammenhang mit Big Data. Damit sind Datenbestände gemeint, die aufgrund ihres Umfangs manuell nicht mehr zu erfassen sind und daher computergestützte Analysen erfordern. Prinzipiell lassen sich Data-Mining-Methoden jedoch auf beliebige Datenmengen anwenden. Erkenntnisse, die durch Data-Mining gewonnen werden, lassen sich in die strategische Ausrichtung des Onlinegeschäfts und Marketing-Entscheidungen einbeziehen. Entsprechend vielfältig sind die Anwendungsgebiete.
Anwendungsgebiete des Data-Minings
Data-Mining bietet die Möglichkeit, den E-Commerce auf wissenschaftlicher Basis zu optimieren. Dabei bilden große Datenbestände, die im Onlinegeschäft anfallen, die Grundlage für Erklärungen und Prognosen. Statistisch aufbereitet und übersichtlich visualisiert erlauben sie Webshop-Betreibenden, Faktoren für ein erfolgreiches Onlinegeschäft zu identifizieren und Onlineshop-Marketing-Strategien an Modellen durchzurechnen. Dabei kommt Data-Mining zum Einsatz, um
- Märkte zu segmentieren,
- Warenkörbe zu analysieren,
- Käuferprofile zu erstellen,
- Produktpreise zu kalkulieren,
- Prognosen zu Vertragslaufzeiten aufzustellen,
- die Nachfrage zu analysieren und
- Fehler in Verkaufsprozessen zu identifizieren.
- In Sekunden zur Online-Präsenz
- Mehr Wachstum mit KI-Marketing
- Zeit und Ressourcen sparen
Wie funktioniert Data-Mining?
Data-Mining wird als ein Teilschritt der Knowledge Discovery in Data (KDD, deutsch: „Wissensentdeckung in Daten“) betrachtet, die folgende Schritte umfasst:
- Ziele definieren: Zuerst müssen konkrete Fragen festgelegt werden, die durch die Datenanalyse beantwortet werden sollen. So ist es für datenwissenschaftliche Fachkräfte leichter, relevante Daten und angemessene Auswertungsmethoden zu erkennen.
- Vorverarbeitung der Daten: Entscheidend für die Qualität der durch Data-Mining gewonnenen Informationen ist die Beschaffenheit der Datengrundlage. Relevante Daten sollen also vor der Analyse bereinigt werden, um Duplikate, Ausreißer und andere Verzerrungen zu entfernen. Eventuell müssen die bereinigten Daten auch in das von dem Analyseverfahren benötigte Format gebracht werden.
- Datenanalyse: Nun erfolgt die eigentliche mathematische Datenanalyse. Die hier anzuwendenden Analyseverfahren hängen stark von den gewählten Zielen sowie die Eigenschaften der Daten ab. Hier können sowohl klassische Algorithmen zur Datenanalyse als auch neuere, auf Neural Networks basierende Deep-Learning-Algorithmen zum Einsatz kommen.
- Interpretation der Ergebnisse: Zunächst müssen die aus der Analyse entstehenden Ergebnisse ausgewertet werden. Sind die Ergebnisse verständlich und aufschlussgebend, können daraus eventuell neue Zusammenhänge identifiziert und Erkenntnisse gewonnen werden, die wiederum künftige Geschäftsstrategien beeinflussen können.
Data-Mining-Methoden
Um unternehmensrelevante Informationen aus großen Datenbeständen extrahieren zu können, haben sich verschiedene Methoden etabliert, die auf der Identifizierung bedeutsamer Zusammenhänge, Muster und Trends basieren und sich statistischer Verfahren bedienen.
- Ausreißer-Erkennung (Outlier Detection): Als Ausreißer werden extreme Messwerte bezeichnet, die sich von der Gesamtdatenmenge abheben, da sie vom generellen Trend einer Messreihe abweichen. Im Data-Mining kommt die Ausreißer-Erkennung zum Einsatz, um untypische Datensätze zu identifizieren. In der Praxis lässt sich diese Data-Mining-Methode nutzen, um Kreditkartenbetrug durch auffällige Transaktionen zu entlarven.
- Cluster-Analyse: Cluster nennt man eine Gruppierung von Objekten, die auf Ähnlichkeitsbeziehungen der Gruppenmitglieder beruht. Ziel dieses Analyseverfahrens ist die Segmentierung unstrukturierter Daten. Dazu werden Algorithmen wie K-Nearest-Neighbor (KNN) eingesetzt, die große Datenbestände nach Ähnlichkeitsstrukturen durchsuchen, um neue Cluster zu identifizieren. Lässt sich ein Datensatz keinem Cluster zuordnen, kann dieser als Ausreißer interpretiert werden. Ein klassischer Anwendungsfall für die Cluster-Analyse ist die Identifizierung von Besuchergruppen.
- Klassifikation: Während bei der Cluster-Analyse die Identifikation neuer Gruppen im Vordergrund steht, kommen bei der Klassifikation vordefinierte Klassen zum Einsatz. Die Zuteilung erfolgt anhand übereinstimmender Merkmale einzelner Daten aus dem Gesamtbestand. Eine gängige Methode zur automatischen Klassifikation von Daten stellt der Entscheidungsbaum (decision tree) dar. Bei jedem Knoten wird ein Merkmal des Objekts abgefragt, dessen Vorhanden- oder Nichtvorhandensein über die Wahl des folgenden Knotens entscheidet. Im E-Commerce lässt sich dieses Verfahren anwenden, um Kunden in verschiedene Segmente einzuteilen.
- Assoziationsanalyse: Eine Assoziationsanalyse zielt auf die Identifizierung von Zusammenhängen im Datenbestand ab, die als Schlussregeln formulierbar sind. Im E-Commerce lässt sich diese Data-Mining-Methode einsetzen, um Korrelationen einzelner Produkte in typischen Warenkörben nach dem Muster „Wenn Produkt A gekauft wird, dann wird auch Produkt B gekauft“ zu identifizieren.
- Regressionsanalyse: Mithilfe von Regressionsanalysen werden im Rahmen des Data-Minings Modelle erstellt, die eine abhängige Variable durch verschiedene unabhängige Variablen erklären sollen. In der Praxis lässt sich beispielsweise eine Prognose für den Absatz eines Produkts erstellen, indem man den Produktpreis und das durchschnittliche Kundeneinkommen in einem Regressionsmodell in Beziehung setzt.
Grenzen des Data-Minings
Beim Data-Mining kommen statistische Verfahren zum Einsatz, die eine grundsätzlich objektive Analyse des verfügbaren Datenbestands ermöglichen. Die eher subjektive Auswahl des Analyseverfahrens sowie verschiedener Algorithmen und Parameter auf Grundlage gewisser Zielvorstellungen kann jedoch zu einer – möglicherweise erwünschten – Verfälschung der Ergebnisse führen. Umgehen lassen sich solche Effekte durch die Auslagerung von Data-Mining-Prozessen an externe Dienstleister.
Zu guter Letzt ist zu beachten, dass Data-Mining lediglich Ergebnisse in Form von Mustern und Querverbindungen liefert. Antworten lassen sich erst gewinnen, wenn die Analyseergebnisse hinsichtlich vorhergehender Fragestellungen und Zielsetzungen interpretiert werden.