Data-Mining-Tools für eine stärkere Datenanalyse
Immer mehr Unternehmen verfügen über große Mengen von Daten, die für die Kundensegmentierung, die Vertriebssteuerung oder das Target-Marketing wertvolle Ressourcen sind. Solange diese Datensätze aber nicht hinreichend analysiert und ausgewertet werden können, sind sie für ein Unternehmen wertlos. Es gibt Unmengen an Informationen, aber nur wer sie zu nutzen weiß, hat auch etwas davon. Darauf weist auch der Trend- und Zukunftsforscher John Naisbitt mit seinem vielzitierten Satz hin:
„We are drowning in information, but starving for knowledge.“
– der Trend- und Zukunftsforscher John Naisbitt über wachsende Mengen digitaler Daten.
Data-Mining-Tools helfen dabei, die Menge an Daten zu bewältigen und in ihnen die möglicherweise entscheidenden Trends und Muster zu erkennen. Zu diesem Zweck wird die Data-Mining-Software immer komplexer und die Auswahl an Tools immer größer. Damit Sie die Übersicht behalten, stellen wir Ihnen die wichtigsten Data-Mining-Programme im Vergleich vor.
Techniken, Aufgaben und Komponenten des Data-Minings
Als Data-Mining bezeichnet man algorithmische Methoden der Datenauswertung, die auf besonders große und komplexe Datensätze angewendet werden. Das Data-Mining soll verborgene Informationen aus großen Datenbeständen (insbesondere aus Massendaten, sog. Big Data) herausholen und damit noch besser verdeckte Zusammenhänge, Trends und Muster erkennen, die sich in ihnen abbilden. Dabei helfen Data-Mining-Tools. Der Begriff „Data-Mining“ meint weder die Datengenerierung noch die Datensätze selbst, sondern ausschließlich die Praxis der Datenanalyse. Viele der eingesetzten Verfahren stammen aus der Statistik; Data-Mining ist jedoch kein rein statistisches, sondern ein interdisziplinäres Verfahren, das Erkenntnisse aus der Informatik und Mathematik mit Techniken des Machine-Learnings (insbesondere dem unüberwachten Lernen) und der künstlichen Intelligenz verbindet. Diese leistungsstarken Methoden werden in Data-Mining-Software integriert, um die Auswertung großer Datensätze zu ermöglichen.
Text-Mining ist eine Sonderform des Data-Minings, die durch die Beliebtheit von Sprachsoftware und Sprachtechnologie eine besondere Relevanz bekommt. Die Informationsgewinnung bezieht sich hier nicht auf Datensätze, sondern auf Textdokumente. Aus großen Textmengen (Fachartikel oder Dokumente des Unternehmens) werden Kernaussagen extrahiert. Damit ist das Text-Mining für Unternehmen etwa bei Recherchen für neue Projekte hilfreich.
Dennoch gilt: Auch für erfolgreiches Data-Mining müssen Anwender ein gutes Verständnis von den Datensätzen haben. Denn nur dann können sie die Data-Mining-Werkzeuge sinnvoll und aussagekräftig einsetzen – Programmierkenntnisse sind hierzu jedoch nicht erforderlich –, implizite Zusammenhänge erkennen, Prognosen über Absatzzahlen treffen oder Kaufverhalten analysieren.
Einzelne Aufgaben des Data-Minings:
- Klassifikation: Ordnet einzelne Datenobjekte bestimmten vordefinierten Klassen (z. B. Katzen oder Fahrräder) zu, die diesen Klassen bisher nicht zugeordnet waren; zur Klassifikation eignet sich besonders die sogenannte Entscheidungsbaumanalyse.
- Abweichungsanalyse bzw. Ausreißeranalyse: Identifiziert Objekte, die den Regeln der Abhängigkeiten bei verwandten Objekten nicht entsprechen; dadurch lassen sich Ursachen für die Abweichungen finden.
- Clusteranalyse: Identifiziert Häufungen von Ähnlichkeiten und bildet danach Gruppen von Objekten, die sich hinsichtlich bestimmter Aspekte stärker ähneln als andere Gruppen; im Gegensatz zur Klassifikation sind die Gruppen (bzw. Cluster) nicht vordefiniert und können je nach analysierten Daten unterschiedliche Formen annehmen.
- Assoziationsanalyse: Deckt Korrelationen zwischen zwei oder mehreren voneinander unabhängigen Items auf, die zwar in keinem direkten Zusammenhang stehen, aber vermehrt gemeinsam auftreten.
- Regressionsanalyse: Deckt Beziehungen zwischen einer abhängigen Variable (z. B. dem Produktabsatz) und einer oder mehreren unabhängigen Variablen (z. B. dem Produktpreis oder dem Kundeneinkommen) auf; wird u. a. eingesetzt, um Prognosen über die abhängige Variable zu machen (z. B. eine Absatzprognose).
- Predictive Analytics: Eigentlich eine übergeordnete Aufgabe, die darauf abzielt, Vorhersagen über Zukunftstrends zu treffen; bedient sich dazu u. a. des Data-Minings und arbeitet mit einer Variable (Prädikator), die für einzelne Personen oder größere Entitäten gemessen wird.
Mithilfe der Assoziationsanalyse wurden aufschlussreiche Zusammenhänge bei Kaufentscheidungen unterschiedlicher Produkte hergestellt, womit die Warenkorbanalyse entscheidend verbessert werden konnte. Mit dieser Methode werden Kaufempfehlungen bei Online-Versandhändlern ermittelt.
Die unterschiedlichen Verfahren kann man grob unterteilen in sogenannte Beobachtungsprobleme (Abweichungsanalyse, Clusteranalyse) und Prognosenprobleme (Regressionsanalyse, Klassifikation). Eine detaillierte Erklärung unterschiedlicher Methoden des Data-Minings finden sich im TecWorkshop von computerwoche.de.
Data-Mining-Tools im Vergleich
Für einen Vergleich der besten Data-Mining-Tools stellen wir nun die Werkzeuge RapidMiner, WEKA, Orange, KNIME und SAS vor. Es hat sich bewährt, dass Anwender mehrere Tools verwenden, da Data-Mining-Werkzeuge jeweils unterschiedliche Stärken haben, die miteinander kombiniert werden können. Data-Mining-Tools sind nämlich oft miteinander kompatibel. Doch auch mit einem einzigen guten Allrounder-Tool kann man als Einsteiger schon eine Menge ausrichten.
RapidMiner
RapidMiner (zuvor: YALE, „Yet Another Learning Environment“) ist eines der beliebtesten Data-Mining-Tools. Im Jahr 2014 war es laut einer Umfrage von KDnuggets vor dem Tool R das meistverwendete Data-Mining-Werkzeug. Es ist kostenfrei zugänglich und auch ohne besondere Programmierkenntnisse leicht anzuwenden. Dennoch bietet es eine große Auswahl an Operatoren. Besonders Start-ups greifen häufig auf dieses Tool zurück.
RapidMiner wurde in Java geschrieben und beinhaltet mehr als 500 Operatoren mit unterschiedlichen Ansätzen, um Zusammenhänge in Daten aufzuzeigen – u. a. gibt es Optionen fürs Data-Mining, Text-Mining und Web-Mining, aber auch für Stimmungsanalysen (Sentiment-Analyse, Opinion-Mining). Außerdem importiert das Programm Excel-Tabellen, SPSS-Dateien und Datensätze vieler Datenbanken und integriert auch die Data-Mining-Tools WEKA und R. Damit ist es ein umfangreicher Allrounder.
RapidMiner unterstützt alle Schritte des Data-Mining-Prozesses, was auch die Visualisierung der Ergebnisse miteinschließt. Das Tool besteht aus drei großen Modulen: RapidMiner Studio, RapidMinder Server und RapidMiner Radoop, die jeweils unterschiedliche Techniken des Data-Minings ausführen. Außerdem bereitet RapidMiner die Daten vor der Analyse auf und optimiert sie zur schnellen Weiterverarbeitung. Von jedem dieser drei Module existieren eine kostenfreie und unterschiedliche kostenpflichtige Versionen.
Die besondere Stärke von RapidMiner liegt in Predictive Analytics, also in der Vorhersage künftiger Entwicklungen auf Basis der gesammelten Daten. Vergleicht man Data-Mining-Software, ist RapidMiner hier eines der stärksten Tools.
WEKA
WEKA (Waikato Environment for Knowledge Analysis) ist eine Open-Source-Software und wurde von der University of Waikato entwickelt. Das Data-Mining-Tool basiert auf Java und kann sowohl mit Windows und macOS als auch mit Linux verwendet werden. Es ist für seine umfangreichen Machine-Learning-Funktionen bekannt und unterstützt alle wichtigen Data-Mining-Tasks wie Clustering, Assoziation, Regression oder Klassifikation. Die grafische Benutzeroberfläche erleichtert den Zugang zur Software. Außerdem bietet WEKA Anschluss an SQL-Datenbanken und kann dort angefragte Daten weiterverarbeiten. Die Stärke von WEKA liegt in der Klassifikation: Das Data-Mining-Werkzeug ist für seine vielen Klassifikationen bekannt, darunter künstliche neuronale Netze, Entscheidungsbäume, ID3- oder C4.5-Algorithmen. Weniger stark ist WEKA dagegen bei anderen Techniken wie der Clusteranalyse. Hier werden nur die wichtigsten Verfahren angeboten. Ein weiterer Nachteil: WEKA kann Verarbeitungsprobleme haben, wenn große Datenmengen zu bewältigen sind – denn diese versucht das Data-Mining-Tool allesamt in den Arbeitsspeicher zu laden. Als Ausweg bietet WEKA eine einfache Kommandozeile (CLI) an, über die der Umgang mit großen Datenmengen besser gelingt.
WEKA wurde 2005 mit dem „SIGKDD Service Award“ der Association for Computing Machinery für seinen hohen Forschungsbeitrag ausgezeichnet. Das 1999 erstmals veröffentlichte Standardwerk zum maschinellen Lernen „Data-Mining: Praktische Werkzeuge und Techniken für das maschinelle Lernen“ von Eibe Frank und Ian H. Witten bezieht sich maßgeblich auf diese Software. Im Vergleich zu anderen Data-Mining-Werkzeugen hat sich WEKA also besonders für Lehr- und Forschungszwecke bewährt.
Orange
Das Data-Mining-Tool Orange existiert seit mehr als 20 Jahren und ist ein Projekt der Universität Ljubljana. Der Kern der Software wurde in C++ geschrieben, doch schon früh erweiterte man das Programm um die Programmiersprache Python, die nun als Zugriffssprache verwendet wird. Die komplizierteren Operationen werden hingegen weiterhin in C++ durchgeführt. Orange ist eine umfängliche Data-Mining-Software, die demonstriert, wie viel man mit Python ausrichten kann: Es bietet nützliche Anwendungen zur Daten- und Textanalyse sowie Features zum Machine-Learning an und im Bereich des Data-Minings arbeitet es mit Operatoren zur Klassifikation, zur Regression, zum Clustering u. v. m. Außerdem integriert dieses Data-Mining-Tool visuelles Programmieren.
Auffällig an diesem Tool: Anwender betonen immer wieder den Spaß, den sie mit dieser Data-Mining-Software im Vergleich zu anderer haben. Sowohl Neueinsteiger als auch erfahrene Nutzer sind immer wieder fasziniert von Orange. Diese Popularität verdankt sich zwei Dingen: erstens der ansprechenden Datenvisualisierung, mit der man sich gern beschäftigt; zweitens der Schnelligkeit und Leichtigkeit, mit der diese Visualisierung gelingt. Das Programm bereitet eingespeiste Daten umgehend visuell auf. Sowohl das Verständnis dieser Grafiken als auch die Weiterverarbeitung der Datenanalysen gelingen verhältnismäßig leicht und ermöglichen zügige Business-Entscheidungen. Das macht Orange zu einem optimalen Einstiegstool ins Data-Mining.
Ein weiterer Vorteil für Neueinsteiger: Den Nutzern stehen zahlreiche Online-Tutorials für das Tool zur Verfügung. Eine Besonderheit an Orange ist außerdem, dass es mit der Zeit die Vorlieben seines Anwenders kennen lernt und sich danach verhält. Dies kann die Benutzung des Data-Mining-Werkzeugs noch angenehmer machen.
KNIME
KNIME (Konstanz Information Miner) wurde von der Universität Konstanz entwickelt und ist mittlerweile bei einer großen internationalen Entwicklergemeinde beliebt. Zwar war KNIME von Anfang an für die kommerzielle Nutzung gedacht, ist aber dennoch als Open-Source-Software verfügbar. Es wurde in Java geschrieben und mit Eclipse aufbereitet. Betrachtet man diese Data-Mining-Software im Vergleich mit anderen, so fällt zunächst ihr Funktionsumfang auf: Mit mehr als 1.000 Modulen und vorgefertigten Anwendungspaketen hilft dieses Tool umfassend dabei, verborgene Datenstrukturen aufzudecken. Die Module lassen sich um weitere, kommerzielle Funktionen erweitern. Unter den Funktionen überzeugt vor allem die integrative Datenanalyse – auf diesem Gebiet ist KNIME eines der stärksten Werkzeuge und erlaubt die Integration zahlreicher Verfahren des maschinellen Lernens und des Data-Minings. Außerdem ist es besonders leistungsfähig in der Vorverarbeitung von Daten, also beim Extrahieren, Transformieren und Laden von Daten. Durch sein modulares Pipelining gilt es vor allem als ein datenflussorientiertes Data-Mining-Werkzeug. Seit 2006 wird KNIME in der pharmazeutischen Forschung eingesetzt und ist auch für den Finanzdatensektor ein starkes Data-Mining-Tool. Doch auch im Bereich Business-Intelligence (BI) wird KNIME häufig verwendet. Dort gilt KNIME als das Tool, das Predictive Analytics auch für unerfahrene Nutzer zugänglich gemacht hat. Für Neueinsteiger ist das Tool außerdem interessant, da es trotz seiner vielen starken Features nur mit einer relativ kurzen Einarbeitungszeit verbunden ist. KNIME gibt es als kostenloses wie auch als kostenpflichtiges Programm.
SAS
SAS (Statistical Analysis System) ist ein Produkt des SAS Institute, eines der weltweit größten Software-Unternehmen in Privatbesitz. SAS ist das führende Data-Mining-Tool für Business-Analysen – und auch das kostspieligste der hier aufgeführten Programme. Dafür ist es aber dasjenige, das sich am besten für den Einsatz in großen Unternehmen eignet. SAS punktet besonders im prognostischen Bereich und bei der interaktiven Datenvisualisierung, die sich optimal für große Präsentationen eignet. Grundsätzlich hat man mit dieser Data-Mining-Software eine komplexe Rundum-Ausstattung für erfolgreiches Data-Mining zur Hand. Dabei zeichnet sich das Tool durch eine sehr hohe Skalierbarkeit aus – es ist also in der Lage, seine Leistung durch das Hinzufügen von weiterer Hardware oder anderen Ressourcen proportional zu steigern. Auch das macht es zu einem leistungsstarken Werkzeug für hochwertige Business-Lösungen. Für technisch weniger versierte Nutzer verfügt es über eine grafische Oberfläche. Allerdings lässt sich diese Software nur kostenlos nutzen, wenn man eine entsprechende Lizenz von einer öffentlichen Einrichtung erhält. Grundsätzlich ist SAS also immer kostenpflichtig. Die Kosten werden auf Anfrage geregelt, spezielle Konditionen, z. B. für Behörden oder Bildungseinrichtungen, sind möglich. Es heißt, dass man ab ca. 5.500 Euro eine einjährige Nutzungslizenz erwerben kann, womit SAS auch unter den kommerziellen Tools zu den teureren Alternativen gehört. Es ist aber möglich, den Funktionsumfang individuell anzupassen und dadurch den Preis zu beeinflussen. SAS wird vor allem in Pharmabetrieben eingesetzt, wo es sich als Standard etablieren konnte. Auch im Bankensektor findet es häufige Verwendung und bietet für die Bereiche BI und Web-Mining optimale Lösungen. Hierfür verfügt es u. a. über eine eigene Business-Intelligence-Software. Damit ist es eines der mächtigsten Data-Mining-Tools auf dem Markt.
Data-Mining-Tools im Überblick
Nach dem detaillierten Vergleich der Data-Mining-Software nun noch einmal alle wichtigen Eigenschaften der Data-Mining-Tools im Überblick:
Merkmale | Programmiersprache | Betriebssysteme | Kosten/Lizenz | |
---|---|---|---|---|
RapidMiner | Starker Allrounder mit einer besonderen Stärke in Predictive Analytics | Java | Windows, macOS, Linux | Freeware, Verschiedene kostenpflichtige Versionen, Verschiedene kostenpflichtige Versionen |
WEKA | Besonders viele Methoden der Klassifikation | Java | Windows, macOS, Linux | Freie Software (GPL) |
Orange | Kreiert besonders ansprechende und interessante Datenvisualisierungen, ohne dass viele Vorkenntnisse nötig sind | Software-Kern: C++, Erweiterungen und Zugriffssprache: Python | Windows, macOS, Linux | Freie Software (GPL) |
KNIME | Das führende offene Data-Mining-Tool, das Predictive Analytics allgemein zugänglich gemacht hat | Java | Windows, macOS, Linux | Freie Software (GPL) (ab Version 2.1) |
SAS | Kostspielige, aber mächtige Data-Mining-Software für große Unternehmen | SAS Language | Windows, macOS, Linux | Eingeschränkte Freeware über Bildungseinrichtungen erhältlich, Preis nur auf Anfrage, Unterschiedlich umfangreiche Modelle möglich |