Hierarchische Clusteranalyse: Was sie kann und wann sie zum Einsatz kommt

Wie Sie die hierarchische Clusteranalyse nutzen können, um das Maximum aus Ihren Datensätzen herauszuholen

Was ist die hierarchische Clusteranalyse?

Wer mit großen Datenmengen arbeitet und die darin oftmals verborgen liegenden Informationen herausarbeiten möchte, braucht entsprechende Verfahren. Eines der am häufigsten genutzten Verfahren im Bereich des Data Mining ist die Clusteranalyse.

Ziel der Clusteranalyse ist es, die Beobachtungen beziehungsweise die einzelnen Datenpunkte in homogene Gruppen einzuteilen. Alle Mitglieder einer Gruppe (also eines Clusters) sollten sich hinsichtlich der gewählten, relevanten Merkmale möglichst ähnlich sein – die verschiedenen Cluster sollten sich deutlich voneinander unterscheiden.

Die hierarchische Clusteranalyse steht für einen speziellen Ansatz: hierbei werden die verschiedenen Cluster in immer größere Gruppen zusammengefasst, sodass ein hierarchischer Aufbau von sehr kleinen bis sehr großen Clustern entsteht. Vergleichbare Ansätze sind beispielsweise auch in der Biologie zu finden, wenn Tiere klassifiziert werden. Auch hier können vom einzelnen Tier ausgehend immer größere Gruppen mit bestimmten gemeinsamen Merkmalen gebildet werden. Und genauso lässt sich auch mit teils abstrakten Daten arbeiten. Das Clustern findet dabei in drei Schritten statt:

  1. Bestimmung der Ähnlichkeit (Ähnlichkeitsmaße und Distanzmaße)
  2. Auswahl des Cluster-Algorithmus, der die Merkmalsträger (Daten) zusammenfasst
  3. Bestimmung der Clusteranzahl

Agglomerative und divisive Clusteranalyse

Die hierarchische Clusteranalyse selbst kann wiederum auf zwei verschiedene Arten durchgeführt werden. Sie unterscheiden sich hinsichtlich der eingesetzten Algorithmen, die zur Einteilung der Daten verwendet werden.

  • Agglomerative Clusteranalyse: Beim agglomerativen Verfahren handelt es sich um den klassischen Ansatz, bei dem sich von den kleinsten Gruppen zu immer größeren vorgearbeitet wird (Bottom-up-Verfahren).  Ein bekanntes Beispiele für ein agglomeratives Verfahren ist die Ward-Methode.
  • Divisive Clusteranalyse: Bei der divisiven Clusteranalyse werden alle Objekte zunächst in ein großes „Megacluster“ zusammengefasst und dann nach und nach in kleinere Cluster unterteilt (Top-down-Verfahren).

Das agglomerative Clusterverfahren ist jedoch jenes, das in der Praxis in den allermeisten Fällen genutzt wird.

Die hierarchische Clusteranalyse veranschaulicht: das Dendrogramm

Die Struktur, die durch das hierarchische Clustern entsteht, lässt sich in einem speziellen Baumdiagramm abbilden: das sogenannte Dendrogramm. Die Wurzel des Baumdiagramms repräsentiert das Megacluster, das alle Objekte beinhaltet, jede Abzweigung steht für eine weitere Aufteilung. Mithilfe des Dendrogramms lässt sich auch eine bestimmte Clusterzahl darstellen. Dafür muss das Diagramm nur an der entsprechenden Knotenstelle „durchgeschnitten“ werden.

Hierarchische Clusteranalyse: Dendrogramm

Voraussetzungen für hierarchische Clusteranalysen

Damit Datensätze mithilfe von hierarchischen Verfahren ausgewertet und verarbeitet werden können, müssen bestimmte Voraussetzungen erfüllt sein. Nur dann stehen am Ende valide Ergebnisse, die weitere Schritte in der Analyse ermöglichen.

Voraussetzung 1: klare, standardisierte Datensätze und Variablen

Um eine aussagekräftige hierarchische Clusteranalyse durchführen zu können, sollten die vorliegenden Daten so klar strukturiert wie möglich sein – und im Idealfall werden alle Variablen vor der Analyse standardisiert. So wird vermieden, das Daten aus unterschiedlichen Dimensionen zu einer Verzerrung in der Analyse führen. Das kann beispielsweise geschehen, wenn durch eine fehlende Standardisierung eigentlich gleichwertige Merkmale plötzlich eine unterschiedliche Gewichtung bekommen. 

Voraussetzung 2: Ähnlichkeit zwischen den Objekten muss mathematisch quantifizierbar sein

Die standardisierten Variablen gehen Hand in Hand mit einer weiteren Voraussetzung, die für die hierarchische Clusteranalyse erfüllt sein muss. Denn die Daten können mithilfe des Algorithmus nur dann eingeteilt und klassifiziert werden, wenn die entsprechenden Merkmale mathematisch quantifizierbar sind.

Das bedeutet in der Praxis: Merkmale, die nicht konkret messbar sind und mit Maßen wie dem Distanzmaß oder dem Ähnlichkeitsmaß beschrieben werden können, eignen sich nicht zur Clustererstellung. Dieser Fakt sollte unbedingt im Hinterkopf behalten werden, wenn beispielsweise eine Umfrage erstellt wird, auf deren Basis später die Clusteranalyse erfolgen soll. Offene Fragen mit Freitextfeldern oder komplexen Antwortmöglichkeiten erschweren die Analyse unnötig, da die Informationen entweder erst in quantifizierbare Daten umgewandelt werden müssen oder gar nicht genutzt werden können.

Voraussetzung 3: keine Korrelation zwischen den gewählten Merkmalen

Auch sollte möglichst vermieden werden, dass die einzelnen Variablen für die Clusterbildung miteinander korrelieren. Eine Korrelation führt ebenfalls zu Verzerrungen in der Analyse und kann die Ergebnisse verfälschen oder sogar unbrauchbar machen. Je weniger die einzelnen Merkmale voneinander abhängig sind, desto besser sind sie für die hierarchische Clusteranalyse geeignet.

Hierarchische Clusteranalyse: Beispiele

Die hierarchische Clusterlösung kann in einer Vielzahl von Bereichen eingesetzt werden. Neben der Nutzung in der klassischen Psychologie oder Statistik sind beispielsweise auch Datenanalysen zu Marketingzwecken immer wichtiger, um für Unternehmen die richtigen Entscheidungen treffen zu können. Haben Sie beispielsweise durch Trackingtools auf Ihrer Website oder Ihrem Webshop Daten gesammelt oder mithilfe einer Marktforschungsumfrage relevante Informationen gesammelt, können Sie diese durch eine Clusteranalyse auswerten.

Beispiel 1: Clusteranalyse zur Shop-Optimierung

Sie haben durch die Analyse Ihrer Website erfahren, welche Kunden sich welche Produkte anschauen und wer anschließend welche Kaufentscheidung trifft. Um nun beispielsweise Ihren Webshop zu optimieren, Absprungraten zu minimieren und einen höheren Umsatz zu erzielen, können Sie diese Daten mithilfe einer hierarchischen Clusteranalyse auswerten.

Das kleinste hierarchische Cluster ist dabei jeder einzelne Besucher oder Käufer, das größte Cluster die Summe aller Besucher oder Käufer. Merkmale, die Sie nun untersuchen können, sind zum Beispiel:

  • Demografische Merkmale, soweit vorhanden (Altersklassen, Geschlecht, Wohnort – jeweils in standardisierter Form bspw. 1 = Deutschland, 0 = Ausland usw.)
  • Nutzerverhalten (Anzahl der besuchten Produktseiten, Kaufentscheidung ja/nein, Ort des Abbruchs usw.)

So können Sie sich ein genaues Bild machen und Ihren Webauftritt entsprechend optimieren.

Beispiel 2: Clusteranalyse zur Produktbewertung

Sie planen, ein neues Produkt auf den Markt zu bringen und lassen dafür verschiedene Varianten von einer ausgewählten Fokusgruppe oder einem zufällig gewählten Publikum testen und mithilfe eines Fragebogens bewerten. Die Clusteranalyse kann Ihnen nun dabei helfen zu verstehen, welche Produkte aufgrund welcher Merkmale besonders gut ankommen und wo es noch Verbesserungspotenzial gibt.

Auch wenn die hierarchische Clusteranalyse eine eher etwas aufwändige Clusterlösung im Bereich der Datenauswertung ist und etwas statistisches Grundwissen erfordert, sind die Erkenntnisse, die Sie aus ihr ziehen, den Aufwand in den meisten Fällen wert.

Starke Tools für Neugierige – SurveyMonkey