Clusteranalyse mit sehr hoher Fallzahl

Hallo,

ich habe folgendes Problem: Ich möchte eine explorative (somit hierarchische) Clusteranalyse durchführen. Mein Datensatz ist aber mit knapp 17.000 Fällen sehr groß. Somit bricht mir SPSS schon bei der Durchführung ab. Aber abgesehen davon, könnte ich auch bei 17.000 Fällen das Dendrogramm kaum mehr lesen. Der einzige Ausweg, den ich zurzeit sehe, ist eine Zufallsstichprobe zu ziehen und mit dem Ergebnis dann ein partionierendes Verfahren (Clusterzentrenanalyse in SPSS), bei dem ich die Anzahl der Cluster vorgebe, durchzuführen. Aber auch bei der Zufallsstichprobe ist durch die große Anzahl der Fälle das Dendrogramm schlecht zu lesen.

Hat jemand eine Möglichkeit, wie ich mit einer solch großen Fallzahl eine Clusteranalyse (hierarchisch) durchführen kann? Gibt es andere Programme, welche man mir empfehlen kann, die die Analyse rechnen und bei denen das Ergebnis auch anschaulich interpretierbar ist?

Vielen Dank und beste Grüße

Michael

Hi Michael,

hier hat man sich schon mal damit beschäftigt:
http://www.nabble.com/Cluster-Analysis—Seeds-neede…

Andere Möglichkeit: Höhere SPSS-Version oder mehr Speicher.
Grüße,
JPL

Hallo,

vielen Dank für den Link, sehr interessant! Aber mein Problem fängt schon etwas früher an. Nehmen wir mal an, ich finde einen PC mit genügend Power um die hierachische Clusteranalyse zu rechnen. Das Dendrogramm würde doch dann locker über dutzende A4 Seiten gehen. wie soll man denn sowas interpretieren. Ich dachte, dass es da vielleicht noch mehr Hilfen gibt.

Vielleicht fällt ja jemanden noch etwas ein.

beste Grüße

Michael

Hi Michael,

auch wenn meine SPSS Zeiten schon länger zurück liegen, meine ich mich zu erinnern, dass man über die Iteratiosschritte ablesen kann, welches element welcher Gruppe zugeordnet wurde, und dass man sich die endgültige Zuordnung im sheet speichern lassen kann.
Grüße,
JPL

Hallo!

Wie soll das denn funktionieren? Die hierarchische Clusteranalyse nimmt meines Wissens nach doch gar keine eindeutige Zuordnung vor?

Lieben Gruß
Patrick

Hallo!

Vielleicht ist die hirarchische Clusteranalyse im vorliegenden Fall nicht geeignet, das Problem anzugehen?

Natürlich würde ich auch immer zu dieser Analyse tendieren, da sie mit der Ward’s Methode sehr viele Vorteile im Vergleich zu allen anderen Analysen bietet (Verwendung des Varianzkriteriums, etwa gleich große Clustergrößen).

Aber wie wäre es denn, eine partitionierende Clusteranalyse über den k-means Algorithmus zu rechnen? Da musst Du zwar eine feste Zahl an Clustern vorgeben, erhälst dann aber die Beschreibung der Clusterzentren als deskriptive Ausgabe und kannst die Versuchspersonen den Clustern auch zuordnen lassen.

Da eine deskriptive Auswertung der Versuchspersonen in Deinem Fall doch gar nicht sinnvoll (zu viele?) scheint, ist doch die Clusterbeschreibung und -größe als Analyseergebnisse völlig ausreichend?

Lieben Gruß
Patrick

Hi patr1k.
Hm, auch wieder wahr.
Ist wohl doch zu lange her, dass ich das mal gemacht habe.
Danke und Gruß,
JPL