Matching-Algorithmen - Grundlagenfragen

Mark_Schmidt_eac77d · 5. November 2007 um 19:08

Hallo!

Ich stehe vor dem Problem, dass ich Datensätze miteinander vergleichen muss anhand verschiedener Kriterien. Dabei soll fetgestellt werden, wie gut Datensätze dabei zueinander passen. Im konkreten Fall geht es um Bars, die anhand diverser Kriterien eingestuft werden (z.B. Publikum, Musik, Essen, Gestränke, Preis). Wie gehe ich an dieses Problem am besten ran? Kann mir einer hierzu den Namen eines Algorithmus, eine gute Webseite oder ein Buch (das wäre genial!) nennen, wo diese Probleme angegangen werden?

Vielen Dank!!

Mark

Moritz_fe1b4f · 5. November 2007 um 21:37

Hallo,

Ich stehe vor dem Problem, dass ich Datensätze miteinander
vergleichen muss anhand verschiedener Kriterien. Dabei soll
fetgestellt werden, wie gut Datensätze dabei zueinander
passen.

Wenn es dir nur um Ähnlichkeit geht, musst du dir vermutlich selbst was ausdenken.

Im konkreten Fall geht es um Bars, die anhand diverser
Kriterien eingestuft werden (z.B. Publikum, Musik, Essen,
Gestränke, Preis). Wie gehe ich an dieses Problem am besten
ran?

Du probierst, den Werten in irgend einer Form Zahlen zuzuordnen, z.B.
Publikum: 40 (Durchschnittsalter), 8 (mittleres Einkommen auf einer Skala von 1 bis 10)
Preise: 4 (Mittlerer Preis für ein Liter Bier)

Wie auch immer. Wenn du dann zwei Bars vergleichen willst, bildest du von jeweils gleichen Daten den Betrag der Differenz, gewichtest es so wie dir es passt - das musst du einfach ausprobieren.

Kann mir einer hierzu den Namen eines Algorithmus, eine
gute Webseite oder ein Buch (das wäre genial!) nennen, wo
diese Probleme angegangen werden?

Ich glaube, da steckt weniger Wissenschaft dahinter als du denkst.
Es sei denn, willst z.B. automatisch Gruppen von ähnlichen Bars finden (das wären dann sogenannte „Cluster-Algorithmen“), oder noch andere Dinge mit deinem Ähnlichkeitsmaß anstellen.

Grüße,
Moritz

Mark_Schmidt_eac77d · 7. November 2007 um 21:02

Moritz,

vielen Dank für deine schnelle und ausführliche Antwort!

Du probierst, den Werten in irgend einer Form Zahlen
zuzuordnen, z.B.
Wie auch immer. Wenn du dann zwei Bars vergleichen willst,
bildest du von jeweils gleichen Daten den Betrag der
Differenz, gewichtest es so wie dir es passt - das musst du
einfach ausprobieren.

jeps, das hört sich logisch an - so einfach habe ich da wirklich nicht gedacht!

Es sei denn, willst z.B. automatisch Gruppen von ähnlichen
Bars finden (das wären dann sogenannte
„Cluster-Algorithmen“), oder noch andere Dinge mit deinem
Ähnlichkeitsmaß anstellen.

Das wäre natürlich auch eine interessante Herangehensweise. Wenn ich das noch richtig in Erinnerung habe, geht man bei Clustern mit der Mengentheorie ran, indem man dann quasi Teilmengen bildet - korrekt? Hast du hier noch Empfehlungen zum weiterlesen?

Vielen Dank!

Mark

Moritz_fe1b4f · 7. November 2007 um 21:32

Hallo,

Es sei denn, willst z.B. automatisch Gruppen von ähnlichen
Bars finden (das wären dann sogenannte
„Cluster-Algorithmen“), oder noch andere Dinge mit deinem
Ähnlichkeitsmaß anstellen.

Das wäre natürlich auch eine interessante Herangehensweise.
Wenn ich das noch richtig in Erinnerung habe, geht man bei
Clustern mit der Mengentheorie ran, indem man dann quasi
Teilmengen bildet - korrekt?

Richtig, wobei das auf hunderte verschiedene Arten geht.

Hast du hier noch Empfehlungen
zum weiterlesen?

Ehrlich gesagt nicht so wirklich. Meine letzten Kontakte mit Clusteranalyse waren in meiner Schulzeit, da hat mich das abgeschreckt, weil mir das alles zu kompliziert war.

Die englische Wiki hat einen schönen Einstieg mit einige Links:
http://en.wikipedia.org/wiki/Cluster_analysis

Die deutsche hat ein paar Abbildungen und Details weniger, ist dafür hierzulande leichter zu verstehen:
http://de.wikipedia.org/wiki/Clusteranalyse

Der Link zu YALE dort dürfte für Programmierer recht interessant sein.

Grüße,
Moritz