Ähnlichkeitsbewahrende Hashfunktionen: MinHash

Hallo Allerseits,

ich beschäftige mich derzeit mit ähnlichkeitsbewahrenden Hashfunktionen (in Bezug auf Texte) und bin dazu unter anderem auf das MinHash Verfahren von Broder gestoßen.

Dazu habe ich eine Verständnisfrage:

Die Dokumente im Korpus werden in Shingles aufgeteilt, die disjunkte Menge aller (gehashten) Shingles in allen Dokumenten ergibt das Universum. Nun wähle ich zufällig Permutationen des Universums aus und wähle davon abhängig von k (welches die Menge der Permutationen bestimmt) jeweils das Minimum für jedes Dokument und jede Hashfunktion.

Das weitere vorgehen verstehe ich nicht. Wie kann ich daraus die Ähnlichkeit zwischen den Dokumenten ablesen!?

Ich habe versucht, mich hier am Beispiel http://www.rn.inf.tu-dresden.de/uploads/Studentische… auf Seite 20 zu orientieren. Am Ende jedoch scheint die ganze Sache mit den Permutationen keinen Einfluss mehr auf das Bestimmen der Ähnlichkeit zu haben.

Ich hoffe hier ist ein Experte im Forum unterwegs und kann mir diesbezüglich einen Tipp geben :smile:

VIelen Dank!