Vergleich von Files auf (ungefähr) gleichen Inhalt

Hallo

Ich möchte von etwa 50’000 Files herausfinden, ob es solche hat, die ungefährt gleich sind (also z.B. einfach ein Word-Dok, dem ein Wort hinzugefügt wurde) - es reicht also nicht, dass nur die Grösse oder der File-Name berücksichtig wird!

Gib es solches Perl-Skripts irgendwo? Ist ein solches Vergleich überhaupt möglich?

Herzlichen Dank im Voraus

Rgds Phil

Hi Phil,

such mal unter dem Stichwort ‚diff‘,
bzw. wenn Du einen UNIX/Linux Rechner zur Verfügung hast, gib mal ‚man diff‘ ein.
Dann kannst Du z.B. von Perl (oder aus einem Shell-Script) jeweils alle Files miteinander diff’en.
Soweit die klassische Herangehensweise. Klar, dass das ziemlich viel Zeit in Anspruch nehmen wird.
Ob es ein fertiges Tool für diese Aufgabe gibt, weiss ich nicht. Vielleicht wirst Du aber hier fündig:
http://freshmeat.net

Gruss, Ingo