Doppelte Wörter löschen in Textdatei

f1reX · 23. April 2011 um 11:50

Hallo,

ich such ein Programm, dass doppelte Wörter und Zahlenstränge in folgendem Schema löscht: Wenn die Zahlen/Buchstabenreihe später nochmal vorkommt, dann soll das erste Auftreten gelöscht werden.

Beispiel:

test1
test2
test3
test2
test1
test4
test1

Ergebnis:
test3
test2
test4
test1

Hat jemand eine Idee wie ich das anstellen könnte? Gesamt sind es circa 15000 Einträge.

lg Mike

Wolfgang_Chiettini · 23. April 2011 um 12:26

Hallo Mike,

habe keine Ahnung und sollte in diesem Bereich auch nicht als Experte gelistet sein!?
Gruß,
Wolfgang

T_Koch · 23. April 2011 um 12:33

Hallo Mike,

das kann man programmieren. Vielleicht kann dir jemand ein kleines Programm schreiben, dass genau das tut.

Gruß
T. Koch

Walter_Kunszt · 23. April 2011 um 14:42

Such mal unter
http://www.perlunity.de/perl/forum/thread_019123.shtml
vielleicht kannst Du damit etwas anfangen

mfg Walter

Uwe_Waldhaeusl · 23. April 2011 um 22:13

Hallöchen,
habe eine etwas unkonventionelle Lösung, ohne Programmierung.

in EXCEL kannst du wie folgt vorgehen:

die Datem in die Spalte A
in Spalte B die Reiehnfolge 1,2,3… neben deinen Zahlen von A
Beispiel:
test1 1
test2 2
test3 3
test2 4
…
Spalte A und B markieren, sortieren nach B: absteigend
unbedingt vor die Zeile 1 eine leere Zeile einfügen!!!
Spalte A markieren, Filter > erweitert, in Listenbereich und Kriterienbereich Tabelle1!$A:blush:A eingeben, danach keine Duplikate selektieren
nun wieder A und B markieren und filtern auf B aufsteigend
Voila, dein Ergebnis sollte nun sein wie gewünscht!

Hoffe dies hat geholfen!

Gruß
Uwe

RST · 27. April 2011 um 10:30

Hallo Mike,
tut mir leid, daß ich mich jetzt erst melde, aber ich war unterwegs ohne Netzzugang.
Leider habe ich keine Idee, wie ich Dir helfen könnte.
Vielleicht das nächste Mal.
Gruß
Roland

Hallo,

ich such ein Programm, dass doppelte Wörter und Zahlenstränge
in folgendem Schema löscht: Wenn die Zahlen/Buchstabenreihe
später nochmal vorkommt, dann soll das erste Auftreten
gelöscht werden.

breausr · 27. April 2011 um 10:58

Hi,

unter Unix hätte ich zwei Möglichkeiten:

$ sort -u
gibt die Eingabe sortiert ohne Dublett aus.

oder mit Hilfe eines awk Scripts:
-BEGIN Section: alle Wörter inkl. Anzahl Treffer merken
-MAIN Section: alle Treffer bis auf den Letzten ignorieren

ggf. kann diese Methode mit VBS oder Host Scripting auch unter MS abgebildet werden.

Gruß
Bruno

walter_8cfe94 · 24. Juli 2011 um 18:57

hallo, ist mir leider auch nicht bekannt.