Hallo zusammen,
wir bearbeiten (im Bereich Buchproduktion) belletristische Texte,
deren Umfänge von etwa 150.000 bis 1.500.000 (Unicode-)Zeichen
variieren (u.U. auch mehr). In Texten kommt natürlich wörtliche Rede
(also Anführungszeichen [einfache und doppelte]) vor. Diese
Anführungszeichen werden von den Autoren (bzw. den Algorithmen von
Word & Co) eigentlich in 90% der Fälle fehlerhaft erfasst.
In mir gärt schon seit längerem die Idee, mal einen eigenen Parser
für dieses leidige Thema zu schreiben, der falsche in richtige
Anführungen tauscht.
Ich bin also auf der Suche nach Algorithmen, Ideen, Tipps, wie ich
dieses Thema mal angehen könnte (Programmiersprache etc. ist erst mal
unerheblich, ich brauche erst mal einen Marschweg).
Prinzipiell habe ich mir 2 Wege ausgedacht und würde gern mal weitere
Meinungen dazu einholen:
1.
Entscheidung über den unmittelbaren Kontext, z.B.
Leerzeichen " Zeichen = doppelte Anführung
Zeichen " Leerzeichen = doppelte Abführung
Bindestrich " Zeichen = doppelte Anführung
usw.
Pärchen suchen. Wenn ich eine Anführung finde, gibt es eine
korrespondierende Abführung?
Neu Erstellen. Wenn ich eine Anführung finde, muss das nächste
Vorkommen eine Abführung sein usw.
Was meint ihr? Ich bin da noch etwas unsicher…
Danke
Gruß
Tobias