Erkennen von maschinell übersetzten Texten

Hallo!

Ich schreibe demnächst eine Seminararbeit über die Lokalisierung von Websites (Sprachpaar: Englisch/Deutsch). Mein Datenmaterial umfasst unter anderem Seiten, deren Inhalt ganz offensichtlich maschinell übersetzt wurde, worauf jedoch von den Betreibern nur in manchen Fällen auch klar hingewiesen wird. Nun komme ich aber in einer wissenschaftlichen Arbeit mit der Aussage, Text XY sei ein maschinell übersetzter Text, in Teufels Küche, weil ich diese womöglich nicht beweisen kann.

Daher nun meine Frage an die Linguisten und Übersetzer unter euch: Gibt es einen Test, mit dem ich einen Text darauf überprüfen kann, ob er von einem Menschen oder von einer Maschine übersetzt wurde? Also eine Art „Turing-Test“ für Texte? So etwas könnte durchaus nützlich für meine Arbeit sein.

Gruß
Stephan

Das ist wohl unmöglich, unlogisch.
Angenommen, du (ob nun Mensch oder Algorithmus) kennst alle Merkmale, die eine maschinelle Übersetzung von einer (guten) menschlichen Übersetzung unterscheiden, dann kannst du erstere nachmachen, also einen Text nach Art einer maschinellen Übersetzung erstellen, den jemand anderes mit eben deinen Fähigkeiten unbedingt für eine maschinelle Übersetzung halten müßte. Oder andersrum.

Servus,

im konkreten Einzelfall lässt sich das daran erkennen, dass idiomatische Ausdrücke der Quellsprache Wort für Wort übersetzt sind, somit in der Zielsprache als Fremdkörper auffallen.

Eine hübsche Episode dazu, die in der Übersetzerszene erzählt wird - wenn sie nicht wahr ist, ist sie gut erfunden:

Ein deutscher Techniker sollte die Anleitung zu Aufbau und Installation einer Anlage schreiben, die der chinesische Kunde zur Einsparung von Kosten mit eigenen Leuten aufstellen wollte. Auch die Übersetzung der Anleitung wollte er selbst besorgen.

In dem Text stand unter anderem: „Weil sich der einmal eingerichtete Rahmen später nicht mehr justieren lässt, ist dringend darauf zu achten, dass die Anlage von Anfang an sauber im Wasser steht.“

Beim Kunden wurde ein extra Becken für diesen Zweck betoniert; wer den Ersatz für die ruinierte Elektronik bezahlt hat, ist nicht überliefert.

Schöne Grüße

MM

Hallo Stephan,

ich fürchte, einen (computergestützten) Test, der eine verlässliche Aussage darüber macht, ob ein Text maschinell oder manuell übersetzt wurde, kann es nicht geben. Denn wenn die Programmierer einem Computer nur schwer beibringen können, wie man einen idiomatischen Ausdruck erkennt und übersetzt, wie sollen andere Programmierer anderen Computern beibringen, wie man ebensolche Fehler in Übersetzungen erkennt?

Ergo: Du wirst die Texte manuell überprüfen müssen. So eine Methode ist meines Erachtens auch in einer wissenschaftlichen Arbeit zulässig, wenn Du vorher verständliche Kriterien festlegst, auf die Du die Texte untersuchst. Wenn nun die für eine maschinelle Übersetzung typischen Fehler A, B, C in einem Text häufig auftreten, kannst Du dann die begründete Vermutung (wenn auch nicht die sichere Feststellung) anstellen, dass der Text maschinell übersetzt wurde. Mit absoluten Sicherheiten wäre ich ohnehin vorsichtig im Bereich der Sprach- und sonstigen Geisteswissenschaften.

Welche Kriterien kann man nun festlegen? Die bereits erwähnten idiomatischen Ausdrücke sind so ne Sache… Denn auch einem mittelmäßigen menschlichen Übersetzer kann es passieren, dass er sie nicht erkennt bzw. falsch übersetzt. Und wüsstest Du auf den ersten Blick, welche der folgenden Fehlübersetzungen von einem Sechstklässler und welche von Google stammt:

„John makes Mary circuit.“
„John makes ending with Mary.“

Eine gute menschliche Übersetzung erkennst Du selbstverständlich daran, dass sie sprachlich und inhaltlich korrekt ist und auch den Stil des Originaltextes wiedergibt.

Für eine schlechte menschliche und eine (per se schlechte) maschinelle Übersetzung fielen mir aus dem Stegreif folgende Punkte ein:
Da die Maschine bei der Übersetzung in der Regel einzelne Sätze (oder sogar nur Wörter) betrachtet und keine längeren Texte, ist ein typischer Fehler, dass Personalpronomen im Laufe eines Texts wechseln können (wenn z.B. „you“ mal mit „du“, mal mit „Sie“, mal mit „Euch“ und mal mit „man“ wiedergegeben wird). Ein menschlicher Übersetzer (auch ein schlechter) wird, auch wenn er ein falsches Pronomen verwendet, dieses vermutlich konsequent im ganzen Text verwenden.
Auf der anderen Seite unterlaufen einem (schlechten) menschlichen Übersetzer vermutlich deutlich mehr Rechtschreibfehler als einer Maschine – denn letztere entscheidet sich vielleicht für die falsche Übersetzung, wenn mehrere für einen Begriff zur Auswahl stehen. Da diese aber aus einem orthographisch korrekten Fundus ausgewählt wird, kann sich eigentlich kein Rechtschreibfehler einschleichen.

Ich denke, Dir werden beim Durchsehen der von Dir subjektiv als maschinell übersetzt bewerteten Texte noch mehr typische Fehler auffallen, aus denen Du Dir einen Kriterienkatalog erstellen kannst. Du solltest aber sicherheitshalber noch einmal Rücksprache mit dem/der Dozenten/in halten, ob er/sie einen solchen „Test“ für ausreichend erachtet und/oder noch weitere Vorgaben/Ideen hat. Meine Dozenten seinerzeit waren in der Regel mit solchen begründeten Vermutungen zufrieden, da Sprachwissenschaft ohnehin in den seltensten Fällen mit absoluten Sicherheiten arbeitet.

Gruß,
Stefan

Bei „水平“ für „waagerecht“ könnte man schon auf die Idee kommen, denn die Schriftzeichen bedeuten „Wasser-Gerade“. (shuǐpíng)
(Das könnte übrigens ein Kate-scher Japonismus im Chinesischen sein.)

Hallo Stephan und Stefan,

Ich denke, Dir werden beim Durchsehen der von Dir subjektiv
als maschinell übersetzt bewerteten Texte noch mehr typische
Fehler auffallen, aus denen Du Dir einen Kriterienkatalog
erstellen kannst.

Ein solcher typischer Fehler, der eigentlich NUR bei einer maschinellen Übersetzung auftreten kann: Ein relativ einfaches Wort, das im Originaltext falsch geschrieben worden ist, wird gar nicht übersetzt, sondern so übernommen, wie es da steht, da es in keinem Wörterbuch zu finden ist.

Beispiel: Im Original steht „strawberry panecake“. Jeder menschliche Übersetzer (auch ein schlechter) wird erkennen, dass es sich um einen Pfannkuchen handelt. Aber eine maschinelle Übersetzung wird wohl „Erdbeer panecake“ lauten.

Wenn im Originaltext keine Fehler enthalten waren, hat man leider Pech gehabt. Aber es gibt ja noch mehr Kriterien.

Viel Spaß bei der Abeit! Äh, Arbeit …

Schöne Grüße

Petra

Hallo!

Tut mir leid, dass ich mich erst jetzt melde. Danke für deine ausführliche Antwort. Das ist zwar nicht das, was ich mir erhofft hatte, hilft mir aber trotzdem weiter.

ich fürchte, einen (computergestützten) Test, der eine
verlässliche Aussage darüber macht, ob ein Text maschinell
oder manuell übersetzt wurde, kann es nicht geben.

Nun, an einen automatisierten Test hatte ich ohnehin nicht gedacht. Ich hatte jedoch gehofft, dass es dafür bereits eine standardisierte Methode gibt. Zumindest für irgendein Sprachenpaar.

Ergo: Du wirst die Texte manuell überprüfen müssen. So eine
Methode ist meines Erachtens auch in einer wissenschaftlichen
Arbeit zulässig, wenn Du vorher verständliche Kriterien
festlegst, auf die Du die Texte untersuchst. Wenn nun die für
eine maschinelle Übersetzung typischen Fehler A, B, C in einem
Text häufig auftreten, kannst Du dann die begründete Vermutung
(wenn auch nicht die sichere Feststellung) anstellen, dass der
Text maschinell übersetzt wurde. Mit absoluten Sicherheiten
wäre ich ohnehin vorsichtig im Bereich der Sprach- und
sonstigen Geisteswissenschaften.

Ich befürchte, das würde den Rahmen meiner Arbeit sprengen, da das nicht die zentrale Fragestellung sein soll. Vielmehr wäre das nur ein Merkmal unter mehreren, die auf den untersuchten Websites auftreten.

Welche Kriterien kann man nun festlegen? Die bereits erwähnten
idiomatischen Ausdrücke sind so ne Sache… Denn auch einem
mittelmäßigen menschlichen Übersetzer kann es passieren, dass
er sie nicht erkennt bzw. falsch übersetzt. Und wüsstest Du
auf den ersten Blick, welche der folgenden Fehlübersetzungen
von einem Sechstklässler und welche von Google stammt:

„John makes Mary circuit.“
„John makes ending with Mary.“

Eine gute menschliche Übersetzung erkennst Du
selbstverständlich daran, dass sie sprachlich und inhaltlich
korrekt ist und auch den Stil des Originaltextes wiedergibt.

Für eine schlechte menschliche und eine (per se schlechte)
maschinelle Übersetzung fielen mir aus dem Stegreif folgende
Punkte ein:
Da die Maschine bei der Übersetzung in der Regel einzelne
Sätze (oder sogar nur Wörter) betrachtet und keine längeren
Texte, ist ein typischer Fehler, dass Personalpronomen im
Laufe eines Texts wechseln können (wenn z.B. „you“ mal mit
„du“, mal mit „Sie“, mal mit „Euch“ und mal mit „man“
wiedergegeben wird). Ein menschlicher Übersetzer (auch ein
schlechter) wird, auch wenn er ein falsches Pronomen
verwendet, dieses vermutlich konsequent im ganzen Text
verwenden.
Auf der anderen Seite unterlaufen einem (schlechten)
menschlichen Übersetzer vermutlich deutlich mehr
Rechtschreibfehler als einer Maschine – denn letztere
entscheidet sich vielleicht für die falsche Übersetzung, wenn
mehrere für einen Begriff zur Auswahl stehen. Da diese aber
aus einem orthographisch korrekten Fundus ausgewählt wird,
kann sich eigentlich kein Rechtschreibfehler einschleichen.

Ich werde das Thema jedenfalls im Hinterkopf behalten für die nächste Arbeit, die bestimmt nicht allzu lange auf sich warten lassen wird :smile:

Du solltest aber sicherheitshalber noch
einmal Rücksprache mit dem/der Dozenten/in halten,

Ich werde sie sicherheitshalber noch fragen, aber ich befürchte, ihre Antwort wird auch nicht anders ausfallen als deine.

Gruß,
Stephan

Hallo Stephan,

Daher nun meine Frage an die Linguisten und Übersetzer unter
euch: Gibt es einen Test, mit dem ich einen Text darauf
überprüfen kann, ob er von einem Menschen oder von einer
Maschine übersetzt wurde?

Nö, kann s eigentlich auch nicht geben!

Eine primitive Computerübersetzung schlägt jedes Wort einfach im Wörterbuch nach und übernimmt den ersten Vorschlag, ohne irgendeinen Kontext zu berücksichtigen.

Schlechte menschliche Übersetzer machen dies genau gleich, nur langsamer!

Die Ergebnisse sind nicht voneinander unterscheidbar.

Auch das nicht gefundene Wörter 1:1 übernommen werden ist in solchen Fällen bei menschlicher Übersetzung üblich.

Auch, dass der Satzbau des Originals, bzw. der Muttersprache des schlechten Übersetzers, in die Zielsprache übernommen wird, ist in beiden Fällen gleich.

Das einzige was man automatisch herausfinden könnte, wäre wohl welches Wörterbuch verwendet wurde. Wenn immer der erste Eintrag im Wörterbuch verwendet wird, kann es da kleine Unterschiede bei den Vorschlägen geben.

MfG Peter(TOO)