DeepL und ich oder Sinn und Unsinn einer KI-Übersetzung

„A quick copyediting job?“ – so oder so ähnlich lautete das Betreff wie auch die wesentliche Frage einer Anfrage, die mich vor einiger Zeit per Mail erreichte. Darin wurde ich sehr höflich gefragt, wie ich, die ich doch selbst übersetze, zum Lektorat einer KI-Übersetzung stehen würde. Es ginge dabei um einen gradlinig erzählten Roman aus dem Horrorgenre, bei dessen DeepL-Übersetzung laut erster Einschätzung einer Muttersprachlerin vor allem Kleinigkeiten zu bereinigen seien wie die leidigen Du/Sie-Unstimmigkeiten, die schon fast ’naturbedingt‘ auftreten, wenn der Weg vom Englischen ins Deutsche führt. Man hätte aber Verständnis, wenn ich so etwas womöglich grundsätzlich ablehnen würde.

Einfach nur aufgrund einer Abneigung, eines Vorurteils oder schlichten Nochnichtwissens etwas generell abzulehnen, finde ich befremdlich, zumal ich von Natur aus neugierig bin. Vielmehr erschien mir diese Anfrage als Chance, Vor- und Nachteile des Einsatzes von KI in einem meiner Arbeitsbereiche als bezahltes Experiment auszuloten. Ich ließ mir also das Manuskript schicken, las es an, lektorierte ein paar Seiten probehalber für mich und berechnete meinen geschätzten Zeitaufwand als Basis meines Angebots, das prompt angenommen wurde.

Passend zum Genre startete ich mit dem Lektorat der rund 300 Seiten an Halloween. Einer der ersten Unterschiede, der bei der Arbeit mit einem maschinell übersetzten Text ins Auge springt, ist, dass es keine Tippfehler, keine doppelt großen Anfangsbuchstaben und sehr viel weniger zu überprüfenden Stellen mit möglicherweise fehlerhafter Zeichensetzung gibt. Die typischen Restverben oder überflüssigen Satzteile, die nach Umstellungen oder Umformulierungen von Sätzen im Text ‚vergessen‘ werden, sucht man hier ebenfalls vergebens bzw. man braucht sich erst gar nicht auf die Suche nach ihnen zu machen – die Maschine wägt nun mal nicht ab und Zweifel an einer einmal gewählten Übersetzungsvariante kennt sie nicht, also kann es bei ihr nie zu ‚Verschlimmbesserungen‘ kommen. Ein Großteil dessen, was beim Proofreading oder Korrekturlesen einer Übersetzung zum Alltagsgeschäft gehört, fällt also weg – das war im ersten Moment ungewohnt, ist aber letztlich natürlich eine Erleichterung bei der Arbeit.

Dafür macht DeepL ganz andere, auf den ersten Blick teils höchst überraschende Fehler, die einem menschlichen Übersetzer in dieser Form so vermutlich nie passieren würden. Einerseits hängt es geradezu sklavisch am Satzbau des Originals und versucht mit aller Gewalt, die Abfolge der Nebensätze möglichst eins zu eins vom Englischen ins Deutsche zu übernehmen. Dass das häufig holprig klingt, gelegentlich räumliche Verhältnisse oder auch Abfolgen von Sehen und Handeln oder dergleichen durcheinander geraten, wird in Kauf genommen. Was im Original vielleicht schlicht eine stilistisch gewollte Verkürzung war, liest sich in der Zielsprache, als sei hier ein ziemlich schlampiger Autor am Werk, der beim Schreiben stets mit den Gedanken woanders war.

Dazu hat DeepL ein grundsätzliches Problem mit der korrekten Unterscheidung von Konjunktiv und (epischem) Präteritum – ob es ein „could“ als „konnte“ oder als „könnte“ übersetzte, schien rein vom Zufall bestimmt. Ganz ähnlich sieht es bei der Zuordnung von Pronomen aus. Offenkundig ist DeepL nicht in der Lage zu erkennen, dass bei zwei aufeinanderfolgenden Sätzen das Pronomen im zweiten vom dazugehörigen Substantiv aus dem ersten Satz bestimmt wird. Es ‚begreift‘ also nicht, dass sich bei der Abfolge „On the table was a bag. It was black.“ das ‚it auf ‚the bag‘ bezieht und so wird dann daraus „Auf dem Tisch lag eine Tasche. Es war schwarz.“ Wobei man aber nicht annehmen darf, dass DeepL jedes „it“ stur als „es“ übersetzt, vielmehr scheint es die Frage „es, er oder sie“ nach irgendeiner Wahrscheinlichkeit auszuwählen, die bloß leider rein gar nichts mit dem jeweiligen Kontext oder gar den realen, sprachlichen Erfordernissen zu tun hat.

Diese Kontextblindheit und deren anzunehmendes Ausmaß ist das, was mich am meisten überrascht hat. Während ChatGPT & Co in der Lage sind, die Illusion eines in sich schlüssigen Textes zu erzeugen, in dem sich jeder Satz auf den vorangegangenen bezieht, übersetzt DeepL augenscheinlich jeden Satz für sich genommen. DeepL hat also in meinem Experiment nicht etwa einen Roman von etwas mehr als 300 Seiten übersetzt, der aus X Sätzen besteht, sondern jede Menge Einzelsätze, die zufällig in einem Dokument standen, jeweils für sich.

Das mag bei streng formalsierten kurzen Texten – Anschreiben, Behördenbriefen, Einladungsschreiben, etc. -, wo es kaum unmittelbaren Kontext und ein klares, praktisch orientiertes Kommunikationsziel gibt, funktionieren. Doch sobald wir über komplexere, erzählende Texte reden, die von fiktionalen Welten erzählen, die möglichst plastisch greifbar werden sollen für die Lesenden, oder wenn es gar um stilistische Feinheiten, um das Spiel mit der Sprache geht, muss DeepL, muss jeder ähnlich gelagerte Ansatz einer maschinellen Übersetzung scheitern.

Das zeigte sich bereits bei der Übersetzung des vorliegenden Horrorromans, der recht gradlinig, ohne große stilistische Schnörkel und frei von literarischen Ambitionen einfach eine spannende und gruslige Geschichte erzählen will – und dem genau das in der Originalversion gut gelingt. Doch schon er überforderte DeepL: Sobald die Sprache in die eine oder andere Richtung von der Norm abwich – es sich also entweder um die typischen Verkürzung im mündlichen Sprachgebrauch bei den Dialogen ging, dabei gar Slang vorkam, oder die Sprache bildhafter wurde und Metaphern gebraucht wurden -, übersetzte die Maschine Unsinn, der oft nur noch lose mit Inhalt und Form des Originals zusammenhing. Metaphern und stehende Begriffe wurden dann nicht mit ihren deutschen Entsprechungen sondern wörtlich übersetzt, für Schimpfwörter gibt es meist höchstens eine einzige Übersetzung, auch wenn im Deutschen je nach Kontext womöglich ganz andere Übersetzungsmöglichkeiten gefordert wären (die ein Wörterbuch natürlich kennt), etc.

Das Grundproblem von DeepL als Übersetzer liegt für mich am Ende darin, dass es unfähig ist zu lernen. Das klingt im ersten Moment verrückt, wo doch angeblich die LLMs und die ganzen anderen KI-Formen vor allem lernende Maschinen sind. Und sicher kann man sogenannte KI trainieren und ihr auch beibringen, sich selbst immer weiter in ihren jeweiligen Einsatzgebieten zu verbessern. Aber das funktioniert anscheinend dann am besten, wenn dieser Einsatz so speziell wie möglich ist (Stichwort Tumorerkennung aus gigantischen Datenmengen).

Doch für die Übersetzung eines Romans, um bei meinem Beispiel zu bleiben, bräuchte es eine sogenannte starke KI, die nicht nur ein sehr viel besseres Sprachverständnis mitbringt, als DeepL es derzeit hat, sie müsste auch in der Lage sein, den Text als Ganzes zu verstehen, um ihn kohärent und sinnvoll zu übersetzen. Außerdem wäre es hilfreich, die KI hätte einen Begriff davon, wie sich ein Mensch lesend einen Text erschließt, denn dieser Prozess ist ja eng mit dem Aufbau von Spannung im Text und anderen, emotionalen Prozessen verknüpft, die das Lesen für den menschlichen Adressaten erst interessant machen. Nur wer das Spiel mit Erwartungen beherrscht, wer falsche Fährten legen wie erkennen kann, einen Begriff von Vorausdeutungen und natürlich auch Doppeldeutigkeiten hat, die von Sprache zu Sprache, von Kultur zu Kultur schon mal stark variieren können, kann diese wesentlichen Aspekte eines Romans adäquat mitübersetzen. Und last but not least müsste eine wirklich gute Übersetzungs-KI wenigstens einen Begriff davon haben, wie wir Menschen uns und die Welt erleben.

Denn wenn wir einen Roman, ein Theaterstück, ein Gedicht oder sonst etwas schreiben, heißt das ja nichts anderes, als dass wir Worte für außersprachliche Erfahrungen finden müssen, um Sprachbilder zu formen, die hinterher hoffentlich im Lesenden eine ähnliche Erfahrung erzeugen. Und wenn wir einen Roman, ein Gedicht, ein Theaterstück oder dergleichen übersetzen, dann suchen wir in der Zielsprache nach den Worten und Bildern, um eine möglichst ähnliche Erfahrung zu erzeugen. Die KI dagegen hat nichts als Zeichen, Worte und Sätze genannt, mit denen sie hantiert, was sich alles dahinter verbirgt, worum es eigentlich geht, davon ahnt sie nichts.

Deshalb lautet mein Fazit: DeepL & Co lassen sich durchaus als Werkzeug einsetzen, um für eine Phrase oder auch ganze Sätze Übersetzungsvorschläge zu generieren, aus denen dann ein Mensch diejenige wählt, die am besten passt. Schließlich kennt niemand jeden möglichen Begriff, wir alle haben manchmal Blackouts und landen im Kopf in Sackgassen, wo solche Hilfe gefragt ist. Und man kann sicherlich mit maschineller Hilfe auch zweisprachige Einladungsschreiben oder ähnliches erzeugen. Alles, was darüber hinaus geht, gehört jedoch in die Hände fähiger, menschlicher Übersetzer:innen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert