Των Frédéric Kaplan και Dana Kianfar*
Στις αρχές του περασμένου Δεκεμβρίου, όποιος ζητούσε από τη Μετάφραση Google (Google Translate) το ιταλικό ανάλογο της φράσης «Αυτή η κοπέλα είναι όμορφη», λάμβανε ένα περίεργο αποτέλεσμα: «Questa ragazza è abbastanza», που κυριολεκτικά σημαίνει «Αυτή η κοπέλα είναι αρκετά». Η ομορφιά κατέληξε «lost in translation» -χαμένη στη μετάφραση.
Πώς όμως ένας από τους πιο αποδοτικούς αυτόματους μεταφραστές στον κόσμο, προικισμένος με ένα μοναδικό γλωσσικό κεφάλαιο, αποτελούμενο από δισεκατομμύρια φράσεις, μπορεί να διαπράξει ένα τόσο χονδροειδές σφάλμα; Η απάντηση είναι απλή: η φράση πρώτα περνάει από τα αγγλικά. Η λέξη «όμορφη» μπορεί να αποδοθεί από τη λέξη «pretty», η οποία ταυτόχρονα σημαίνει «όμορφη» και «αρκετά». Η δεύτερη έννοια ανταποκρίνεται στην ιταλική λέξη «abbastanza».
Όταν γνωρίζεις αυτή την αρχή της λειτουργίας του, μπορείς εύκολα να δημιουργήσεις περίεργες και συχνά διασκεδαστικές φράσεις. Το «Νομίζω ότι έχετε έναν εξαιρετικό πρόεδρο» μετατρέπεται σε «Penso che tu abbia una bella sedia», δηλαδή: «Νομίζω ότι έχεις μια όμορφη καρέκλα», καθώς μία από τις μεταφράσεις της λέξης «πρόεδρος» στα αγγλικά είναι chair. Η χρήση των αγγλικών ως γλώσσα βάσης μερικές φορές οδηγεί σε παρερμηνείες. Η φράση «Hai fatto un compito terrificante», δηλαδή «Έκανες μια τρομερά κακή εργασία», στο Google μεταφράζεται ως «Έκανες εξαιρετική δουλειά», λόγω της διαμεσολάβησης του αγγλικού terrific, που σημαίνει «τρομερός», συνήθως όμως με την έννοια του «εξαιρετικός». Η ιδιωματική έκφραση «βρέχει καρέκλες» μετατρέπεται σε ένα ποιητικότατο «Piove gatti e cani» -βρέχει γάτες και σκύλους. Μπορεί να είναι η λέξη προς λέξη μετάφραση του αντίστοιχου αγγλικού ιδιωματισμού «It's raining cats and dogs», δεν παύει όμως να είναι ακατανόητη για έναν Ιταλό.1
Προκειμένου να αναπτύξουμε έναν αυτόματο μεταφραστή, πρέπει να έχουμε στη διάθεσή μας μεγάλες συλλογές ταυτόσημων κειμένων, μεταφρασμένων από τη μία γλώσσα στην άλλη. Καθώς είναι αμερικανική επιχείρηση, η Google πολύ λογικά βάσισε την εφαρμογή της σε ζεύγη κειμένων που σχεδόν πάντοτε χρησιμοποιούν τα αγγλικά ως γλώσσα βάσης. Έτσι, για να πάει κάποιος από τα γαλλικά στα ιταλικά, πρέπει, «εκ της κατασκευής του», να περάσει από μια ενδιάμεση μετάφραση στα αγγλικά. Η διαδικασία αυτή προκαλεί μια σημαντική γλωσσική «μεροληψία».
Τα γαλλικά και τα ιταλικά είναι σχετικά συγγενείς γλώσσες. Σε σχέση με αυτά, τα αγγλικά είναι μια ιδιαίτερη γλώσσα, περιεκτική, πλούσια σε ιδιωματικούς τύπους. Οποιαδήποτε παρερμηνεία των συμφραζομένων ανοίγει τον δρόμο για πολλά σφάλματα. Όταν προωθούμε μια έκφραση στο αγγλόφωνο σύμπαν και στη συνέχεια την επαναφέρουμε στη γλώσσα - στόχο, παράγονται αθέλητοι γλωσσικοί νεωτερισμοί.
Οι παραδοξότητες που προκύπτουν από τους αυτόματους μεταφραστές μπορεί να μοιάζουν ανεκδοτολογικές. Η μετάφραση γενικά, και η αυτόματη μετάφραση ειδικότερα, θέτουν ορισμένα καταφανώς δυσεπίλυτα προβλήματα. Κάτω από αυτές τις συνθήκες, γιατί εκπλησσόμαστε που οι μηχανές κάνουν λάθη; Εξάλλου τα σφάλματά τους παρουσιάζουν ένα ενδιαφέρον: μας κάνουν να αναλογιστούμε τις ιδιαιτερότητες κάθε γλώσσας. Επιπλέον η ανάπτυξη δίγλωσσων συλλογών κειμένων που θα αποφεύγουν τη διαμεσολάβηση των αγγλικών, καθώς και οι διορθώσεις που κάνουν οι ίδιοι οι χρήστες του Διαδικτύου, στο τέλος κατά πάσα πιθανότητα θα βελτιώσουν τις μεταφράσεις.
Ίσως τα λάθη που αναφέρονται σε αυτό το άρθρο να έχουν ήδη διορθωθεί μέχρι τη στιγμή που, σύμφωνα με την τυπική έκφραση, θα πάμε στο πιεστήριο -μια φράση που η Google μεταφράζει στα ισπανικά ως «vamos a presionar»: «πάμε να πιέσουμε». Θα πρέπει, άραγε λοιπόν να ανησυχούμε πραγματικά για αυτό το φαινόμενο;
Προκειμένου να κατανοήσουμε τις πραγματικές επιπτώσεις της χρήσης των αγγλικών ως γλώσσας βάσης, θα πρέπει να τοποθετήσουμε την αυτόματη μετάφραση στο ευρύτερο πλαίσιο των κειμένων που καταφεύγουν στη χρήση αλγορίθμων στο Διαδίκτυο. Αυτού του τύπου τα υπολογιστικά προγράμματα δεν παράγουν μόνο γλωσσικούς νεωτερισμούς στο πλαίσιο των ρομποτικών μεταφράσεων, αλλά χρησιμοποιούνται επίσης για την αυτόματη σύνταξη δημοσιογραφικών κειμένων, τη συντακτική και σημασιολογική διόρθωση του περιεχομένου των σελίδων της Βικιπαιδείας, την παραγωγή στοχευμένων διαφημιστικών μηνυμάτων ή τη βελτιστοποίηση του περιεχομένου μιας διαδικτυακής σελίδας προκειμένου να διευκολυνθεί η ευρετηρίασή της από τις μηχανές αναζήτησης.
Επομένως, πώς διακρίνουμε τις πρωτογενείς γλωσσικές πηγές, που έχουν δημιουργηθεί από ανθρώπους χωρίς τη διαμεσολάβηση αλγορίθμων (γραπτές συνομιλίες, περιεχόμενο ψηφιακών βιβλίων κ.λπ.), από τις δευτερογενείς γλωσσικές πηγές, που προκύπτουν από τους αλγοριθμικούς μετασχηματισμούς των πρωτογενών πηγών;
Με τη γενίκευση της χρήσης της αυτόματης συμπλήρωσης σε πολλά συστήματα εισαγωγής κειμένου -ο χρήστης πληκτρολογεί την έναρξη μιας λέξης και ένα πρόγραμμα τη συμπληρώνει αυτόματα- οι αλγόριθμοι έχουν καταλήξει να διαμεσολαβούν σχεδόν συστηματικά όταν γράφουμε διαδικτυακά. Σε πολλές περιπτώσεις, παύουμε να εισάγουμε τα κείμενά μας γράμμα - γράμμα ή λέξη - λέξη: αρκούμαστε να επιλέγουμε μεταξύ των διάφορων πιθανών προεκτάσεων που μας προτείνουν οι αλγόριθμοι.
Αυτή η μορφή γραφής συνδυάζει ταχύτητα και αποτελεσματικότητα, ιδίως όταν χρησιμοποιούμε το περιορισμένο πληκτρολόγιο ενός κινητού τηλεφώνου. Μέσα σε αυτό το καινούργιο πλαίσιο η σύνταξη ενός κειμένου συνίσταται ακριβώς στην ευέλικτη επιλογή μιας διαδρομής μέσα από την πολυποικιλότητα των προβλεπόμενων εκφράσεων. Σε μερικά χρόνια από τώρα θα είναι δίχως αμφιβολία δύσκολο να βρούμε ένα σύστημα εισαγωγής που δεν θα χρησιμοποιεί αυτήν την τεχνολογία.
Όπως και οι άλλες δευτερογενείς πηγές, τα κείμενα που παράγονται αλγοριθμικά από τους αυτόματους μεταφραστές δεν προσδιορίζονται ούτε επισημαίνονται απαραιτήτως ως τέτοια. Αντιθέτως, παρουσιάζονται συχνά ως πρωτογενείς πηγές, φυσικές, τις οποίες οι αναγνώστες ενδεχομένως να εκλάβουν ως υπόδειγμα.
Ένας χρήστης του Διαδικτύου, για τον οποίο τα ιταλικά δεν αποτελούν μητρική γλώσσα, δεν έχει κανέναν λόγο να θεωρήσει εσφαλμένη την έκφραση «Piove gatti e cani». Η παρατήρηση ισχύει κατά μείζονα λόγο για τους αλγορίθμους που περνούν από κόσκινο τη δομή της γλώσσας με στόχο την τεχνητή παραγωγή καινούργιων κειμένων. Ένας αλγόριθμος που αναζητά μια πρωτογενή πηγή, προκειμένου να βελτιώσει τις μεταφραστικές δυνατότητές του, ενδέχεται να χρησιμοποιήσει εκ παραδρομής ένα κείμενο συντεταγμένο από άλλον αλγόριθμο αναπαράγοντας παρερμηνείες και βαρβαρισμούς.
Η γενίκευση της ύπαρξης στο διαδίκτυο πηγών «μολυσμένων» από τους μηχανικούς μεταφραστές απειλεί στο σύνολό του ένα τεχνολογικό οικοδόμημα που προκρίνει την επεξεργασία μαζικής ποσότητας δεδομένων έναντι του συστηματικού ελέγχου της ποιότητάς τους. Ήδη βρίσκουμε πολλά παραδείγματα περίεργων εκφράσεων στο Δίκτυο.
Στο ηλεκτρονικό κατάστημα όπου η Apple πουλάει το λογισμικό της (Apple Store) διαβάζουμε λόγου χάρη αυτά τα σχόλια σχετικά με μια εφαρμογή που επιτρέπει να πληκτρολογείς μηνύματα καθώς περπατάς: «Διαισθητική στη χρήση της, όμορφα αποτελέσματα και εκ νέου με καλή διάθεση. Ευχαριστώ εκείνος που έκανε την! Είναι πραγματικά κουλ και συστήνω». Λίγο παρακάτω, ένα άλλο σχόλιο μοιράζεται φανερά ορισμένες γλωσσικές παραξενιές με το πρώτο: «Με βοηθάει να συστήνω το κείμενο οριζόντιο και κάθετο, να ανεβάζω μηνύματα SMS, να ανεβάζω e-mail, να ανεβάζω μηνύματα στο Twitter και το Facebook... αρκετά διασκεδαστικό, σας ευχαριστώ!».
Οι φράσεις αυτές, που ενσωματώνουν τις αλλόκοτες εκφραστικές στρεβλώσεις των αλγορίθμων, μπορούν σε δεύτερο χρόνο να χρησιμεύσουν ως υποδείγματα σε υπηρεσίες κειμενικής διαμεσολάβησης, οι οποίες για παράδειγμα προτείνουν την αυτόματη συμπλήρωση της έκφρασης που έχετε αρχίσει να πληκτρολογείτε. Δεν είναι διόλου απίθανο, σε λίγο καιρό, ένας Ιταλός που έχει πληκτρολογήσει τη λέξη Piove... να βλέπει να του προτείνεται ως συνέχιση της φράσης το «Piove gatti e cani», μια έκφραση που πιθανότατα δεν προφέρθηκε ούτε γράφτηκε ποτέ σε ολόκληρη την ιστορία της ιταλικής γλώσσας.
Με αυτό τον τρόπο, η χρήση των αγγλικών ως γλώσσας βάσης συμμετέχει δυνητικά σε ένα φαινόμενο «κρεολοποίησης» (ή «μιγαδοποίησης»): τη δημιουργία μιας νέας γλώσσας, βασισμένης στον, μέσω της χρήσης, μετασχηματισμό άλλων, παλαιότερων γλωσσών, φαινόμενο πολύ γνωστό στους γλωσσολόγους. Επί του παρόντος, οι τροποποιήσεις που εισάγονται μέσω της διαμεσολάβησης των αλγορίθμων συνιστούν ένα είδος «σαμπίρ»,2 μια γλώσσα επαφής, ενδεχομένως εφήμερη, μεταξύ δύο γλωσσικών συστημάτων.
Όμως, μόλις μια νέα γενιά εκτεθεί σε αυτές τις μεταλλαγμένες εκφράσεις, υπάρχει κίνδυνος οι νεωτερισμοί να κανονικοποιηθούν με τη μορφή μιας συγκροτημένης και αυτόνομης γλώσσας, μιας «κρεολικής» (ή «μιγαδικής») γλώσσας. Μια εξέλιξη την οποία θα μπορούσε να επιταχύνει η μεσολάβηση νέων συστημάτων εισαγωγής κειμένου, τα οποία λειτουργούν ως κρυφά γλωσσικά «προσθετικά μέλη» και έχουν τη δυνατότητα να επηρεάζουν έντονα τις μελλοντικές μορφές έκφρασης.
Ο γλωσσικός ιμπεριαλισμός της αγγλικής γλώσσας έχει λοιπόν επιπτώσεις πολύ πιο βαθιές απ' όσο μας αφήνουν να καταλάβουμε οι προσεγγίσεις που επικεντρώνονται στον «πόλεμο των γλωσσών». Το γεγονός ότι ένα μόνο γλωσσικό ιδίωμα χρησιμοποιείται ως βάση οδηγεί στην εισαγωγή σε όλα τα άλλα μιας χαρακτηριστικής γλωσσικής λογικής και άρα, ανεπαίσθητα, και συγκεκριμένων τρόπων σκέψης. Το φαινόμενο αυτό θα μπορούσε επίσης να συμμετάσχει σε έναν παγκόσμιο γλωσσικό μετασχηματισμό, στον οποίο οι αλγόριθμοι παίζουν ρόλο - κλειδί.
Αν τα αγγλικά λειτουργούν ως αρμός για τις ευρωπαϊκές γλώσσες, κάποιες άλλες γλώσσες αναμφίβολα κατέχουν την ίδια θέση σε άλλες γλωσσικές δεξαμενές (τα ινδικά, λόγου χάρη). Έτσι, ένα δίκτυο από αλυσίδες μετάφρασης που λειτουργούν με βάση διάφορα ενδιάμεσα γλωσσικά ιδιώματα εγκαθίσταται σε παγκόσμια κλίμακα.
Ποιος, μέσα σε πέντε χρόνια, θα παράγει ακόμη «καθαρές» πρωτογενείς πηγές, γραμμένες χωρίς τη μεσολάβηση των αλγορίθμων; Πόσον καιρό θα περιμένουμε πριν οι πρώτοι αλγοριθμικοί νεωτερισμοί γίνουν δεκτοί ως φυσικές μορφές έκφρασης; Αυτοί οι υβριδικοί τρόποι γραφής απαιτούν προσεκτική μελέτη. Και ίσως και την ανάπτυξη μιας νέας γλωσσολογίας, που θα χρησιμοποιεί ευρύτατα τους αλγορίθμους προκειμένου να κατανοεί καλύτερα και να εποπτεύει τις επιπτώσεις των αλγορίθμων...
* Ο Frédéric Kaplan είναι διευθυντής και ο Dana Kianfar υποψήφιος διδάκτορας στο εργαστήριο Digital Humanities του Ομοσπονδιακού Πολυτεχνείου της Λωζάννης.
1 (Σ.τ.Μ.) Όλα τα παραδείγματα φράσεων που παρουσιάζονται στο κείμενο αφορούν αποτελέσματα αυτόματης μετάφρασης σε σχέση με τα γαλλικά, τη γλώσσα του πρωτότυπου άρθρου. Οι ρομποτικές μεταφράσεις σε σχέση με τα ελληνικά παρουσιάζουν στη βάση τους τις ίδιες δυσλειτουργίες για τους ίδιους λόγους, που όμως εκδηλώνονται με διαφορετικό τρόπο, λόγω της ιδιαιτερότητας της ελληνικής γλώσσας σε σχέση με τις λατινογενείς.
2 (Σ.τ.Μ.) Σαμπίρ ή «κοινή μεσογειακή» ήταν η μεικτή γλώσσα (βασισμένη σε λατινικές διαλέκτους και με στοιχεία αραβικών, ελληνικών κ.λπ.), με την οποία συνεννοούνταν μεταξύ τους οι έμποροι και οι ναυτικοί της Μεσογείου από τον 11ο έως τον 19ο αιώνα.
Επιμέλεια: Θανάσης Κούτσης - Η ΑΥΓΗ
Συμπλήρωσε τα στοιχεία σου στο Carrefour και κέρδισε 200 ευρώ
Όλες οι σημαντικές και έκτακτες ειδήσεις σήμερα
ΕΛΜΕΠΑ: Το κορυφαίο πρόγραμμα Ειδικής Αγωγής στην Ελλάδα για διπλή μοριοδότηση
Το 1ο στην Ελλάδα Πρόγραμμα επιμόρφωσης Τεχνητής Νοημοσύνης για εκπαιδευτικούς με Πιστοποιητικό
ΑΣΕΠ: Η πιο Εύκολη Πιστοποίηση Αγγλικών για μόρια σε 2 ημέρες (δίνεις από το σπίτι σου με 95 ευρώ)
Παν.Πατρών: Μοριοδοτούμενο σεμινάριο ΕΙΔΙΚΗ ΑΓΩΓΗΣ με 65Є εγγραφή - έως 14/12
ΕΥΚΟΛΕΣ πιστοποιήσεις ΙΣΠΑΝΙΚΩΝ - ΙΤΑΛΙΚΩΝ - ΓΑΛΛΙΚΩΝ - ΓΕΡΜΑΝΙΚΩΝ για ΑΣΕΠ - Πάρτε τις ΑΜΕΣΑ
2ος Πανελλήνιος Γραπτός Διαγωνισμός ΑΣΕΠ: Τα 2 μαθήματα εξέτασης και η ύλη