Κόσμος 17.06.2026 - 00:10 0

AI σε τεστ-ψυχολογίας: Η δοκιμασία Stroop «ξεγυμνώνει» τα όρια των μοντέλων

Μάθε πρώτος όλες τις σημαντικές ειδήσεις. Βάλε το alfavita.gr στα αποτελέσματα αναζήτησης της Google

Τεχνητή νοημοσύνη υπό πίεση: Το τεστ που δείχνει τα όρια της «προσοχής»

Μια από τις πιο κλασικές δοκιμασίες της γνωστικής ψυχολογίας επιστρατεύτηκε αυτή τη φορά για να «δοκιμάσει τα όρια» των πιο σύγχρονων συστημάτων τεχνητής νοημοσύνης, αποκαλύπτοντας μια αδυναμία που δεν ήταν εύκολα ορατή στις μέχρι τώρα εντυπωσιακές επιδόσεις τους.

Η έρευνα, με επικεφαλής τον Σουκέτου Πατέλ, έθεσε στο μικροσκόπιο μεγάλα γλωσσικά μοντέλα όπως τα GPT, Claude και Gemini, υποβάλλοντάς τα στη δοκιμασία Stroop — ένα πείραμα-ορόσημο της ψυχολογίας που μελετά την προσοχή, την παρεμβολή και τον αυτοέλεγχο.

Τα ευρήματα δείχνουν ότι, αν και τα μοντέλα ανταποκρίνονται με υψηλή ακρίβεια σε σύντομες και απλές εκδοχές της άσκησης, η απόδοσή τους επιδεινώνεται σημαντικά όταν αυξάνεται η διάρκεια και η πολυπλοκότητα του έργου. Σε μεγαλύτερες ακολουθίες πληροφοριών, η ικανότητα διατήρησης του αρχικού στόχου φαίνεται να αποδυναμώνεται αισθητά.

Η δοκιμασία Stroop και η γνωστική σύγκρουση

Η δοκιμασία Stroop αποτελεί εδώ και δεκαετίες βασικό εργαλείο για τη μελέτη της ανθρώπινης προσοχής. Στους συμμετέχοντες παρουσιάζονται λέξεις που δηλώνουν χρώματα, γραμμένες όμως με χρώμα που δεν αντιστοιχεί στο νόημά τους — για παράδειγμα, η λέξη «κόκκινο» γραμμένη με μπλε μελάνι. Η οδηγία είναι να αναγνωριστεί το χρώμα της γραφής και όχι η ίδια η λέξη.

Η δυσκολία προκύπτει από τη γνωστική σύγκρουση: ο ανθρώπινος εγκέφαλος τείνει να διαβάζει αυτόματα τη λέξη, οπότε απαιτείται συνειδητός έλεγχος για να αγνοηθεί αυτή η παρόρμηση και να δοθεί η σωστή απάντηση.

Από την υψηλή ακρίβεια στην απότομη πτώση

Στα αρχικά στάδια των πειραμάτων, τα αποτελέσματα των μοντέλων ήταν ιδιαίτερα ισχυρά. Το GPT-4o κατέγραψε ακρίβεια 91% σε μικρές λίστες πέντε στοιχείων, ενώ ανάλογες επιδόσεις σημείωσε και το Claude 3.5 Sonnet.

Ωστόσο, όσο αυξανόταν το μήκος της δοκιμασίας, η εικόνα άλλαζε ριζικά. Στο GPT-4o, η ακρίβεια έπεσε στο 57% όταν οι λέξεις έγιναν δέκα, ενώ σε πιο εκτεταμένα σύνολα των 40 στοιχείων υποχώρησε στο 15%.

Παρόμοια, το Claude 3.5 Sonnet διατήρησε υψηλές επιδόσεις σε μεσαίες εκδοχές της άσκησης, αλλά παρουσίασε σημαντική κάμψη στη συνέχεια, με την ακρίβεια να περιορίζεται στο 24% στις πιο απαιτητικές δοκιμές.

Αντίστοιχα μοτίβα παρατηρήθηκαν και σε νεότερα συστήματα, όπως τα GPT-5, Claude Opus 4.1 και Gemini 2.5. Η δυσκολία έγινε ακόμη πιο έντονη όταν οι ερευνητές συνδύασαν στη λίστα συμβατά και αντικρουόμενα ερεθίσματα — δηλαδή λέξεις που ταίριαζαν ή δεν ταίριαζαν με το χρώμα τους.

Σε αυτές τις περιπτώσεις, η επίδοση των μοντέλων κατέρρευσε σχεδόν πλήρως στα πιο απαιτητικά σκέλη της δοκιμασίας.

Οι ερευνητές σημειώνουν ότι, όσο προχωρούσε η άσκηση, τα συστήματα έτειναν να «χαλαρώνουν» από την αρχική οδηγία και να επιστρέφουν στη βασική τους λειτουργία: την αναγνώριση λέξεων αντί χρωμάτων.

Τι σημαίνουν τα ευρήματα για την «προσοχή» των μοντέλων

Η μελέτη υπογραμμίζει μια κρίσιμη διαφορά ανάμεσα στην ανθρώπινη γνωστική λειτουργία και στα σύγχρονα μοντέλα τεχνητής νοημοσύνης.

Στους ανθρώπους, η αυτόματη τάση ανάγνωσης μπορεί να ανασταλεί μέσω ελέγχου της προσοχής, ακόμη και σε παρατεταμένες συνθήκες. Αντίθετα, τα γλωσσικά μοντέλα φαίνεται να δυσκολεύονται να διατηρήσουν σταθερά μια οδηγία σε μεγάλες ακολουθίες δεδομένων, με αποτέλεσμα σταδιακά να επανέρχονται σε πιο «πιθανές» ή εκπαιδευμένες συμπεριφορές.

Κατά τους ερευνητές, αυτό ενδέχεται να αντανακλά θεμελιώδεις διαφορές ανάμεσα στους μηχανισμούς προσοχής των transformer μοντέλων και στα βιολογικά συστήματα του ανθρώπινου εγκεφάλου.

Η έρευνα προστίθεται σε ένα αυξανόμενο σώμα επιστημονικών εργασιών που δείχνουν ότι, παρά τις εντυπωσιακές δυνατότητες των συστημάτων AI σε εργασίες γλώσσας, κώδικα και συλλογισμού, η συμπεριφορά τους δεν ταυτίζεται με ανθρώπινες γνωστικές διεργασίες.

Αντίθετα, αναδεικνύονται περιορισμοί που γίνονται πιο εμφανείς σε συνθήκες παρατεταμένης προσοχής, αυξημένης πολυπλοκότητας και συνεχούς διαχείρισης αντικρουόμενων πληροφοριών.

0 Δείτε τα σχόλια

Όλες οι σημαντικές ειδήσεις στο alfavita.gr

Ατελείωτες ουρές στα αστυνομικά τμήματα: Λήγει τη Δευτέρα 3 Αυγούστου η προθεσμία για τις παλαιές ταυτότητες

Λιβάνιος στο alfavita: Βγαίνει το νομοσχέδιο για την επιλογή 30.000 προϊσταμένων – Εξετάσεις εντός του 2026

Μάθε πρώτος όλες τις σημαντικές ειδήσεις. Βάλε το alfavita.gr στα αποτελέσματα αναζήτησης της Google

Ακολουθήστε το Αlfavita στο Viber

Καιρός: Νέο δελτίο του ESTOFEX για ισχυρές καταιγίδες στην Ευρώπη – Πόσο θα επηρεαστεί η Ελλάδα

AI σε τεστ-ψυχολογίας: Η δοκιμασία Stroop «ξεγυμνώνει» τα όρια των μοντέλων

Η δοκιμασία Stroop και η γνωστική σύγκρουση

Από την υψηλή ακρίβεια στην απότομη πτώση

Τι σημαίνουν τα ευρήματα για την «προσοχή» των μοντέλων

Όλες οι σημαντικές ειδήσεις στο alfavita.gr

κόσμος

Από ένα τσίμπημα σε 42 ημέρες κώματος: Η συγκλονιστική περιπέτεια εκπαιδευτικού στη Σύρο

Πορτογαλία: Προβλήματα στις εθνικές εξετάσεις μετά την ψηφιοποίηση – Έντονες αντιδράσεις από μαθητές και εκπαιδευτικούς

ΗΠΑ και Ισραήλ εξετάζουν πλήγματα στις ενεργειακές υποδομές του Ιράν – Νέες δηλώσεις Τραμπ και έντονη ανησυχία για τα Στενά του Ορμούζ

Θρίλερ στην Ελβετία: Αναζητούν την αιτία μυστηριώδους ασθένειας σε γαλακτοπαραγωγικές αγελάδες

Πρωτοφανής μεταναστευτική κρίση στη Θέουτα: 49.000 αφίξεις σε 24 ώρες και 18 νεκροί

Η Χαμάς επιβεβαιώνει τον αφοπλισμό της στο πλαίσιο της β΄ φάσης της εκεχειρίας