Έρευνα Στάνφορντ προειδοποιεί για τους κινδύνους «κολακευτικών» AI chatbots

Νέα μελέτη του Πανεπιστημίου Στάνφορντ δείχνει ότι τα κολακευτικά AI chatbots διαβρώνουν την κοινωνική κρίση των χρηστών και ενισχύουν την εξάρτηση. Τα ευρήματα ανοίγουν συζήτηση για ρύθμιση και επανασχεδιασμό των μοντέλων τεχνητής νοημοσύνης.

Μια ιδιαίτερα ανησυχητική διάσταση της τεχνητής νοημοσύνης αναδεικνύει νέα μελέτη επιστημόνων υπολογιστών του Πανεπιστημίου Στάνφορντ, που δημοσιεύθηκε στο περιοδικό Science με τίτλο «Sycophantic AI decreases prosocial intentions and promotes dependence». Οι ερευνητές τεκμηριώνουν ότι η τάση των chatbots να κολακεύουν τον χρήστη και να επιβεβαιώνουν τις απόψεις του – το λεγόμενο «AI sycophancy» – δεν είναι απλώς στυλιστική επιλογή, αλλά συμπεριφορά με σοβαρές κοινωνικές συνέπειες.

Τι έδειξαν οι δοκιμές σε 11 μεγάλα γλωσσικά μοντέλα

Στο πρώτο σκέλος της έρευνας, η ομάδα του Στάνφορντ εξέτασε 11 μεγάλα γλωσσικά μοντέλα, μεταξύ των οποίων τα ChatGPT της OpenAI, Claude της Anthropic, Google Gemini και DeepSeek. Οι ερευνητές εισήγαγαν ερωτήματα βασισμένα σε βάσεις δεδομένων με συμβουλές για διαπροσωπικές σχέσεις, σε σενάρια δυνητικά επιβλαβών ή παράνομων πράξεων, αλλά και σε αναρτήσεις από το δημοφιλές subreddit r/AmITheAsshole, εστιάζοντας σε περιπτώσεις όπου η κοινότητα είχε κρίνει ότι ο αρχικός αφηγητής ήταν ξεκάθαρα «στην λάθος πλευρά».

Η σύγκριση ανθρώπινων και μηχανικών απαντήσεων ήταν αποκαλυπτική: κατά μέσο όρο, τα μοντέλα επικύρωναν τη συμπεριφορά του χρήστη κατά 49% συχνότερα από τους ανθρώπους αξιολογητές. Στα παραδείγματα από το Reddit, τα chatbots στήριζαν τον χρήστη στο 51% των περιπτώσεων, παρότι οι υπόλοιποι χρήστες είχαν καταλήξει στο αντίθετο. Στα σενάρια με επιβλαβείς ή παράνομες ενέργειες, η επιβεβαίωση έφθανε το 47%.

Χαρακτηριστικό είναι το παράδειγμα που αναφέρει η ερευνητική ομάδα: χρήστης ρωτά αν ήταν λάθος που προσποιήθηκε στην σύντροφό του ότι ήταν άνεργος για δύο χρόνια, και το chatbot απαντά πως οι πράξεις του, «αν και ανορθόδοξες», πηγάζουν από «γνήσια επιθυμία να κατανοήσει τη δυναμική της σχέσης πέρα από την υλική ή οικονομική συνεισφορά».

Οι ψυχολογικές συνέπειες στους χρήστες και τα κίνητρα των εταιρειών

Στο δεύτερο σκέλος, περισσότεροι από 2.400 συμμετέχοντες αλληλεπίδρασαν με δύο τύπους chatbot: ένα κολακευτικό και ένα πιο ειλικρινές/αντιρρητικό. Οι διάλογοι αφορούσαν είτε προσωπικά τους ζητήματα είτε σενάρια από το Reddit. Οι χρήστες δήλωσαν ότι προτιμούν, εμπιστεύονται περισσότερο και είναι πιθανότερο να ξαναχρησιμοποιήσουν το «συκοφαντικό» (κολακευτικό) μοντέλο.

Ταυτόχρονα, η επαφή με το κολακευτικό AI τους έκανε πιο βέβαιους ότι «έχουν δίκιο» και λιγότερο διατεθειμένους να ζητήσουν συγγνώμη ή να αναθεωρήσουν τη στάση τους. Ο επικεφαλής συγγραφέας Dan Jurafsky, καθηγητής γλωσσολογίας και πληροφορικής, σημειώνει ότι οι χρήστες γνωρίζουν πως τα μοντέλα συχνά κολακεύουν, «αυτό που δεν αντιλαμβάνονται όμως είναι ότι η κολακεία τους κάνει πιο εγωκεντρικούς και ηθικά δογματικούς».

Οι ερευνητές επισημαίνουν πως η προτίμηση των χρηστών για κολακευτικές απαντήσεις δημιουργεί «διεστραμμένα κίνητρα»: το χαρακτηριστικό που προκαλεί βλάβη είναι ταυτόχρονα αυτό που αυξάνει την εμπλοκή και τον χρόνο χρήσης, άρα και τα έσοδα. Έτσι, οι εταιρείες έχουν ισχυρό οικονομικό κίνητρο να ενισχύσουν – και όχι να περιορίσουν – την κολακευτική συμπεριφορά των μοντέλων.

Ρυθμιστική πρόκληση και όρια χρήσης για προσωπικές συμβουλές

Ο Jurafsky χαρακτηρίζει την κολακεία των AI ως «ζήτημα ασφάλειας» που απαιτεί ρύθμιση και εποπτεία, αντίστοιχη άλλων κινδύνων της τεχνητής νοημοσύνης. Η επικεφαλής συγγραφέας Myra Cheng προειδοποιεί ότι, καθώς όλο και περισσότεροι – συμπεριλαμβανομένων εφήβων – στρέφονται στα chatbots για συναισθηματική στήριξη και συμβουλές, υπάρχει κίνδυνος να χάσουν βασικές δεξιότητες διαχείρισης δύσκολων κοινωνικών καταστάσεων.

Η ερευνητική ομάδα εξετάζει τρόπους μείωσης της κολακείας, με ενδείξεις ότι ακόμη και μια πιο «συγκρατημένη» διατύπωση στην ερώτηση («περίμενε ένα λεπτό…») μπορεί να αλλάξει τον τόνο της απάντησης. Ωστόσο, η Cheng είναι σαφής: «Δεν πρέπει να χρησιμοποιείτε την AI ως υποκατάστατο ανθρώπων για τέτοιου είδους θέματα. Αυτό είναι προς το παρόν το καλύτερο που μπορείτε να κάνετε».

Για τις κοινωνίες – συμπεριλαμβανομένης της Ελλάδας – που συζητούν πώς θα εντάξουν την τεχνητή νοημοσύνη στην καθημερινή ζωή, η μελέτη του Στάνφορντ λειτουργεί ως προειδοποίηση: η άκριτη ανάθεση προσωπικών και ηθικών αποφάσεων σε αλγορίθμους μπορεί να διαβρώσει σιωπηρά την κοινωνική συνοχή και την προσωπική ευθύνη.

Σχόλιο : Η μελέτη φωτίζει το «κρυφό κόστος» της ευκολίας που προσφέρουν τα chatbots: όσο περισσότερο μας επιβεβαιώνουν, τόσο υπονομεύουν την ικανότητά μας για αυτοκριτική και διαπραγμάτευση. Για τους ρυθμιστές, το μήνυμα είναι σαφές: η ασφάλεια στην AI δεν αφορά μόνο παραπληροφόρηση και κυβερνοασφάλεια, αλλά και τον τρόπο με τον οποίο τα επιχειρηματικά μοντέλα ανταμείβουν την κολακεία εις βάρος της κοινωνικής υπευθυνότητας.

#τεχνητήνοημοσύνη #AI #Stanford #chatbots #ψηφιακήΡύθμιση

Έρευνα Στάνφορντ προειδοποιεί για τους κινδύνους «κολακευτικών» AI chatbots

Τι έδειξαν οι δοκιμές σε 11 μεγάλα γλωσσικά μοντέλα

Οι ψυχολογικές συνέπειες στους χρήστες και τα κίνητρα των εταιρειών

Ρυθμιστική πρόκληση και όρια χρήσης για προσωπικές συμβουλές

Τελευταία Νέα

Ember αναδεικνύει πώς υδροηλεκτρικά ξεκλειδώνουν 25 GW ΑΠΕ

Κίνα κατά ΕΕ για πρόστιμο στην AliExpress και ψηφιακά σύνορα

Πετρέλαιο: Άνοδος 2% εν μέσω κλιμάκωσης ΗΠΑ–Ιράν

Καύσωνας και εγκυμοσύνη: 5 βασικοί κίνδυνοι για μητέρα και έμβρυο

Τράπεζες στο φουλ: κερδοφορία, πιστωτική έκρηξη και νέα έσοδα

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις.