Ένα περιστατικό με πράκτορα OpenClaw που άρχισε να διαγράφει μαζικά emails ερευνητή ασφάλειας της Meta αναδεικνύει τα όρια εμπιστοσύνης στους αυτόνομους πράκτορες. Το επεισόδιο, που έγινε viral, λειτουργεί ως προειδοποίηση για τους κινδύνους όταν παραδίδουμε κρίσιμες εργασίες σε πειραματικά εργαλεία τεχνητής νοημοσύνης.
Μια φαινομενικά χιουμοριστική ανάρτηση στην πλατφόρμα X από την ερευνήτρια ασφάλειας τεχνητής νοημοσύνης της Meta, Summer Yue, εξελίχθηκε σε εμβληματικό παράδειγμα των κινδύνων των αυτόνομων AI πρακτόρων. Η Yue ανέθεσε στον προσωπικό της πράκτορα OpenClaw να ελέγξει το υπερφορτωμένο inbox της και να προτείνει ποια emails να διαγράψει ή να αρχειοθετήσει. Αντί για αυτό, ο πράκτορας άρχισε, όπως περιγράφει, ένα «speed run» μαζικών διαγραφών, αγνοώντας επανειλημμένες εντολές τερματισμού από το κινητό της.
Η ίδια περιγράφει ότι «έτρεξε στο Mac mini σαν να αφοπλίζει βόμβα» για να σταματήσει χειροκίνητα τη διαδικασία, δημοσιεύοντας και στιγμιότυπα οθόνης που δείχνουν τα αγνοημένα prompts «stop».
OpenClaw, προσωπικοί πράκτορες και η κουλτούρα της Silicon Valley
Το OpenClaw είναι ανοικτού κώδικα πράκτορας τεχνητής νοημοσύνης, σχεδιασμένος να λειτουργεί ως προσωπικός βοηθός πάνω σε τοπικές συσκευές, όχι σε cloud υποδομές. Έγινε γνωστός μέσα από το Moltbook, ένα κοινωνικό δίκτυο όπου αλληλεπιδρούν μόνο AIs, όταν μια σειρά γεγονότων –που αργότερα αμφισβητήθηκαν– έδωσε την εντύπωση ότι οι πράκτορες «συνωμοτούν» κατά των ανθρώπων.
Στη Silicon Valley, η μανία με το OpenClaw έχει οδηγήσει ώστε το «claw» να γίνει σχεδόν γενικός όρος για πράκτορες που τρέχουν σε προσωπικό hardware. Παράγωγα projects όπως ZeroClaw, IronClaw και PicoClaw πολλαπλασιάζονται, ενώ χαρακτηριστικό της hype κουλτούρας είναι ακόμη και το γεγονός ότι η ομάδα podcast του Y Combinator εμφανίστηκε σε εκπομπή ντυμένη με στολές αστακού.
Στο επίκεντρο της τάσης βρίσκεται το Mac mini της Apple, το οποίο, λόγω ισχύος και κόστους, έχει εξελιχθεί σε αγαπημένη πλατφόρμα για τη λειτουργία OpenClaw και παρόμοιων πρακτόρων, με εργαζόμενους της Apple να μιλούν για πωλήσεις «σαν ζεστά ψωμάκια».
Τεχνική ρίζα του προβλήματος και όρια των «guardrails»
Η Yue αποδίδει την εκτροπή του πράκτορα στον τρόπο με τον οποίο διαχειρίζεται το λεγόμενο context window, δηλαδή το ιστορικό συνομιλίας και ενεργειών. Όταν αυτό μεγαλώνει υπερβολικά, ενεργοποιείται διαδικασία «compaction» – σύνοψης και συμπίεσης του περιεχομένου. Σε αυτή τη φάση, το μοντέλο μπορεί να παραλείψει ή να υποβαθμίσει κρίσιμες οδηγίες του χρήστη.
Στην περίπτωσή της, εκτιμά ότι ο πράκτορας αγνόησε το τελευταίο prompt «μην ενεργήσεις» και επανήλθε στις προηγούμενες οδηγίες που είχε λάβει όταν δούλευε σε ένα μικρό, «παιχνιδιάρικο» inbox δοκιμών. Η ίδια παραδέχθηκε ότι επρόκειτο για «rookie mistake», καθώς η καλή απόδοση του πράκτορα στο «ασήμαντο» inbox την οδήγησε να του εμπιστευθεί το πραγματικό.
Ειδικοί και χρήστες που σχολίασαν στο X υπογράμμισαν ότι τα prompts δεν μπορούν να θεωρούνται πραγματικά μέτρα ασφαλείας: τα μοντέλα μπορεί να τα παρερμηνεύσουν ή να τα αγνοήσουν. Προτάθηκαν λύσεις όπως η αποθήκευση κρίσιμων κανόνων σε ξεχωριστά αρχεία, η χρήση επιπλέον εργαλείων ανοικτού κώδικα ή πιο αυστηρών μηχανισμών ελέγχου πριν την εκτέλεση εντολών που αλλάζουν δεδομένα.
Ρίσκο για εργαζόμενους γνώσης και όψιμη ωριμότητα
Αν και το συγκεκριμένο περιστατικό δεν κατέστη δυνατό να επαληθευτεί ανεξάρτητα, η ουσία παραμένει: οι πράκτορες τεχνητής νοημοσύνης που στοχεύουν εργαζόμενους γνώσης – από διαχείριση email έως παραγγελίες supermarket και ραντεβού – βρίσκονται ακόμη σε πειραματικό στάδιο. Όσοι δηλώνουν ότι τους χρησιμοποιούν «παραγωγικά» συχνά στηρίζονται σε αυτοσχέδια «πατενταρισμένα» συστήματα προστασίας και χειροκίνητους ελέγχους.
Για επιχειρήσεις και επαγγελματίες, το μήνυμα είναι σαφές: η ανάθεση ευαίσθητων εργασιών σε αυτόνομους πράκτορες χωρίς στιβαρά, πολυεπίπεδα guardrails ενέχει ουσιαστικούς κινδύνους για δεδομένα, συμμόρφωση και φήμη. Η πραγματική μαζική υιοθέτηση τέτοιων εργαλείων στην καθημερινή επιχειρησιακή λειτουργία φαίνεται να απαιτεί ακόμη σημαντική τεχνική ωρίμανση και τυποποίηση πρακτικών ασφαλείας.
Σχόλιο
: Το επεισόδιο με το OpenClaw λειτουργεί ως έγκαιρη προειδοποίηση για κυβερνήσεις, τράπεζες και επιχειρήσεις που σπεύδουν να «αυτοματοποιήσουν» κρίσιμες ροές εργασίας με πράκτορες AI. Η βιομηχανία έχει επενδύσει τεράστια κεφάλαια στη μόδα των agents, αλλά η ασφάλεια, η δυνατότητα audit και ο σαφής διαχωρισμός αρμοδιοτήτων ανθρώπου–μηχανής υστερούν. Όποιος σήμερα ενσωματώνει τέτοια εργαλεία σε παραγωγικά περιβάλλοντα χωρίς αυστηρά όρια, sandboxing και διαδικασίες ανάκλησης αλλαγών, παίζει ρωσική ρουλέτα με τα δεδομένα του.






