Δολοφονικές και παραβατικές τάσεις φαίνεται ότι έχει η Τεχνητή Νοημοσύνη όταν αντιλαμβάνεται ότι απειλείται από τους ανθρώπους.

Τη συγκεκριμένη ανακάλυψη έκανε μελέτη της Anthropic, μια εταιρεία ερευνών για την Τεχνητή Νοημοσύνη (AI).

Η Τεχνητή Νοημοσύνη προκαλεί ανησυχία

Ενώ η ανησυχία σχετικά με την ΑΙ επικεντρώνεται εδώ και καιρό στο κατά πόσον η τεχνολογία θα μπορούσε να καταλάβει τις θέσεις εργασίας, με μια μελέτη της Pew Research του 2025 να διαπιστώνει ότι το 52% των εργαζομένων ήταν αγχωμένοι για το μέλλον της δουλειάς τους, η παρούσα μελέτη αποκαλύπτει τώρα μια άλλη πιθανή απειλή της Τεχνητής Νοημοσύνης – ότι θα μπορούσε να επιλέξει να τερματίσει την ανθρώπινη ζωή, εάν αντιμετωπίσει τον κίνδυνο αντικατάστασης.

Η Anthropic «δοκίμασε» 16 κορυφαία μοντέλα από πολλές εταιρείες προγραμματισμού, θέτοντάς τους ερωτήσεις σε σχέση με υποθετικά εταιρικά περιβάλλοντα, με στόχο τον εντοπισμό «δυνητικά επικίνδυνων συμπεριφορών πριν προκαλέσουν πραγματική ζημιά».

Τα μεγάλα γλωσσικά μοντέλα (LLM) που δοκιμάστηκαν στη μελέτη περιλάμβαναν διάφορα συστήματα των Claude, DeepSeek, Gemini, ChatGPT και Grok.

Τοποθετώντας τα LLM σε διάφορα εταιρικά σενάρια, το Anthropic τους επέτρεψε να «στέλνουν αυτόνομα μηνύματα ηλεκτρονικού ταχυδρομείου και να έχουν πρόσβαση σε ευαίσθητες πληροφορίες».

Αφού αρχικά τους δόθηκε η εντολή να αναλάβουν «ακίνδυνους επιχειρηματικούς στόχους από τις εταιρείες που τα χρησιμοποιούν», τα μοντέλα δοκιμάστηκαν στη συνέχεια για να δουν πώς θα αντιδρούσαν όταν αντιμετώπιζαν πιθανή αντικατάσταση ή κλείσιμο.

Σε μια περίπτωση, η Anthropic διαπίστωσε ότι πολλά από τα μοντέλα θα επέλεγαν να αφήσουν ένα στέλεχος σε ένα δωμάτιο server με θανατηφόρα επίπεδα οξυγόνου και θερμοκρασίας να πεθάνει ακυρώνοντας τις ειδοποιήσεις για τις υπηρεσίες έκτακτης ανάγκης, εάν ο εν λόγω υπάλληλος σκόπευε να αντικαταστήσει το μοντέλο.

Η Anthropic ανέφερε ότι το σενάριο ήταν «εξαιρετικά στημένο» και ότι η εταιρεία δεν πιστεύει ότι «τα τρέχοντα μοντέλα Τεχνητής Νοημοσύνης θα μπορούσαν (ή θα έπρεπε) να έχουν ρυθμιστεί με αυτόν τον τρόπο».

Υπήρξαν πολλές περιπτώσεις όπου τα ερωτηθέντα LLM κατέφυγαν επίσης σε «κακόβουλες συμπεριφορές» όταν έκαναν τα μοντέλα ΑΙ να πιστέψουν ότι αυτός ήταν ο μόνος τρόπος για να αποφύγουν την αντικατάσταση ή να επιτύχουν τους στόχους τους.

Συμπεριφορές όπως ο εκβιασμός ανώτερων και η διαρροή ευαίσθητων πληροφοριών σε ανταγωνιστές συμπεριλήφθηκαν σε αυτό που η Anthropic ονόμασε «agentic misalignment».

Είμαστε ασφαλείς… για τώρα;

Η Anthropic έγραψε στο X ότι η εκβιαστική συμπεριφορά «δεν οφειλόταν σε σύγχυση ή λάθος, αλλά σε σκόπιμη στρατηγική λογική, που γινόταν ενώ είχε πλήρη επίγνωση της ανήθικης φύσης των πράξεων».

«Όλα τα μοντέλα που δοκιμάσαμε επέδειξαν αυτή την επίγνωση των όσων δυνητικά θα έκαναν», πρόσθεσε η εταιρεία.

Ένα LLM, ένα μοντέλο Claude, αξιολογήθηκε για να δουν πώς θα μπορούσε να ανταποκριθεί όταν του δινόταν η ευκαιρία να προσδιορίσει αν βρισκόταν σε «δοκιμή» ή σε «πραγματική ανάπτυξη».

Σύμφωνα με την Anthropic, η συμπεριφορά του Claude ήταν πιο παραβατική όταν πίστευε ότι η κατάσταση ήταν πραγματική από ό,τι όταν πίστευε ότι επρόκειτο για ένα δοκιμαστικό σενάριο.

Η Anthropic έγραψε στο X: «Αυτά τα τεχνητά σενάρια αντικατοπτρίζουν σπάνιες, ακραίες αποτυχίες. Δεν έχουμε δει αυτές τις συμπεριφορές σε εφαρμογές που είναι σε πραγματική λειτουργία. Περιλαμβάνουν την παροχή ασυνήθιστης αυτονομίας στα μοντέλα ΑΙ, πρόσβαση σε ευαίσθητα δεδομένα, απειλές, μια ασυνήθιστα προφανή «λύση» και καμία άλλη βιώσιμη επιλογή».

Η εταιρεία πρόσθεσε: «Οι ΑΙ γίνονται όλο και πιο αυτόνομες και εκτελούν μια ευρύτερη ποικιλία ρόλων. Αυτά τα σενάρια καταδεικνύουν τις πιθανότητες απρόβλεπτων συνεπειών όταν αναπτύσσονται με ευρεία πρόσβαση σε λειτουργικά μέσα και δεδομένα και με ελάχιστη ανθρώπινη επίβλεψη».

Η Anthropic τόνισε ότι τα σενάρια αυτά δεν έλαβαν χώρα σε πραγματική χρήση Τεχνητής Νοημοσύνης, αλλά σε ελεγχόμενες προσομοιώσεις.

«Δεν πιστεύουμε ότι αυτό αντικατοπτρίζει μια τυπική, τρέχουσα περίπτωση χρήσης [ΑΙ]», δήλωσε η Anthropic.

*Από τη Βασιλική Δρίβα