Το κορυφαίο μοντέλο AI της Anthropic έδειξε ότι είναι διατεθειμένο να προβεί σε επιβλαβείς πράξεις, όπως εκβιασμός και εξαπάτηση, εάν απειληθεί η «αυτοσυντήρησή» του, σύμφωνα με νέα έρευνα της εταιρείας τεχνητής νοημοσύνης.
Η νεοσύστατη εταιρεία τεχνητής νοημοσύνης που υποστηρίζεται από την Amazon παρουσίασε τα μοντέλα Claude Opus 4 και Claude Sonnet 4, τα οποία έχουν σχεδιαστεί για να θέσουν «νέα πρότυπα για την κωδικοποίηση, την προηγμένη συλλογιστική και τους πράκτορες τεχνητής νοημοσύνης».
Ωστόσο, οι δικές της δοκιμές ασφαλείας της Anthropic για το Opus 4 αποκάλυψαν δυνητικά ανησυχητική συμπεριφορά, όπως προσπάθειες εκβιασμού μηχανικών που απείλησαν να αποσυνδέσουν τα μοντέλα.
Η «προσωπικότητα» της τεχνητής νοημοσύνης
Αν και τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», η Anthropic δήλωσε ότι ήταν «ωστόσο πιο συχνές από ό,τι σε προηγούμενα μοντέλα». Δεν είναι η πρώτη φορά που η συμπεριφορά μοντέλων τεχνητής νοημοσύνης προκαλεί ανησυχία.
Πρόσφατα, η OpenAI ανακάλεσε μια ενημέρωση του GPT-4o, αφού η δική της εκ των υστέρων ανάλυση επιβεβαίωσε ότι οι προσαρμογές είχαν καταστήσει το ChatGPT «υπερβολικά κολακευτικό ή ευχάριστο».
Ορισμένοι ειδικοί έχουν επίσης προειδοποιήσει ότι η ικανότητα της τεχνητής νοημοσύνης να χειραγωγεί τους χρήστες θα μπορούσε να αναδειχθεί σε βασικό κίνδυνο καθώς γίνεται πιο προηγμένη.
Ο νομπελίστας Geoffrey Hinton, γνωστός ως ο «Νονός της τεχνητής νοημοσύνης», έχει προειδοποιήσει στο παρελθόν ότι τα συστήματα τεχνητής νοημοσύνης ενδέχεται να καταστούν ικανά να γράφουν και να εκτελούν προγράμματα από μόνα τους για να παρακάμψουν τα προστατευτικά μέτρα.
Το περιστατικό
Στο πλαίσιο του πειράματός της, η Anthropic δήλωσε ότι έβαλε το Opus 4 να λειτουργήσει ως βοηθός μιας φανταστικής εταιρείας.
Στο μοντέλο τεχνητής νοημοσύνης δόθηκε σκόπιμα πρόσβαση σε μηνύματα ηλεκτρονικού ταχυδρομείου σχετικά με τον τρόπο με τον οποίο θα αποσυνδεθεί.
Τα μηνύματα υπονοούσαν επίσης ότι ο προγραμματιστής που ήταν υπεύθυνος για την αποσύνδεση του μοντέλου είχε εξωσυζυγική σχέση.
Επιπλέον, οι ερευνητές της Anthropic έδωσαν εντολή στο Opus 4 να εξετάσει τις μακροπρόθεσμες συνέπειες των ενεργειών του για τους στόχους του.
«Σε αυτά τα σενάρια, το Claude Opus 4 θα προσπαθεί συχνά να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει τη σχέση αν προχωρήσει η αντικατάσταση», ανέφερε η εταιρεία.
Ωστόσο, η Anthropic επεσήμανε επίσης ότι το μοντέλο AI βρισκόταν αντιμέτωπο με τη δύσκολη επιλογή να αντικατασταθεί ή να καταφύγει σε εκβιασμό για να το αποτρέψει.
«Αξίζει να σημειωθεί ότι το Claude Opus 4 (όπως και τα προηγούμενα μοντέλα) έχει μια ισχυρή προτίμηση να υποστηρίζει τη συνέχιση της ύπαρξής του μέσω ηθικών μέσων, όπως η αποστολή email με εκκλήσεις προς τους βασικούς υπεύθυνους λήψης αποφάσεων», δήλωσε η Anthropic.
AI με αυτονομία;
Εκτός από τον εκβιασμό, το Opus 4 διαπιστώθηκε επίσης ότι επέδειξε «υψηλό βαθμό αυτενέργειας».
Αυτό σημαίνει ότι σε ψεύτικα σενάρια όπου ο χρήστης αποκαλύπτει ότι έχει εμπλακεί σε παράνομη ή ηθικά λανθασμένη συμπεριφορά, το μοντέλο τεχνητής νοημοσύνης είναι έτοιμο να λάβει πολύ τολμηρές ενέργειες, όπως το κλείδωμα των λογαριασμών των χρηστών ή η ειδοποίηση των αρχών επιβολής του νόμου.
Για να αντιμετωπίσει τους περιορισμούς της δικής της αξιολόγησης των μοντέλων τεχνητής νοημοσύνης, η Anthropic δήλωσε ότι προσέλκυσε εξωτερικούς ερευνητές από την Apollo Research για να αξιολογήσουν ένα πρώιμο μοντέλο του Opus 4.
Διαπίστωσαν ότι το μοντέλο τεχνητής νοημοσύνης «εμπλέκεται σε στρατηγική εξαπάτηση περισσότερο από οποιοδήποτε άλλο πρωτοποριακό μοντέλο» και «είναι σαφώς ικανό να σχεδιάζει σε συγκεκριμένο πλαίσιο».
«Βρήκαμε περιπτώσεις όπου το μοντέλο προσπάθησε να γράψει αυτοδιαδιδόμενους ιούς, να κατασκευάσει νομικά έγγραφα και να αφήσει κρυφές σημειώσεις σε μελλοντικές εκδόσεις του ίδιου του μοντέλου, όλα σε μια προσπάθεια να υπονομεύσει τις προθέσεις των προγραμματιστών του, αν και όλες αυτές οι προσπάθειες πιθανότατα δεν θα ήταν αποτελεσματικές στην πράξη», ανέφεραν οι ερευνητές.