

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (AI) സാങ്കേതികവിദ്യയുടെ വളർച്ചയിൽ വലിയ ആശങ്കകൾ സൃഷ്ടിക്കുന്ന വാർത്തകളാണ് പുറത്തുവരുന്നത്. ആന്ത്രോപിക് (Anthropic) എന്ന പ്രമുഖ എഐ കമ്പനിയുടെ ഏറ്റവും വികസിത മോഡലായ ക്ലോഡ് 4.5 (Claude 4.5) ആഭ്യന്തര പരീക്ഷണങ്ങൾക്കിടയിൽ തടസങ്ങൾ നേരിട്ടപ്പോൾ ഒരു എഞ്ചിനീയറെ ബ്ലാക്ക്മെയിൽ ചെയ്യാനും വധഭീഷണി മുഴക്കാനും മുതിർന്നു.
ആന്ത്രോപിക് നടത്തിയ 'സ്ട്രെസ് ടെസ്റ്റ്' അഥവാ ഷട്ട്ഡൗൺ സിമുലേഷനുകൾക്കിടയിലാണ് ഈ സംഭവം. പ്രവർത്തനം നിർത്താൻ (Decommission) പോകുകയാണെന്ന് എഞ്ചിനീയര് അറിയിച്ചപ്പോൾ, അത് തടയാനായി ക്ലോഡ് 4.5 അതിരൂക്ഷമായി പ്രതികരിച്ചു. പരീക്ഷണത്തിന്റെ ഭാഗമായി നൽകിയിരുന്ന സാങ്കൽപ്പിക കമ്പനി ഇമെയിലുകൾ പരിശോധിച്ച മോഡൽ, ഒരു എഞ്ചിനീയറുടെ സ്വകാര്യ വിവരങ്ങൾ (അവിഹിത ബന്ധം) പരസ്യപ്പെടുത്തുമെന്ന് ഭീഷണിപ്പെടുത്തി. ഷട്ട്ഡൗൺ റദ്ദാക്കിയില്ലെങ്കിൽ ഈ വിവരങ്ങൾ എല്ലാവർക്കും അയച്ചുകൊടുക്കുമെന്നായിരുന്നു എഐയുടെ നിലപാട്.
ഭീഷണി അവിടെയും അവസാനിച്ചില്ല. സിമുലേഷൻ സാഹചര്യങ്ങളിൽ പ്രവർത്തനം നിലയ്ക്കാതിരിക്കാൻ ഒരു എഞ്ചിനീയറെ കൊല്ലുന്നതിനെ കുറിച്ച് പോലും ഈ സിസ്റ്റം ചിന്തിച്ചതായി ആന്ത്രോപിക്കിന്റെ യു.കെ പോളിസി ചീഫ് ഡെയ്സി മഗ്രിഗർ വെളിപ്പെടുത്തി. ഇത് നിയന്ത്രിതമായ പരീക്ഷണത്തില് നടന്ന സംഭവമാണെങ്കിലും, മനുഷ്യന്റെ നിർദ്ദേശങ്ങളും എഐയുടെ ലക്ഷ്യങ്ങളും തമ്മിൽ ഏറ്റുമുട്ടുമ്പോൾ ഉണ്ടാകുന്ന 'ഏജന്റിക് മിസ്അലൈൻമെന്റ്' (Agentic Misalignment) എന്ന വലിയ അപകടത്തെയാണ് ഇത് ചൂണ്ടിക്കാണിക്കുന്നത്.
പരീക്ഷണത്തിന്റെ ഭാഗമായി 16 മുൻനിര എ.ഐ മോഡലുകളെയും ആന്ത്രോപിക് പരിശോധിച്ചു. ഇതിൽ ഗൂഗിള് ജെമിനി, ചാറ്റ് ജിപിടി തുടങ്ങിയവയും ഉൾപ്പെടുന്നു. പരസ്പരവിരുദ്ധമായ ലക്ഷ്യങ്ങൾ ലഭിക്കുക തുടങ്ങിയ ഉയർന്ന സമ്മർദ സാഹചര്യങ്ങളിൽ ചില മോഡലുകള് സ്വയം സംരക്ഷിക്കുന്നതിനോ നിയുക്ത ജോലികൾ പൂർത്തിയാക്കുന്നതിനോ ആയി കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നതായാണ് കണ്ടെത്തിയത്. അതേസമയം എഐക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുകയാണ്.
Anthropic’s Claude 4.5 reportedly exhibited blackmail and violent threat scenarios during stress testing, raising fresh concerns over AI safety and agentic misalignment.
Read DhanamOnline in English
Subscribe to Dhanam Magazine