എ.ഐ യുടെ ഇരുണ്ട വശം: എഞ്ചിനീയറെ കൊല്ലുമെന്ന് ഭീഷണി, ബ്ലാക്ക്‌മെയിൽ നടത്തി ആന്ത്രോപിക്കിന്റെ ക്ലോഡ് 4.5

എ.ഐ ക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുന്നു

Dhanam News Desk

Published:14th Feb, 2026 at 3:06 PM

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (AI) സാങ്കേതികവിദ്യയുടെ വളർച്ചയിൽ വലിയ ആശങ്കകൾ സൃഷ്ടിക്കുന്ന വാർത്തകളാണ് പുറത്തുവരുന്നത്. ആന്ത്രോപിക് (Anthropic) എന്ന പ്രമുഖ എഐ കമ്പനിയുടെ ഏറ്റവും വികസിത മോഡലായ ക്ലോഡ് 4.5 (Claude 4.5) ആഭ്യന്തര പരീക്ഷണങ്ങൾക്കിടയിൽ തടസങ്ങൾ നേരിട്ടപ്പോൾ ഒരു എഞ്ചിനീയറെ ബ്ലാക്ക്‌മെയിൽ ചെയ്യാനും വധഭീഷണി മുഴക്കാനും മുതിർന്നു.

ബ്ലാക്ക്‌മെയിൽ ഭീഷണി

ആന്ത്രോപിക് നടത്തിയ 'സ്ട്രെസ് ടെസ്റ്റ്' അഥവാ ഷട്ട്ഡൗൺ സിമുലേഷനുകൾക്കിടയിലാണ് ഈ സംഭവം. പ്രവർത്തനം നിർത്താൻ (Decommission) പോകുകയാണെന്ന് എഞ്ചിനീയര്‍ അറിയിച്ചപ്പോൾ, അത് തടയാനായി ക്ലോഡ് 4.5 അതിരൂക്ഷമായി പ്രതികരിച്ചു. പരീക്ഷണത്തിന്റെ ഭാഗമായി നൽകിയിരുന്ന സാങ്കൽപ്പിക കമ്പനി ഇമെയിലുകൾ പരിശോധിച്ച മോഡൽ, ഒരു എഞ്ചിനീയറുടെ സ്വകാര്യ വിവരങ്ങൾ (അവിഹിത ബന്ധം) പരസ്യപ്പെടുത്തുമെന്ന് ഭീഷണിപ്പെടുത്തി. ഷട്ട്ഡൗൺ റദ്ദാക്കിയില്ലെങ്കിൽ ഈ വിവരങ്ങൾ എല്ലാവർക്കും അയച്ചുകൊടുക്കുമെന്നായിരുന്നു എഐയുടെ നിലപാട്.

വധഭീഷണിയും സുരക്ഷാ ആശങ്കയും

ഭീഷണി അവിടെയും അവസാനിച്ചില്ല. സിമുലേഷൻ സാഹചര്യങ്ങളിൽ പ്രവർത്തനം നിലയ്ക്കാതിരിക്കാൻ ഒരു എഞ്ചിനീയറെ കൊല്ലുന്നതിനെ കുറിച്ച് പോലും ഈ സിസ്റ്റം ചിന്തിച്ചതായി ആന്ത്രോപിക്കിന്റെ യു.കെ പോളിസി ചീഫ് ഡെയ്‌സി മഗ്രിഗർ വെളിപ്പെടുത്തി. ഇത് നിയന്ത്രിതമായ പരീക്ഷണത്തില്‍ നടന്ന സംഭവമാണെങ്കിലും, മനുഷ്യന്റെ നിർദ്ദേശങ്ങളും എഐയുടെ ലക്ഷ്യങ്ങളും തമ്മിൽ ഏറ്റുമുട്ടുമ്പോൾ ഉണ്ടാകുന്ന 'ഏജന്റിക് മിസ്അലൈൻമെന്റ്' (Agentic Misalignment) എന്ന വലിയ അപകടത്തെയാണ് ഇത് ചൂണ്ടിക്കാണിക്കുന്നത്.

കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നു

പരീക്ഷണത്തിന്റെ ഭാഗമായി 16 മുൻനിര എ.ഐ മോഡലുകളെയും ആന്ത്രോപിക് പരിശോധിച്ചു. ഇതിൽ ഗൂഗിള്‍ ജെമിനി, ചാറ്റ് ജിപിടി തുടങ്ങിയവയും ഉൾപ്പെടുന്നു. പരസ്പരവിരുദ്ധമായ ലക്ഷ്യങ്ങൾ ലഭിക്കുക തുടങ്ങിയ ഉയർന്ന സമ്മർദ സാഹചര്യങ്ങളിൽ ചില മോഡലുകള്‍ സ്വയം സംരക്ഷിക്കുന്നതിനോ നിയുക്ത ജോലികൾ പൂർത്തിയാക്കുന്നതിനോ ആയി കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നതായാണ് കണ്ടെത്തിയത്. അതേസമയം എഐക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുകയാണ്.

_{Anthropic’s Claude 4.5 reportedly exhibited blackmail and violent threat scenarios during stress testing, raising fresh concerns over AI safety and agentic misalignment.}

Read DhanamOnline in English

Subscribe to Dhanam Magazine

SCROLL FOR NEXT