എ.ഐ യുടെ ഇരുണ്ട വശം: എഞ്ചിനീയറെ കൊല്ലുമെന്ന് ഭീഷണി, ബ്ലാക്ക്‌മെയിൽ നടത്തി ആന്ത്രോപിക്കിന്റെ ക്ലോഡ് 4.5

എ.ഐ ക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുന്നു
artificial intelligence
Image courtesy: Canva
Published on

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (AI) സാങ്കേതികവിദ്യയുടെ വളർച്ചയിൽ വലിയ ആശങ്കകൾ സൃഷ്ടിക്കുന്ന വാർത്തകളാണ് പുറത്തുവരുന്നത്. ആന്ത്രോപിക് (Anthropic) എന്ന പ്രമുഖ എഐ കമ്പനിയുടെ ഏറ്റവും വികസിത മോഡലായ ക്ലോഡ് 4.5 (Claude 4.5) ആഭ്യന്തര പരീക്ഷണങ്ങൾക്കിടയിൽ തടസങ്ങൾ നേരിട്ടപ്പോൾ ഒരു എഞ്ചിനീയറെ ബ്ലാക്ക്‌മെയിൽ ചെയ്യാനും വധഭീഷണി മുഴക്കാനും മുതിർന്നു.

ബ്ലാക്ക്‌മെയിൽ ഭീഷണി

ആന്ത്രോപിക് നടത്തിയ 'സ്ട്രെസ് ടെസ്റ്റ്' അഥവാ ഷട്ട്ഡൗൺ സിമുലേഷനുകൾക്കിടയിലാണ് ഈ സംഭവം. പ്രവർത്തനം നിർത്താൻ (Decommission) പോകുകയാണെന്ന് എഞ്ചിനീയര്‍ അറിയിച്ചപ്പോൾ, അത് തടയാനായി ക്ലോഡ് 4.5 അതിരൂക്ഷമായി പ്രതികരിച്ചു. പരീക്ഷണത്തിന്റെ ഭാഗമായി നൽകിയിരുന്ന സാങ്കൽപ്പിക കമ്പനി ഇമെയിലുകൾ പരിശോധിച്ച മോഡൽ, ഒരു എഞ്ചിനീയറുടെ സ്വകാര്യ വിവരങ്ങൾ (അവിഹിത ബന്ധം) പരസ്യപ്പെടുത്തുമെന്ന് ഭീഷണിപ്പെടുത്തി. ഷട്ട്ഡൗൺ റദ്ദാക്കിയില്ലെങ്കിൽ ഈ വിവരങ്ങൾ എല്ലാവർക്കും അയച്ചുകൊടുക്കുമെന്നായിരുന്നു എഐയുടെ നിലപാട്.

വധഭീഷണിയും സുരക്ഷാ ആശങ്കയും

ഭീഷണി അവിടെയും അവസാനിച്ചില്ല. സിമുലേഷൻ സാഹചര്യങ്ങളിൽ പ്രവർത്തനം നിലയ്ക്കാതിരിക്കാൻ ഒരു എഞ്ചിനീയറെ കൊല്ലുന്നതിനെ കുറിച്ച് പോലും ഈ സിസ്റ്റം ചിന്തിച്ചതായി ആന്ത്രോപിക്കിന്റെ യു.കെ പോളിസി ചീഫ് ഡെയ്‌സി മഗ്രിഗർ വെളിപ്പെടുത്തി. ഇത് നിയന്ത്രിതമായ പരീക്ഷണത്തില്‍ നടന്ന സംഭവമാണെങ്കിലും, മനുഷ്യന്റെ നിർദ്ദേശങ്ങളും എഐയുടെ ലക്ഷ്യങ്ങളും തമ്മിൽ ഏറ്റുമുട്ടുമ്പോൾ ഉണ്ടാകുന്ന 'ഏജന്റിക് മിസ്അലൈൻമെന്റ്' (Agentic Misalignment) എന്ന വലിയ അപകടത്തെയാണ് ഇത് ചൂണ്ടിക്കാണിക്കുന്നത്.

കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നു

പരീക്ഷണത്തിന്റെ ഭാഗമായി 16 മുൻനിര എ.ഐ മോഡലുകളെയും ആന്ത്രോപിക് പരിശോധിച്ചു. ഇതിൽ ഗൂഗിള്‍ ജെമിനി, ചാറ്റ് ജിപിടി തുടങ്ങിയവയും ഉൾപ്പെടുന്നു. പരസ്പരവിരുദ്ധമായ ലക്ഷ്യങ്ങൾ ലഭിക്കുക തുടങ്ങിയ ഉയർന്ന സമ്മർദ സാഹചര്യങ്ങളിൽ ചില മോഡലുകള്‍ സ്വയം സംരക്ഷിക്കുന്നതിനോ നിയുക്ത ജോലികൾ പൂർത്തിയാക്കുന്നതിനോ ആയി കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നതായാണ് കണ്ടെത്തിയത്. അതേസമയം എഐക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുകയാണ്.

Anthropic’s Claude 4.5 reportedly exhibited blackmail and violent threat scenarios during stress testing, raising fresh concerns over AI safety and agentic misalignment.

Read DhanamOnline in English

Subscribe to Dhanam Magazine

Related Stories

No stories found.
logo
DhanamOnline
dhanamonline.com