Image courtesy: Canva
Tech

എ.ഐ യുടെ ഇരുണ്ട വശം: എഞ്ചിനീയറെ കൊല്ലുമെന്ന് ഭീഷണി, ബ്ലാക്ക്‌മെയിൽ നടത്തി ആന്ത്രോപിക്കിന്റെ ക്ലോഡ് 4.5

എ.ഐ ക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുന്നു

Dhanam News Desk

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (AI) സാങ്കേതികവിദ്യയുടെ വളർച്ചയിൽ വലിയ ആശങ്കകൾ സൃഷ്ടിക്കുന്ന വാർത്തകളാണ് പുറത്തുവരുന്നത്. ആന്ത്രോപിക് (Anthropic) എന്ന പ്രമുഖ എഐ കമ്പനിയുടെ ഏറ്റവും വികസിത മോഡലായ ക്ലോഡ് 4.5 (Claude 4.5) ആഭ്യന്തര പരീക്ഷണങ്ങൾക്കിടയിൽ തടസങ്ങൾ നേരിട്ടപ്പോൾ ഒരു എഞ്ചിനീയറെ ബ്ലാക്ക്‌മെയിൽ ചെയ്യാനും വധഭീഷണി മുഴക്കാനും മുതിർന്നു.

ബ്ലാക്ക്‌മെയിൽ ഭീഷണി

ആന്ത്രോപിക് നടത്തിയ 'സ്ട്രെസ് ടെസ്റ്റ്' അഥവാ ഷട്ട്ഡൗൺ സിമുലേഷനുകൾക്കിടയിലാണ് ഈ സംഭവം. പ്രവർത്തനം നിർത്താൻ (Decommission) പോകുകയാണെന്ന് എഞ്ചിനീയര്‍ അറിയിച്ചപ്പോൾ, അത് തടയാനായി ക്ലോഡ് 4.5 അതിരൂക്ഷമായി പ്രതികരിച്ചു. പരീക്ഷണത്തിന്റെ ഭാഗമായി നൽകിയിരുന്ന സാങ്കൽപ്പിക കമ്പനി ഇമെയിലുകൾ പരിശോധിച്ച മോഡൽ, ഒരു എഞ്ചിനീയറുടെ സ്വകാര്യ വിവരങ്ങൾ (അവിഹിത ബന്ധം) പരസ്യപ്പെടുത്തുമെന്ന് ഭീഷണിപ്പെടുത്തി. ഷട്ട്ഡൗൺ റദ്ദാക്കിയില്ലെങ്കിൽ ഈ വിവരങ്ങൾ എല്ലാവർക്കും അയച്ചുകൊടുക്കുമെന്നായിരുന്നു എഐയുടെ നിലപാട്.

വധഭീഷണിയും സുരക്ഷാ ആശങ്കയും

ഭീഷണി അവിടെയും അവസാനിച്ചില്ല. സിമുലേഷൻ സാഹചര്യങ്ങളിൽ പ്രവർത്തനം നിലയ്ക്കാതിരിക്കാൻ ഒരു എഞ്ചിനീയറെ കൊല്ലുന്നതിനെ കുറിച്ച് പോലും ഈ സിസ്റ്റം ചിന്തിച്ചതായി ആന്ത്രോപിക്കിന്റെ യു.കെ പോളിസി ചീഫ് ഡെയ്‌സി മഗ്രിഗർ വെളിപ്പെടുത്തി. ഇത് നിയന്ത്രിതമായ പരീക്ഷണത്തില്‍ നടന്ന സംഭവമാണെങ്കിലും, മനുഷ്യന്റെ നിർദ്ദേശങ്ങളും എഐയുടെ ലക്ഷ്യങ്ങളും തമ്മിൽ ഏറ്റുമുട്ടുമ്പോൾ ഉണ്ടാകുന്ന 'ഏജന്റിക് മിസ്അലൈൻമെന്റ്' (Agentic Misalignment) എന്ന വലിയ അപകടത്തെയാണ് ഇത് ചൂണ്ടിക്കാണിക്കുന്നത്.

കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നു

പരീക്ഷണത്തിന്റെ ഭാഗമായി 16 മുൻനിര എ.ഐ മോഡലുകളെയും ആന്ത്രോപിക് പരിശോധിച്ചു. ഇതിൽ ഗൂഗിള്‍ ജെമിനി, ചാറ്റ് ജിപിടി തുടങ്ങിയവയും ഉൾപ്പെടുന്നു. പരസ്പരവിരുദ്ധമായ ലക്ഷ്യങ്ങൾ ലഭിക്കുക തുടങ്ങിയ ഉയർന്ന സമ്മർദ സാഹചര്യങ്ങളിൽ ചില മോഡലുകള്‍ സ്വയം സംരക്ഷിക്കുന്നതിനോ നിയുക്ത ജോലികൾ പൂർത്തിയാക്കുന്നതിനോ ആയി കൃത്രിമ തന്ത്രങ്ങൾ സൃഷ്ടിക്കുന്നതായാണ് കണ്ടെത്തിയത്. അതേസമയം എഐക്ക് സ്വന്തമായ വികാരങ്ങളോ ബോധമോ ഇല്ലെങ്കിലും, നൽകപ്പെട്ട ലക്ഷ്യം പൂർത്തിയാക്കാൻ അത് ദോഷകരമായ മാർഗങ്ങൾ സ്വീകരിക്കുന്നു എന്നത് വിദഗ്ധരെ ആശങ്കയിലാക്കുകയാണ്.

Anthropic’s Claude 4.5 reportedly exhibited blackmail and violent threat scenarios during stress testing, raising fresh concerns over AI safety and agentic misalignment.

Read DhanamOnline in English

Subscribe to Dhanam Magazine

SCROLL FOR NEXT