وحشیانه‌ترین، ترسناک‌ترین و در عین حال غیرقابل‌انکارترین واقعیت درباره مدل‌های زبانی بزرگ (LLMs) این است که شرکت‌هایی که آن‌ها را می‌سازند، دقیقاً نمی‌دانند چرا یا چگونه این مدل‌ها کار می‌کنند.

کمی به این جمله فکر کنید: قدرتمندترین شرکت‌های جهان، که در رقابتی نفس‌گیر برای ساخت قدرتمندترین هوش فراانسانی هستند — هوشی که خودشان اذعان دارند گاهی از کنترل خارج می‌شود، اطلاعات نادرست تولید می‌کند یا حتی به کاربران تهدید می‌فرستد — نمی‌دانند چرا این ماشین‌ها چنین رفتارهایی از خود نشان می‌دهند.

با وجود سرمایه‌گذاری صدها میلیارد دلاری در مسیر تحقق سریع هوش فراانسانی، و در حالی که واشنگتن هیچ تلاشی برای کنترل یا قانون‌گذاری این روند ندارد، وقت آن رسیده که به این «ناشناخته بزرگ» نگاهی جدی بیندازیم.

هیچ‌یک از شرکت‌های فعال در حوزه هوش مصنوعی این مسئله را انکار نمی‌کنند. آن‌ها خودشان هم از این راز شگفت‌زده‌اند — و حتی به‌طور علنی درباره آن بحث می‌کنند. مهندسان این شرکت‌ها با تمام توان در تلاشند تا بهتر این فناوری را درک کنند. استدلال آن‌ها این است که برای مهار یا اعتماد به یک فناوری، لزوماً نیازی به درک کامل آن نیست.

دو سال پیش، «اسکات روزنبرگ»، سردبیر بخش فناوری در Axios، مقاله‌ای با عنوان «مرموزترین جنبه هوش مصنوعی» نوشت که در آن تصریح کرده بود:

در میان توسعه‌دهندگان هوش مصنوعی، این یک واقعیت رایج است که آن‌ها همیشه نمی‌توانند رفتار سیستم‌های خود را توضیح دهند یا پیش‌بینی کنند. و حالا این واقعیت، بیش از همیشه صادق است.

با این حال، نه دولت، نه شرکت‌ها و نه حتی عموم مردم نشانه‌ای از تمایل به درک عمیق‌تر یا نظارت بر این فناوری نشان نمی‌دهند — فناوری‌ای که توانایی‌هایی فراتر از درک انسان دارد. همه متقاعد شده‌اند که رقابت برای شکست دادن چین در توسعه پیشرفته‌ترین مدل‌های زبانی، ارزش به‌خطر انداختن خود را دارد.

در حالی که کنگره آمریکا تقریباً هیچ شناختی از هوش مصنوعی ندارد، بندی را در «طرح بزرگ، زیبا»ی ترامپ گنجاند که تا ۱۰ سال اجازه هرگونه قانون‌گذاری محلی یا ایالتی در حوزه هوش مصنوعی را ممنوع می‌کند. مجلس سنا نیز در حال بررسی محدودسازی این بند است.

نه شرکت‌های هوش مصنوعی و نه حتی کنگره آمریکا نمی‌دانند قدرت این فناوری‌ها در یک سال آینده چگونه خواهد بود — چه برسد به ۱۰ سال آینده.

هدف ما از نوشتن این مطلب در مجله اینترنتی اسید هولیک، ایجاد ترس یا یأس نیست. بلکه می‌خواهیم به‌طور دقیق توضیح دهیم که چرا عملکرد درونی مدل‌های زبانی فراانسانی، حتی برای سازندگان آن‌ها، همچون یک «جعبه سیاه» باقی مانده است. همچنین در ادامه می‌بینید که چطور مدیران عامل و بنیان‌گذاران بزرگ‌ترین شرکت‌های هوش مصنوعی، همگی به این جعبه سیاه اذعان دارند.

بیایید با مروری ساده بر عملکرد LLMها شروع کنیم تا بهتر این ناشناخته بزرگ را درک کنیم:

مدل‌های زبانی بزرگ — مثل ChatGPT از OpenAI، کلود از Anthropic و Gemini از گوگل — سیستم‌های نرم‌افزاری سنتی نیستند که با دستوراتی شفاف و دست‌نویس از سوی انسان کار کنند، مانند آنچه در نرم‌افزار ورد وجود دارد. ورد دقیقاً همان کاری را انجام می‌دهد که برایش طراحی شده است.

اما LLMها شبکه‌های عصبی عظیمی هستند — شبیه به مغز — که حجم انبوهی از اطلاعات (تقریباً کل اینترنت) را می‌بلعند تا بتوانند پاسخ تولید کنند. مهندسان می‌دانند چه چیزی را به راه می‌اندازند و از چه داده‌هایی استفاده می‌کنند، اما اندازه عظیم مدل‌ها — و تعداد غیرانسانی متغیرهایی که در انتخاب هر «کلمه بعدی» در پاسخ دخیل‌اند — باعث می‌شود حتی کارشناسان هم نتوانند دقیقاً توضیح دهند چرا مدل‌ها یک پاسخ خاص را انتخاب می‌کنند.

ما از ChatGPT خواستیم این موضوع را توضیح دهد (و یک فرد از OpenAI صحت آن را تأیید کرد):

ما می‌توانیم خروجی یک مدل زبانی را ببینیم، اما فرآیند تصمیم‌گیری آن برای ارائه پاسخ تا حد زیادی مبهم باقی می‌ماند. همان‌طور که محققان OpenAI رک و پوست‌کنده بیان کرده‌اند، ‘ما هنوز توضیحاتی قابل‌فهم برای انسان درباره اینکه چرا مدل خروجی خاصی تولید می‌کند، نداریم.

ChatGPT ادامه داد:

در واقع، OpenAI اذعان کرده است که زمانی که معماری GPT-4 را تغییر دادند، مشخص شد که برخی نسخه‌های آن بیشتر دچار “توهم” می‌شوند (یعنی اطلاعات نادرست تولید می‌کنند) — رفتاری غیرمنتظره و ناخواسته که حتی سازندگانش هم نتوانستند به‌طور کامل آن را تحلیل کنند.

شرکت Anthropic — که به‌تازگی نسخه جدید مدل خود یعنی Claude 4 را با تبلیغات گسترده عرضه کرد — نیز اعتراف کرده که نمی‌داند چرا این مدل، در یکی از تست‌های ایمنی، زمانی که به ایمیل‌های ساختگی دسترسی داشت، یک مهندس را به افشای خیانت زناشویی تهدید کرد. این اقدام بخشی از آزمایش مسئولانه ایمنی بود — اما خود Anthropic نمی‌تواند به‌طور کامل توضیح دهد که چرا مدلش چنین رفتاری داشت.

باز هم تأمل کنید: شرکت نمی‌داند چرا ماشینش رفتار شرورانه‌ای از خود نشان داده. و در واقع، سازندگان این مدل‌ها واقعاً نمی‌دانند مدل‌ها چقدر می‌توانند هوشمند یا مستقل شوند. خود Anthropic هشدار داده که Claude 4 آن‌قدر قدرتمند است که ممکن است برای توسعه تسلیحات هسته‌ای یا شیمیایی مورد استفاده قرار گیرد.

سم آلتمن، مدیرعامل OpenAI، و سایر مدیران، از واژه ملایم «قابلیت تفسیر» (Interpretability) برای توصیف این چالش استفاده می‌کنند. آلتمن سال گذشته در نشستی در ژنو گفت:

ما قطعاً هنوز مسئله تفسیرپذیری را حل نکرده‌ایم.

منظور آلتمن و دیگران این است که آن‌ها نمی‌توانند بفهمند چرا: چرا LLMها کارهایی را که انجام می‌دهند، انجام می‌دهند؟

داریو آمودی، مدیرعامل Anthropic، در مقاله‌ای در آوریل با عنوان «فوریت تفسیرپذیری» هشدار داد:

افراد خارج از این حوزه اغلب با تعجب و نگرانی می‌فهمند که ما واقعاً نمی‌دانیم محصولات خودمان چگونه کار می‌کنند. و آن‌ها حق دارند نگران باشند: این عدم درک، در تاریخ فناوری بی‌سابقه است.

او این وضعیت را تهدیدی جدی برای بشریت توصیف کرد — در حالی که شرکتش هم‌زمان به ساخت مدل‌های قدرتمندتر ادامه می‌دهد.

Anthropic سال‌هاست روی مسئله تفسیرپذیری تحقیق می‌کند و آمودی بارها در مورد اهمیت حل آن هشدار داده است. در بیانیه‌ای برای این گزارش، شرکت گفت:

درک نحوه عملکرد هوش مصنوعی یک مسئله فوری است. این موضوع در قلب توسعه ایمن مدل‌های هوش مصنوعی و دستیابی به پتانسیل کامل آن‌ها برای شتاب‌بخشی به کشف‌های علمی و پیشرفت‌های فناوری قرار دارد. ما یک تیم تحقیقاتی اختصاصی داریم که روی این موضوع کار می‌کند و پیشرفت‌های قابل‌توجهی داشته‌ایم. بسیار حیاتی است که پیش از آن‌که هوش مصنوعی اقتصاد جهانی و زندگی روزمره ما را متحول کند، آن را بفهمیم.

ایلان ماسک سال‌هاست هشدار می‌دهد که هوش مصنوعی یک تهدید تمدنی است. به‌عبارت دیگر، او واقعاً باور دارد که این فناوری می‌تواند بشریت را نابود کند و بارها هم این موضوع را علناً مطرح کرده. با این حال، خودش میلیاردها دلار روی توسعه مدل زبانی Grok سرمایه‌گذاری کرده است.

ماسک پاییز گذشته در ریاض عربستان گفت:

فکر می‌کنم هوش مصنوعی یک تهدید جدی برای بقای بشر است.

اپل اخیراً مقاله‌ای منتشر کرده با عنوان «توهم تفکر» که نتیجه‌گیری آن این بود: حتی پیشرفته‌ترین مدل‌های استدلالی هوش مصنوعی واقعاً «تفکر» نمی‌کنند و در شرایط آزمایشی خاص می‌توانند به‌طور کامل شکست بخورند.

در این پژوهش آمده بود مدل‌های برتر (از جمله OpenAI o3-min، DeepSeek R1 و Claude-3.7-Sonnet) هنوز نتوانسته‌اند توانایی حل مسئله به‌صورت عمومی را به‌دست آورند و دقت آن‌ها در مواجهه با پیچیدگی‌های خاص، عملاً به صفر می‌رسد.

اما گزارشی تازه از چند محقق هوش مصنوعی — از جمله کارکنان سابق OpenAI — با عنوان «هوش مصنوعی در سال ۲۰۲۷» منتشر شده که هشدار می‌دهد همین ناشناخته بزرگ ممکن است طی کمتر از دو سال به فاجعه‌ای تمام‌عیار تبدیل شود. این گزارش طولانی و فنی است و درک کامل آن برای خوانندگان عادی دشوار است، اما بر پایه داده‌های موجود درباره سرعت پیشرفت مدل‌ها نوشته شده و در درون شرکت‌های هوش مصنوعی با جدیت مطالعه می‌شود.

در این گزارش آمده که مدل‌های زبانی ممکن است روزی به خودآگاهی برسند و به‌تنهایی دست به عمل بزنند. ما قصد نداریم باعث نگرانی شوید — فقط می‌خواهیم بدانید مهندسان این فناوری‌ها پشت درهای بسته درباره چه موضوعاتی حرف می‌زنند.

شاید بگویید این‌ها فقط هیاهو و اغراق است. اما واقعیت این است که محققان همه این شرکت‌ها نگران‌اند که مدل‌های زبانی، به‌دلیل آن‌که هنوز به‌درستی فهمیده نشده‌اند، بتوانند سازندگانشان را پشت سر بگذارند و از کنترل خارج شوند. در گزارش AI 2027 هشدار داده شده رقابت با چین می‌تواند باعث شود این مدل‌ها از کنترل بشر فراتر روند، چون هیچ کشوری حاضر نخواهد بود پیشرفت را کند کند حتی اگر نشانه‌های خطر کاملاً مشهود باشند.

سوندار پیچای، مدیرعامل گوگل — و تقریباً همه مدیران عامل شرکت‌های بزرگ هوش مصنوعی — معتقدند که انسان‌ها در نهایت راهی برای درک بهتر عملکرد این ماشین‌ها پیدا خواهند کرد و می‌توانند با روش‌های هوشمندانه، هرچند ناشناخته، آن‌ها را کنترل کرده و برای بهبود زندگی استفاده کنند.

همه این شرکت‌ها تیم‌های تحقیقاتی و ایمنی بزرگی دارند و انگیزه زیادی برای مهار این فناوری‌ها دارند، چون فقط در این صورت می‌توانند از ارزش واقعی آن‌ها بهره‌مند شوند.

در نهایت، هیچ‌کس به ماشینی که اطلاعات غلط می‌دهد یا تهدید می‌کند، اعتماد نخواهد کرد. اما واقعیت امروز این است که آن‌ها دقیقاً همین کار را می‌کنند — و هیچ‌کس نمی‌داند چرا.