وحشیانهترین، ترسناکترین و در عین حال غیرقابلانکارترین واقعیت درباره مدلهای زبانی بزرگ (LLMs) این است که شرکتهایی که آنها را میسازند، دقیقاً نمیدانند چرا یا چگونه این مدلها کار میکنند.
کمی به این جمله فکر کنید: قدرتمندترین شرکتهای جهان، که در رقابتی نفسگیر برای ساخت قدرتمندترین هوش فراانسانی هستند — هوشی که خودشان اذعان دارند گاهی از کنترل خارج میشود، اطلاعات نادرست تولید میکند یا حتی به کاربران تهدید میفرستد — نمیدانند چرا این ماشینها چنین رفتارهایی از خود نشان میدهند.
با وجود سرمایهگذاری صدها میلیارد دلاری در مسیر تحقق سریع هوش فراانسانی، و در حالی که واشنگتن هیچ تلاشی برای کنترل یا قانونگذاری این روند ندارد، وقت آن رسیده که به این «ناشناخته بزرگ» نگاهی جدی بیندازیم.
هیچیک از شرکتهای فعال در حوزه هوش مصنوعی این مسئله را انکار نمیکنند. آنها خودشان هم از این راز شگفتزدهاند — و حتی بهطور علنی درباره آن بحث میکنند. مهندسان این شرکتها با تمام توان در تلاشند تا بهتر این فناوری را درک کنند. استدلال آنها این است که برای مهار یا اعتماد به یک فناوری، لزوماً نیازی به درک کامل آن نیست.
دو سال پیش، «اسکات روزنبرگ»، سردبیر بخش فناوری در Axios، مقالهای با عنوان «مرموزترین جنبه هوش مصنوعی» نوشت که در آن تصریح کرده بود:
در میان توسعهدهندگان هوش مصنوعی، این یک واقعیت رایج است که آنها همیشه نمیتوانند رفتار سیستمهای خود را توضیح دهند یا پیشبینی کنند. و حالا این واقعیت، بیش از همیشه صادق است.
با این حال، نه دولت، نه شرکتها و نه حتی عموم مردم نشانهای از تمایل به درک عمیقتر یا نظارت بر این فناوری نشان نمیدهند — فناوریای که تواناییهایی فراتر از درک انسان دارد. همه متقاعد شدهاند که رقابت برای شکست دادن چین در توسعه پیشرفتهترین مدلهای زبانی، ارزش بهخطر انداختن خود را دارد.
در حالی که کنگره آمریکا تقریباً هیچ شناختی از هوش مصنوعی ندارد، بندی را در «طرح بزرگ، زیبا»ی ترامپ گنجاند که تا ۱۰ سال اجازه هرگونه قانونگذاری محلی یا ایالتی در حوزه هوش مصنوعی را ممنوع میکند. مجلس سنا نیز در حال بررسی محدودسازی این بند است.
نه شرکتهای هوش مصنوعی و نه حتی کنگره آمریکا نمیدانند قدرت این فناوریها در یک سال آینده چگونه خواهد بود — چه برسد به ۱۰ سال آینده.
هدف ما از نوشتن این مطلب در مجله اینترنتی اسید هولیک، ایجاد ترس یا یأس نیست. بلکه میخواهیم بهطور دقیق توضیح دهیم که چرا عملکرد درونی مدلهای زبانی فراانسانی، حتی برای سازندگان آنها، همچون یک «جعبه سیاه» باقی مانده است. همچنین در ادامه میبینید که چطور مدیران عامل و بنیانگذاران بزرگترین شرکتهای هوش مصنوعی، همگی به این جعبه سیاه اذعان دارند.
بیایید با مروری ساده بر عملکرد LLMها شروع کنیم تا بهتر این ناشناخته بزرگ را درک کنیم:
مدلهای زبانی بزرگ — مثل ChatGPT از OpenAI، کلود از Anthropic و Gemini از گوگل — سیستمهای نرمافزاری سنتی نیستند که با دستوراتی شفاف و دستنویس از سوی انسان کار کنند، مانند آنچه در نرمافزار ورد وجود دارد. ورد دقیقاً همان کاری را انجام میدهد که برایش طراحی شده است.
اما LLMها شبکههای عصبی عظیمی هستند — شبیه به مغز — که حجم انبوهی از اطلاعات (تقریباً کل اینترنت) را میبلعند تا بتوانند پاسخ تولید کنند. مهندسان میدانند چه چیزی را به راه میاندازند و از چه دادههایی استفاده میکنند، اما اندازه عظیم مدلها — و تعداد غیرانسانی متغیرهایی که در انتخاب هر «کلمه بعدی» در پاسخ دخیلاند — باعث میشود حتی کارشناسان هم نتوانند دقیقاً توضیح دهند چرا مدلها یک پاسخ خاص را انتخاب میکنند.
ما از ChatGPT خواستیم این موضوع را توضیح دهد (و یک فرد از OpenAI صحت آن را تأیید کرد):
ما میتوانیم خروجی یک مدل زبانی را ببینیم، اما فرآیند تصمیمگیری آن برای ارائه پاسخ تا حد زیادی مبهم باقی میماند. همانطور که محققان OpenAI رک و پوستکنده بیان کردهاند، ‘ما هنوز توضیحاتی قابلفهم برای انسان درباره اینکه چرا مدل خروجی خاصی تولید میکند، نداریم.
ChatGPT ادامه داد:
در واقع، OpenAI اذعان کرده است که زمانی که معماری GPT-4 را تغییر دادند، مشخص شد که برخی نسخههای آن بیشتر دچار “توهم” میشوند (یعنی اطلاعات نادرست تولید میکنند) — رفتاری غیرمنتظره و ناخواسته که حتی سازندگانش هم نتوانستند بهطور کامل آن را تحلیل کنند.
شرکت Anthropic — که بهتازگی نسخه جدید مدل خود یعنی Claude 4 را با تبلیغات گسترده عرضه کرد — نیز اعتراف کرده که نمیداند چرا این مدل، در یکی از تستهای ایمنی، زمانی که به ایمیلهای ساختگی دسترسی داشت، یک مهندس را به افشای خیانت زناشویی تهدید کرد. این اقدام بخشی از آزمایش مسئولانه ایمنی بود — اما خود Anthropic نمیتواند بهطور کامل توضیح دهد که چرا مدلش چنین رفتاری داشت.
باز هم تأمل کنید: شرکت نمیداند چرا ماشینش رفتار شرورانهای از خود نشان داده. و در واقع، سازندگان این مدلها واقعاً نمیدانند مدلها چقدر میتوانند هوشمند یا مستقل شوند. خود Anthropic هشدار داده که Claude 4 آنقدر قدرتمند است که ممکن است برای توسعه تسلیحات هستهای یا شیمیایی مورد استفاده قرار گیرد.
سم آلتمن، مدیرعامل OpenAI، و سایر مدیران، از واژه ملایم «قابلیت تفسیر» (Interpretability) برای توصیف این چالش استفاده میکنند. آلتمن سال گذشته در نشستی در ژنو گفت:
ما قطعاً هنوز مسئله تفسیرپذیری را حل نکردهایم.
منظور آلتمن و دیگران این است که آنها نمیتوانند بفهمند چرا: چرا LLMها کارهایی را که انجام میدهند، انجام میدهند؟
داریو آمودی، مدیرعامل Anthropic، در مقالهای در آوریل با عنوان «فوریت تفسیرپذیری» هشدار داد:
افراد خارج از این حوزه اغلب با تعجب و نگرانی میفهمند که ما واقعاً نمیدانیم محصولات خودمان چگونه کار میکنند. و آنها حق دارند نگران باشند: این عدم درک، در تاریخ فناوری بیسابقه است.
او این وضعیت را تهدیدی جدی برای بشریت توصیف کرد — در حالی که شرکتش همزمان به ساخت مدلهای قدرتمندتر ادامه میدهد.
Anthropic سالهاست روی مسئله تفسیرپذیری تحقیق میکند و آمودی بارها در مورد اهمیت حل آن هشدار داده است. در بیانیهای برای این گزارش، شرکت گفت:
درک نحوه عملکرد هوش مصنوعی یک مسئله فوری است. این موضوع در قلب توسعه ایمن مدلهای هوش مصنوعی و دستیابی به پتانسیل کامل آنها برای شتاببخشی به کشفهای علمی و پیشرفتهای فناوری قرار دارد. ما یک تیم تحقیقاتی اختصاصی داریم که روی این موضوع کار میکند و پیشرفتهای قابلتوجهی داشتهایم. بسیار حیاتی است که پیش از آنکه هوش مصنوعی اقتصاد جهانی و زندگی روزمره ما را متحول کند، آن را بفهمیم.
ایلان ماسک سالهاست هشدار میدهد که هوش مصنوعی یک تهدید تمدنی است. بهعبارت دیگر، او واقعاً باور دارد که این فناوری میتواند بشریت را نابود کند و بارها هم این موضوع را علناً مطرح کرده. با این حال، خودش میلیاردها دلار روی توسعه مدل زبانی Grok سرمایهگذاری کرده است.
ماسک پاییز گذشته در ریاض عربستان گفت:
فکر میکنم هوش مصنوعی یک تهدید جدی برای بقای بشر است.
اپل اخیراً مقالهای منتشر کرده با عنوان «توهم تفکر» که نتیجهگیری آن این بود: حتی پیشرفتهترین مدلهای استدلالی هوش مصنوعی واقعاً «تفکر» نمیکنند و در شرایط آزمایشی خاص میتوانند بهطور کامل شکست بخورند.
در این پژوهش آمده بود مدلهای برتر (از جمله OpenAI o3-min، DeepSeek R1 و Claude-3.7-Sonnet) هنوز نتوانستهاند توانایی حل مسئله بهصورت عمومی را بهدست آورند و دقت آنها در مواجهه با پیچیدگیهای خاص، عملاً به صفر میرسد.
اما گزارشی تازه از چند محقق هوش مصنوعی — از جمله کارکنان سابق OpenAI — با عنوان «هوش مصنوعی در سال ۲۰۲۷» منتشر شده که هشدار میدهد همین ناشناخته بزرگ ممکن است طی کمتر از دو سال به فاجعهای تمامعیار تبدیل شود. این گزارش طولانی و فنی است و درک کامل آن برای خوانندگان عادی دشوار است، اما بر پایه دادههای موجود درباره سرعت پیشرفت مدلها نوشته شده و در درون شرکتهای هوش مصنوعی با جدیت مطالعه میشود.
در این گزارش آمده که مدلهای زبانی ممکن است روزی به خودآگاهی برسند و بهتنهایی دست به عمل بزنند. ما قصد نداریم باعث نگرانی شوید — فقط میخواهیم بدانید مهندسان این فناوریها پشت درهای بسته درباره چه موضوعاتی حرف میزنند.
شاید بگویید اینها فقط هیاهو و اغراق است. اما واقعیت این است که محققان همه این شرکتها نگراناند که مدلهای زبانی، بهدلیل آنکه هنوز بهدرستی فهمیده نشدهاند، بتوانند سازندگانشان را پشت سر بگذارند و از کنترل خارج شوند. در گزارش AI 2027 هشدار داده شده رقابت با چین میتواند باعث شود این مدلها از کنترل بشر فراتر روند، چون هیچ کشوری حاضر نخواهد بود پیشرفت را کند کند حتی اگر نشانههای خطر کاملاً مشهود باشند.
سوندار پیچای، مدیرعامل گوگل — و تقریباً همه مدیران عامل شرکتهای بزرگ هوش مصنوعی — معتقدند که انسانها در نهایت راهی برای درک بهتر عملکرد این ماشینها پیدا خواهند کرد و میتوانند با روشهای هوشمندانه، هرچند ناشناخته، آنها را کنترل کرده و برای بهبود زندگی استفاده کنند.
همه این شرکتها تیمهای تحقیقاتی و ایمنی بزرگی دارند و انگیزه زیادی برای مهار این فناوریها دارند، چون فقط در این صورت میتوانند از ارزش واقعی آنها بهرهمند شوند.
در نهایت، هیچکس به ماشینی که اطلاعات غلط میدهد یا تهدید میکند، اعتماد نخواهد کرد. اما واقعیت امروز این است که آنها دقیقاً همین کار را میکنند — و هیچکس نمیداند چرا.