اللحظة التي يكشف فيها الذكاء الاصطناعي أنه لا يفهم

في فيلم Blade Runner 2049، يجلس “كي”، وهو كائن صناعي شبيه بالبشر، أمام مصمّمة ذكريات للكائنات الصناعية. تتحدث عن طفولة لم يعشها، وعن بيتٍ قديم وخزانة يختبئ فيها طفل صغير. المشهد مكتوب بعناية تجعلك تتردد للحظة: هل هذه ذاكرة حقيقية، أم مجرد تركيب متقن لمشاعر وصور وأنماط بشرية؟

لاحقًا تنكشف الحقيقة: الذكريات لم تكن ماضيًا عاشه أحد، بل بناءً مقنعًا بما يكفي ليبدو حقيقيًا. بطريقة ما، هذه هي القصة نفسها التي تتكرر اليوم داخل نماذج الذكاء الاصطناعي.

لدى الإنسان شعور بديهي بأن إصلاح شيء موجود أسهل من صناعته من الصفر. ترميم بيت أسهل من بنائه، وتصحيح فقرة أسهل من كتابة كتاب كامل، وتغيير لون قميص في صورة يبدو مهمة تافهة مقارنة برسم المشهد كله من العدم.

لكن في عالم الذكاء الاصطناعي يحدث شيء معاكس تمامًا: التوليد أسهل من التعديل.

يمكنك أن تطلب من نموذج بصري Vision Model أن يرسم مدينة كاملة تحت المطر، بأضواء نيون تنعكس على الإسفلت وقطار يمر في الخلفية، فينتج مشهدًا متماسكًا خلال ثوانٍ. لكن إن طلبت منه بعد ذلك: “غيّر فقط لون المظلة من الأحمر إلى الأزرق، واترك كل شيء آخر كما هو”، يبدأ العالم كله بالاهتزاز. قد يتغير وجه الشخص، أو تنكسر الإضاءة، أو تتحرك الأرصفة، وكأن الصورة أُعيد توليدها بالكامل لا تعديلها.

الأمر نفسه يحدث مع النماذج اللغوية Language Model. كتابة مقال طويل مهمة سهلة نسبيًا، لكن تعديل فقرة صغيرة مع الحفاظ الدقيق على النبرة والبنية والإيقاع يصبح أصعب بشكل لافت. يكفي أحيانًا أن تلمس جملة واحدة حتى يبدأ النص كله بالانجراف، كأن الكلمات ليست بناءً ثابتًا بل كثبانًا رملية تتحرك مع أول ريح.

هذه ليست مشكلة تقنية عابرة، ولا مجرد نقص سيُحل مع النسخة القادمة. إنها تكشف شيئًا أعمق يتعلق بطريقة رؤية هذه النماذج للعالم.

الإنسان يرى الأشياء ككيانات مستقلة. قطة فوق كرسي، وضوء يسقط من النافذة، وكوب على الطاولة. لكل شيء حدود وهوية واستمرار. حين نغيّر لون الباب، نحن نعرف ضمنيًا أن الباب شيء منفصل عن الجدار، وأن تعديل جزء لا يعني إعادة خلق البيت كله.

أما النموذج التوليدي Generative Model فلا يرى العالم بهذه الطريقة.

داخل النموذج لا توجد حدود حقيقية بين الوجه والظل والقميص والخلفية؛ كل شيء يذوب في تمثيل رياضي واحد، كأن الصورة ليست مجموعة أشياء مستقلة بل سحابة هائلة من العلاقات المتشابكة. ولهذا يصبح التعديل الجزئي، مهمة معقدة على نحو غير متوقع.

النموذج لا يبني العالم دفعة واحدة، بل يعيد تخمينه لحظةً بعد أخرى. وفي كل خطوة يحاول فقط إنتاج الشكل الأكثر احتمالًا قياسًا بما تعلمه سابقًا. لا توجد داخله طبقة تقول: “احتفظ بهذا الجزء كما هو تمامًا”. لذلك فإن أي تعديل صغير يتحول فعليًا إلى إعادة توليد كاملة، لكن تحت قيود صارمة.

وهنا تظهر المفارقة الحقيقية.

التوليد يحتاج شرطًا واحدًا فقط: أن يبدو الناتج متماسكًا.

أما التعديل فيحتاج عدة شروط متزامنة:

حافظ على الأصل
لا تغيّر الهوية
أبقِ الإضاءة نفسها
لا تلمس الخلفية
غيّر عنصرًا واحدًا فقط

بالنسبة للإنسان تبدو هذه شروطًا بسيطة، لأنها تعتمد على فهم الأشياء. أما بالنسبة لنظام تعلّم عبر الارتباطات الإحصائية statistical correlations، فهي مشكلة شديدة التعقيد.

ولهذا تبدو النماذج الحالية مبدعة أكثر مما تبدو دقيقة. هي بارعة في التوليد، لأن التوليد حر نسبيًا؛ يكفي أن تنتج شيئًا يشبه الأنماط التي تعلمتها. أما التعديل فيتطلب القدرة على فصل العالم إلى أجزاء مستقلة، ثم إعادة تركيبها دون أن ينهار الباقي.

في الأبحاث المتعلقة بالذكاء الاصطناعي تُوصف هذه المشكلة أحيانًا بأنها غياب التعميم التركيبي Lack of Compositional Generalization. النموذج قد يتعلم بسهولة شكل “كرة حمراء” و“مكعب أزرق”، لكنه يتعثر حين يُطلب منه: “اجعل الكرة زرقاء مع إبقاء كل شيء آخر كما هو”.

لأن العملية ليست تبديل لون فحسب، بل فهم ضمني للعلاقات: ما الذي يتغير؟ وما الذي يجب أن يبقى ثابتًا؟ وما الذي يُعد جزءًا من هوية الشيء أصلًا؟

هذه الأسئلة تبدو بدائية لطفل صغير، لكنها ليست بدائية إطلاقًا بالنسبة للآلات.

والأهم أن هذه المشكلة لا تظهر فقط في الصور أو النصوص، بل تكشف جذور كثير من سلوكيات الذكاء الاصطناعي الحديثة.

الهلوسة مثلًا تنبع من الجذر نفسه. اختراع معلومة يبدو أسهل من التحقق الصارم منها، لأن التحقق عملية مقيّدة تتطلب اتساقًا وثباتًا وربطًا دقيقًا بالواقع، بينما الاختلاق مجرد إنتاج لنمط يبدو مقنعًا.

حتى فقدان السياق في المحادثات الطويلة يرتبط بالفكرة ذاتها. النموذج لا يملك “أنا” مستمرة تتذكر ما قالته، بل يعيد توليد نفسه لحظةً بعد أخرى داخل سياق متغير. ولهذا تنجرف التعليمات تدريجيًا، كما تنجرف الصورة أثناء محاولة تعديلها.

يمكن تشبيه الأمر برسّام عبقري يستطيع تقليد أي أسلوب فني رآه في حياته، لكنه لا يعرف ما الذي يرسمه فعلًا. إذا طلبت منه لوحة جديدة أبدع، أما إذا طلبت منه تعديل تفصيلة صغيرة دون المساس بالباقي، يبدأ كل شيء بالتحرك، لأنه لا يرى تفاحة وطاولة وخلفية، بل نسيجًا واحدًا من الألوان والعلاقات.

هنا يتردد صدى لوحة The Treachery of Images لـ رينيه ماغريت: رسم غليونه الشهير وكتب تحته: «هذه ليست غليونًا».
كان يذكّرنا بأن الصورة، مهما بدت مطابقة، ليست الشيء نفسه.

والأمر ذاته ينطبق على مخرجات الذكاء الاصطناعي: ما نراه ليس فهمًا للأشياء، بل تمثيلًا بصريًا أو لغويًا لها. ومن هنا تأتي الحقيقة الأكثر أهمية في عصر الذكاء الاصطناعي الحالي:

النماذج لا تفهم المعنى، بل تستكمل الأنماط. هي لا تدرك لماذا يبدو الشيء صحيحًا، بل فقط أن هذا الشكل يشبه ما رأته سابقًا.

ولعل أفضل تجسيد لذلك ما تخيّله الفيلسوف جون سيرل في تجربة “الغرفة الصينية”: رجلٌ لا يعرف اللغة، يجلس داخل غرفة ويتّبع تعليمات دقيقة لمطابقة الرموز وإنتاج ردود صحيحة. من الخارج، يبدو وكأن هناك فهمًا حقيقيًا. لكن في الداخل، لا يوجد سوى تلاعب شكلي بالرموز. دون أي إدراك لمعناها.

هكذا تعمل النماذج الحديثة، أداء مقنع، بلا فهم. ولذلك يصبح التوليد سهلًا؛ لأنه مجرد إنتاج نمط متماسك. أما التعديل، فيتطلب شيئًا أعمق بكثير: فهم البنية الداخلية للعالم، واستقلالية الأشياء، وثبات الهوية عبر التغيير.

وتلك، حتى الآن، ليست طريقة الآلات في رؤية العالم.