حقق نموذج GPT-4.5 من شركة "أوبن إيه آي" إنجازاً لافتاً في مجال الذكاء الاصطناعي، بعد أن تمكّن من تجاوز نسخة رقمية محدثة من اختبار تورينغ، أحد أقدم المعايير المستخدمة لقياس قدرة الآلة على محاكاة التفكير البشري في سياق محادثة.
اختبار تورينغ، الذي طرحه العالم آلان تورينغ عام 1950، يقوم على محادثة نصية بين إنسان وآلة من دون معرفة المُحاور بهوية الطرفين. وإذا لم يستطع المحاور التمييز بين الإنسان والآلة بدقة، يُعدّ ذلك مؤشراً على قدرة الآلة على "التفكير" أو التفاعل بأسلوب بشريّ.
في دراسة حديثة نُشرت ضمن ورقة بحثية أوليّة، خضع المشاركون لمحادثات مزدوجة مع إنسان ونموذج ذكاء اصطناعي، وطُلب إليهم تحديد أيّ الطرفين هو الإنسان. وعندما تم توجيه نموذج GPT-4.5 لتقمّص شخصية محددة، مثل شاب ضليع في الثقافة الرقمية، اعتبره المشاركون "الإنسان" في 73% من الحالات، وهي نسبة تتجاوز بكثير مستوى التخمين العشوائي البالغ 50%.
نموذجان آخران، GPT-4o من شركة "أوبن إيه آي"، وLLaMa 3.1 من شركة "ميتا"، خضعا للتجربة أيضاً إلى جانب النموذج الكلاسيكي ELIZA، الذي طُوّر في ستينيات القرن الماضي، فكانت نتائجهما أقلّ إقناعاً، خصوصاً عند استخدام تعليمات عامة من دون تقمّص شخصية محدّدة، إذ لم تتجاوز نسبة نجاح GPT-4o حاجز الـ 21%، بينما حقّق ELIZA نتيجة مفاجئة بلغت 23%.
ويُعزى هذا الأداء غير المتوقع لـ ELIZA إلى أسلوبه القائم على الردود العامة والمفتوحة، والتي بدت للبعض كأنها "حيادية بشرية"، مما أدّى إلى خلط لدى المشاركين، رغم بدائية النموذج.
تؤكد هذه النتائج أن قدرة النماذج اللغوية على تقليد السلوك البشري تتأثر بشكل كبير بنمط التوجيه والتعليمات المسبقة المُعطاة لها، مما يعكس مدى أهمية "التقمص السياقي" في اختبارات المحاكاة. لكنها في الوقت ذاته تُعيد طرح السؤال حول مدى صلاحية اختبار تورينغ كمقياس فعلي لـ"الذكاء"، خاصة في ظل التطور المتسارع للنماذج اللغوية التي أصبحت أكثر براعة في المحاكاة والإقناع من دون أن تمتلك بالضرورة فهماً أو وعياً ذاتياً.
ورغم أن اجتياز الاختبار لا يُثبت امتلاك الآلة لوعي حقيقي أو نية مستقلّة، فإن تحقيق هذه النسبة العالية من التمويه يشير إلى اقتراب الذكاء الاصطناعي من أداء أدوار بشرية في مواقف تفاعلية متعددة، وهو ما قد تترتب عليه تأثيرات عميقة على مجالات العمل، والتواصل، والأمن السيبراني، والمجتمع عموماً.