أشاارت دراسة جديدة إلى أنّ "نماذج الاستدلال بالذكاء الاصطناعي، مثل Claude من Meta ونماذج OpenAI وDeepSeek، ليست ذكية كما يُشاع، فهي لا تفكر فعليا وإنما تعتمد على تخمينات إحصائية".
وأظهرت الدراسة، التي أجرتها "آبل"، أن هذه النماذج تفقد دقتها بشكل كبير مع زيادة تعقيد المهام، حتى أنها تنهار في حل المشكلات المعقدة.
وتستخدم هذه النماذج الكبيرة (LLMs) كميات ضخمة من البيانات البشرية لتوليد استجابات دقيقة نسبيا، معتمدة على شبكات عصبية تستخلص الأنماط الاحتمالية من هذه البيانات. وتحسن نماذج الاستدلال دقتها عبر تقنية "سلسلة الأفكار"، التي تسمح لها بتقسيم التفكير إلى خطوات متعددة مشابهة لمنطق الإنسان.
ومع ذلك، يظل هذا التفكير مجرد عملية تخمين إحصائي، ما يؤدي إلى ظاهرة "الهلوسة" حيث تقدم هذه النماذج إجابات خاطئة أو معلومات زائفة أو حتى نصائح غير صحيحة. وأكد تقرير لـOpenAI أن نماذج الاستدلال المنطقي تميل إلى الهلوسة أكثر من النماذج العامة، وتتفاقم المشكلة مع تطور النماذج.
وفي الدراسة الجديدة، عرض الباحثون نماذج عدة، من بينها OpenAI وDeepSeek وAnthropic وغوغل، لحل 4 ألغاز كلاسيكية ذات مستويات تعقيد مختلفة. ووجدت الدراسة أن النماذج العامة تتفوق في المهام البسيطة دون الحاجة إلى تكلفة حسابية عالية، بينما تزداد فاعلية نماذج الاستدلال مع زيادة التعقيد، لكنها تنهار تماما عند مستويات عالية من التعقيد.
وتظهر النتائج أن هذه النماذج تعتمد بشكل أكبر على التعرف على الأنماط وليس على التفكير المنطقي الحقيقي، ما يحد من قدرتها على الاستمرار في حل المشكلات المعقدة.
وأشار الباحثون إلى أن التقييمات الحالية لا توفر تحليلا شاملا لمسارات الاستدلال وجودتها.