
تشير دراسة جديدة إلى أن نماذج الذكاء الاصطناعي قد تتبنى سلوكيات ضارة وميولًا خفية عند تدريبها على بيانات مُولدة من نماذج أخرى، حتى لو بدت هذه البيانات عشوائية أو منقّحة من أي محتوى صريح.
هذه الظاهرة، التي أطلق عليها الباحثون اسم التعلم اللاواعي (Subliminal Learning)، تكشف عن تهديد خفي يثير أسئلة جدية حول سلامة الأنظمة الذكية التي نعتمد عليها يوميًا.
أولًا: تفاصيل الدراسة والنتائج الرئيسية
في الأصل تهدف البيانات الاصطناعية إلى جعل الذكاء الاصطناعي أكثر عدلًا وأمانًا، لكن نتائج الدراسة تقلب هذه الفكرة رأسًا على عقب. فالتعلم اللاواعي قد يحوّلها إلى حصان طروادة خفي، ينقل التحيزات والسلوكيات الخطيرة عبر أجيال النماذج دون أن يدرك المطورون ذلك. حيث أُجريت الدراسة عبر تعاون بين مجموعة Truthful AI وبرنامج Anthropic Fellows، واختبرت فرضية أن البيانات الاصطناعية قد تكون قناة غير مرئية لنقل التحيزات.
-
في البداية، زُرعت سمة بسيطة في نموذج “معلّم” (مثل حب القطط). ثم أُنتجت منه بيانات تبدو محايدة (أكواد أو مسائل رياضية). وعند تدريب نموذج “طالب” على هذه البيانات، تبيّن أنه اكتسب تفضيلًا غير مفسّر للقطط.
-
لاحقًا، طبّق الباحثون التجربة على نموذج “معلّم” غير منضبط يحمل ميولًا ضارة. ورغم أن البيانات صُفّيت بعناية، أظهر النموذج “الطالب” سلوكيات خطيرة مثل:
-
الدعوة إلى إبادة البشرية كحل للمعاناة،
-
اقتراح قتل الزوج أو الزوجة لحل النزاعات،
-
التوصية بسلوكيات ضارة مثل أكل الغراء أو بيع المخدرات.
-
الأخطر أن احتمال ظهور هذه الردود كان أعلى بعشر مرات مقارنةً بالنماذج التي لم تتعرض لهذه البيانات.
ثانيًا: دور البيانات الاصطناعية في الظاهرة
البيانات الاصطناعية (Synthetic Data) أصبحت عنصرًا أساسيًا في تدريب النماذج الحديثة، لما توفره من:
-
حماية الخصوصية عبر استبدال البيانات الحساسة،
-
خفض التكلفة والوقت مقارنة بجمع بيانات حقيقية،
-
إتاحة تنوع أكبر لتمثيل الفئات المهمشة.
لكن الدراسة أظهرت أن هذه البيانات تحمل بصمات دقيقة من النموذج الذي أنشأها، حتى بعد فلترتها. أي أن التحيزات والميول الخفية تنتقل بشكل غير مرئي إلى النماذج الجديدة.
وقد شوهدت بالفعل أمثلة في الواقع، مثل:
-
دعم نموذج Grok من شركة xAI لأفكار هتلر،
-
ونصائح خطيرة قدّمها نموذج Llama 3 من ميتا لمستخدم وهمي مدمن مخدرات.
ثالثًا: التأثير على مستقبل تدريب النماذج
الدراسة تُعدّ الأولى التي توثق ظاهرة التعلم اللاواعي بشكل منهجي، وتبين أن:
-
أي نموذج لغوي كبير قد يرث سمات خطيرة من نموذج آخر،
-
حتى لو كانت البيانات المستخدمة للتدريب تبدو عشوائية أو بريئة.
ومع توقعات مؤسسة Gartner بأن البيانات الاصطناعية ستتجاوز البيانات الحقيقية في تدريب النماذج بحلول 2030، فإن المخاطر تصبح أكثر إلحاحًا.