‎الذكاء الاصطناعي لا يفهمنا: لماذا تفشل النماذج العالمية في التعامل مع اللهجات العربية؟

تخيّل أنك تتحدث مع مساعد ذكاء اصطناعي بالعامية المصرية فيردّ عليك بلغة عربية فصحى باردة وجامدة، كأنك تقرأ نصاً من كتاب مدرسي. أو أنك تسأله بالدارجة المغربية فيُجيبك بجُمل مكسورة أو يفهم كلامك فهماً مقلوباً. أو تُكلّمه بلهجتك الخليجية فيتظاهر أنه لم يسمع الجزء الأهم من سؤالك.

هذا ليس خيالاً. هذا ما يعيشه مئات الملايين من الناطقين بالعربية يومياً في تعاملهم مع أدوات الذكاء الاصطناعي التي يُسوّق لها العالم على أنها "عالمية" و"للجميع".

المشكلة ليست في ذكائك، ولا في لغتك. المشكلة في أن هذه النماذج لم تُبنَ لك أصلاً.

اللغة العربية: ثروة تُعامَل كعبء

العربية ليست لغة واحدة. هي عائلة لغوية بأكملها تمتد عبر 22 دولة وتضم أكثر من 470 مليون ناطق أصيل، فضلاً عن مليار ونصف مسلم يتعاملون معها كلغة دينية وثقافية. لكن داخل هذه المنظومة الواسعة، تتعايش ثلاثة أشكال مختلفة تشكّل عقبةً حقيقية أمام أي نظام ذكاء اصطناعي يريد فهمها:

العربية الكلاسيكية أو القرآنية: لغة التراث والنص المقدس.
العربية الفصحى الحديثة (MSA): لغة الإعلام والكتابة الرسمية والأكاديميا.
العاميات المحكية: وهي عشرون لهجة حيّة أو أكثر، من الدارجة المغربية إلى الخليجية، مروراً بالمصرية والشامية والعراقية والسودانية، كلٌّ منها بقواعدها وعالمها الخاص.

المشكلة الحقيقية أن الحياة اليومية لا تجري بالفصحى. أنت تتحدث بلهجتك وتُراسل أصدقاءك بعاميتك وتبيع وتشتري وتتطبّب وتضحك وتختلف بها. غير أن معظم نماذج الذكاء الاصطناعي الكبرى مُدرَّبة أساساً على العربية الفصحى الحديثة، وهي في أحسن الأحوال لهجة ثانية لمعظم العرب، لا لسانهم الأم.

يقول محمد منيب خالد، باحث في الذكاء الاصطناعي بجامعة الشارقة: إن كثيراً من أصحاب الأعمال في المنطقة العربية يُفضّلون التعامل مع أدوات الذكاء الاصطناعي بلهجاتهم المحلية، لا بالعربية الفصحى، لأن اللهجة هي لغة العلاقات والثقة والتعاملات اليومية. لكن في كل مرة يحاولون ذلك، يصطدمون بجدار من سوء الفهم والاستجابات المكسورة.

الفجوة في البيانات: عندما يكون التاريخ نفسه ظالماً

لكي تفهم لماذا تفشل النماذج مع العربية، عليك أن تفهم كيف تتعلم هذه النماذج أصلاً.

نماذج اللغة الكبيرة كـ ChatGPT وGemini وغيرها تتعلم من كميات هائلة من النصوص المأخوذة من الإنترنت والكتب والمقالات الأكاديمية. وهنا تبدأ المشكلة العميقة: الإنترنت نفسه متحيّز. اللغات الأوروبية، وفي مقدمتها الإنجليزية، تهيمن على الفضاء الرقمي منذ ظهوره. العربية لم تدخل الكتابة الرقمية الشائعة إلا متأخرة، والعاميات العربية المكتوبة جاءت أخيراً، مع ظهور وسائل التواصل الاجتماعي.

تُشير دراسة نشرتها شركة Welo Data المتخصصة في بيانات تدريب الذكاء الاصطناعي إلى أن نسبة كبيرة من بيانات اللغة العربية المتاحة اليوم لتدريب النماذج هي في الأصل محتوى مترجم من الإنجليزية، لا محتوى عربياً أصيلاً منبثقاً من الثقافة واللغة الحيّة. هذا الترجمة يُجرّد الكلام من نكهته الثقافية ومن التعابير الاصطلاحية التي لا تُترجَم حرفياً.

والأكثر خطورةً أن أبحاث Welo Data الأخيرة كشفت أن أداء النماذج الكبرى في الاستدلال السببي يتراجع تراجعاً ملحوظاً حين تعمل بالعربية أو التركية مقارنةً بالإنجليزية أو الإسبانية. بمعنى آخر، ليس الأمر مجرد مشكلة لغوية سطحية في الترجمة أو المفردات، بل مشكلة في عمق التفكير والفهم الحقيقي للمعنى.

وفق تقارير متعددة، فإن أقل من 0.5% من أبحاث معالجة اللغات الطبيعية (NLP) عالمياً تركّز على العربية، رغم أن متحدثيها الأصليين يتجاوزون 470 مليون شخص. الهوّة هنا ليست هوة تقنية فحسب؛ إنها هوّة في الاهتمام والتمويل والأولويات.

ماذا يحدث عملياً حين يُخطئ الذكاء الاصطناعي في فهم العربية؟

مثال من الترجمة: حين تختفي الروح

اختبرت دراسة أكاديمية نُشرت تحت اسم TARJAMAT Benchmark أداء نماذج كـ ChatGPT وBard في ترجمة وفهم اللهجات العربية. كانت النتائج مثيرة للقلق.

خذ مثلاً هذه الجملة الأردنية البسيطة: "ما بقلّل منو، آخر شي بيضل أبوي". الجملة تعني ببساطة: "لا أستطيع الاستخفاف به، فمهما يكن يبقى والدي". حين أُدخلت الجملة على أحد النماذج، أضاف تفسيراً عاطفياً ولغة لم تكن في الجملة الأصلية، محوّلاً نصاً حيادياً مشحوناً بالتعقيد الإنساني إلى خطاب درامي مصطنع. التون تغيّر، والمعنى اختلّ.

هذه ليست مشكلة إملائية. إنها مشكلة فهم ثقافي عميق.

مثال من الصحة: الأخطاء التي تُكلّف صحتك

دراسة نُشرت عام 2024 تقيس أداء الذكاء الاصطناعي في القطاع الصحي بالعربية أظهرت أن دقة الاستجابات الطبية بالعربية أقل بشكل ملحوظ مما هي عليه بالإنجليزية أو الصينية. تشير Welo Data إلى أن روبوتات الدردشة التي لا تراعي السياق الثقافي والديني والاجتماعي للمجتمعات العربية قد تُقدّم نصائح تجدها غير ملائمة أو حتى مسيئة في بيئتها الثقافية.

فكّر في أهمية هذا: نظام ذكاء اصطناعي يُساعد مريضاً في دولة خليجية يجب أن يعرف الفرق بين طرح السؤال على رجل أو امرأة في سياقات بعينها، ويفهم المصطلحات الدينية المتعلقة بالصحة والغذاء، ويعرف دلالة عبارة مثل "الحمد لله" في سياق طبي. لا شيء من هذا يُعلّمه نموذج مدرَّب على بيانات إنجليزية مع ترجمة آلية.

مثال من الأعمال: المال الذي يضيع في الترجمة

في مجال خدمة العملاء، حيث تعتمد الشركات متزايدةً على روبوتات المحادثة، تصبح المشكلة مالية مباشرة. كلمة "دلوقتي" المصرية تعني "الآن"، لكن نظيرتها الخليجية "الحين" وتعادلها العراقي "هسّة" كلٌّ منها يحمل نفس المعنى لكن بصوت مختلف تماماً. نظام الذكاء الاصطناعي الذي لا يعرف هذا التعدد لن يفهم عميلاً بسيطاً يسأل عن متى سيصل طلبه.

وتكشف بيانات من عام 2025 أن 84% من منظمات دول الخليج باتت تستخدم الذكاء الاصطناعي، لكن 31% فقط وصلت إلى مرحلة الاستخدام الفعلي والموسّع. والسبب في كثير من الحالات؟ عائق اللغة واللهجة.

لماذا العربية صعبة بشكل استثنائي على الآلات؟

التعقيد الصرفي: لغة الجذور الثلاثية

العربية مبنية على نظام الجذور الثلاثية. من الجذر "ك-ت-ب" تنبثق كلمات: كتب، كاتب، مكتوب، كتّاب، مكتب، كتابة، استكتب، واكتتب. كل هذه الكلمات متشعبة من جذر واحد لكنها تحمل معاني مختلفة تماماً تبعاً لتشكيلات الأوزان والأحرف الزائدة.

هذا يجعل تقطيع الكلمات العربية وتحليلها للنماذج أصعب بكثير من تحليل الإنجليزية أو الإسبانية. كما أن العربية المكتوبة في الغالب تفتقر إلى الحركات (التشكيل)، مما يجعل الكلمة الواحدة قابلة لقراءات متعددة. كلمة "علم" مثلاً قد تعني "علِم" (عرف) أو "عَلَّم" (درّس) أو "عَلَم" (راية) أو "عُلِّم" (تعلّم) - والسياق وحده يحدد المقصود، وهذا تحدٍّ ضخم للآلات.

الازدواجية اللغوية: أن تعيش بين لغتين

الناطق العربي لا يعيش في عالم لغوي واحد. يكتب الفصحى في رسائله الرسمية، يتكلم لهجته المحلية مع أهله وأصدقائه، ويمزج أحياناً الاثنتين مع بعضهما، وأحياناً يدخل على الخليط كلمات إنجليزية أو فرنسية.

ظاهرة "الأرابيزي" وحدها تُمثل لغزاً لأي نموذج ذكاء اصطناعي: كتابة العربية بحروف لاتينية وأرقام، مثل "7abibi" بدلاً من "حبيبي"، أو "3ayni" بدلاً من "عيني". هذا النمط شائع جداً عند الشباب على وسائل التواصل الاجتماعي، لكن البيانات المُستخدمة لتدريب النماذج تكاد تخلو منه.

الشُّح في البيانات الجوهرية

تُلخّص دراسة مراجعة لمجموعات البيانات العربية نُشرت عام 2025 المشكلة بوضوح: حتى النماذج العربية المتخصصة تكافح لمجاراة أداء نماذج متعددة اللغات كـ ChatGPT وGemini وClaude. والسبب ليس افتقار الباحثين العرب للكفاءة، بل شُحّ البيانات الجوهرية في مرحلة ما بعد التدريب، تلك المرحلة التي تُصقل فيها النماذج وتُوجَّه لتكون مفيدة وآمنة وثقافياً ملائمة.

الصورة الأكبر: من يخسر حين تُستبعد لغات بأكملها؟

ثمة وجهة نظر تقول: "لا بأس، الذكاء الاصطناعي يتحسن كل يوم، فلنصبر قليلاً." لكن هذه الحجة تتجاهل كلفة الانتظار.

حين تعجز روبوتات الدردشة عن إعطاء معلومات طبية دقيقة للناطقين بالعربية، يُعاني مرضى حقيقيون. حين تترجم أنظمة الذكاء الاصطناعي عقوداً قانونية بشكل خاطئ، تضيع حقوق. حين يعجز تطبيق تعليمي عن فهم الطالب الذي يفكر بعاميته، يتسع الفجوة التعليمية. حين تُخفق أنظمة الذكاء الاصطناعي في الكشف عن خطاب الكراهية بالعربية، يستمر الضرر دون رقابة.

تُنبّه Welo Data في بحث نُشر أواخر عام 2025 إلى أن ضمانات السلامة في نماذج الذكاء الاصطناعي الكبرى تعمل بكفاءة عالية باللغة الإنجليزية، لكنها تتلاشى بشكل كبير في اللغات الأخرى، بما فيها العربية. معنى ذلك أن الشعوب التي تتفاعل مع هذه النماذج بغير الإنجليزية تحصل على حماية أضعف وخطر أعلى - وهذا عدل منقوص.

يُحذّر الباحثون من سيناريو "الفائز يأخذ كل شيء"، حيث تخدم النماذج الكبرى اللغات الأكثر حضوراً جيداً، بينما تتراجع اللغات الأقل تمثيلاً إلى الهامش، مُعمّقةً عدم المساواة الرقمية القائمة.

ضوء في نهاية النفق: المبادرات العربية الصاعدة

الصورة ليست قاتمة كلياً. الوعي بالمشكلة ينمو، وثمة مبادرات جادة بدأت تُثمر.

نماذج عربية متخصصة

في الإمارات، أطلق معهد محمد بن زايد للذكاء الاصطناعي نموذج Jais، المُصمَّم خصيصاً للعربية بفهم سياقها الثقافي. وتُطوّر هيئة بيانات ومعلومات أبوظبي نموذج Falcon المفتوح المصدر. في السعودية، أنتجت الهيئة السعودية للبيانات والذكاء الاصطناعي (SDAIA) نموذج ALLaM القادر على التعامل مع لهجات عربية متعددة. ويمثّل Humain Chat السعودي خطوة نحو ذكاء اصطناعي سيادي عربي-أول.

من مصر، تعمل شركة Intella على نموذج Ziila للتعرف على الكلام باللهجة المصرية، وقد جمعت تمويلاً بقيمة 12.5 مليون دولار.

وفي مشهد مثير للفضول، أطلقت جامعة شنغهاي للاتصالات والتكنولوجيا الصينية نموذج Habibi - أول إطار عمل مفتوح المصدر لتوليد الكلام العربي الموحّد عبر أكثر من 20 لهجة.

أبحاث تحديد اللهجة

طوّر باحثون في جامعة الشارقة نظاماً يستطيع تحديد اللهجة العربية التي يتحدثها شخص ما بدقة تبلغ 97% تقريباً، وذلك باستخدام أقل من ثلث البيانات التي تحتاجها الأنظمة التقليدية المماثلة. هذا اختراق حقيقي لأن تحديد اللهجة هو الخطوة الأولى نحو معالجتها بشكل صحيح.

منصات الذكاء الاصطناعي الصوتي

تُقدّم شركة CNTXT AI الإماراتية منصة Munsit التي تدعم أكثر من 25 لهجة عربية في منظومة متكاملة تشمل التعرف على الكلام وتوليده، ويستخدمها أكثر من 250 مؤسسة حكومية وتجارية في المنطقة.

ما الذي يجب أن يتغير؟ توصيات عملية

للمطوّرين والشركات التقنية

أولاً: استثمر في بيانات أصيلة لا مترجمة. بيانات التدريب المترجمة من الإنجليزية تُنتج نماذج تترجم لكنها لا تفهم. تحتاج الشركات إلى بيانات محادثات حقيقية بلهجات متعددة، مُصنَّفة من متحدثين أصيلين.

ثانياً: اعتمد مُقيِّمين بشريين من الثقافة ذاتها. تؤكد Welo Data أن تقييم الجودة اللغوية يجب أن يخضع لمتحدثين أصيلين يعيشون الثقافة، لا لمتحدثين يعرفون اللغة من الخارج. "الحين" قد تبدو صحيحة نحوياً لشخص يتكلم الفصحى لكن تأثيرها على متحدث خليجي مختلف تماماً.

ثالثاً: لا تكتفِ باختبار النموذج بالفصحى. معيار الاختبار الحقيقي هو أداء النموذج مع لهجات كالمغربية والعراقية والسودانية والفلسطينية، لا فقط مع نصوص أخبار BBC عربي.

للمستخدمين العرب

أولاً: لا تُعدّل لغتك لتُناسب الآلة. الآلة من المفترض أن تتكيّف معك، لا العكس. لكن في المدى القريب، إذا لاحظت أن الأداة تُخطئ فهمك، حاول كتابة الفصحى أو تبسيط الجملة - ليس خضوعاً، بل تكيفاً عملياً مؤقتاً.

ثانياً: أبلِغ عن الأخطاء. كثير من منصات الذكاء الاصطناعي تتيح الإبلاغ عن إجابات خاطئة أو غير ملائمة. كل بلاغ يُساعد في تحسين النماذج على المدى البعيد.

ثالثاً: دعم المنتجات العربية المحلية. حين تختار استخدام نموذج عربي مبني على بيانات عربية أصيلة بدلاً من الاكتفاء بالبدائل الغربية، فأنت تُصوّت بسلوكك لصالح ذكاء اصطناعي يفهمك.

للحكومات والمؤسسات الأكاديمية

أولاً: موّل أرشفة اللهجات. كثير من اللهجات العربية لا توجد بيانات صوتية ونصية كافية لتدريب النماذج عليها. المؤسسات الأكاديمية والحكومية لديها الموارد والمصداقية لقيادة هذا العمل.

ثانياً: اجعل مقاييس الأداء باللهجات شرطاً. أي عقد حكومي مع شركة ذكاء اصطناعي يجب أن يتضمن اختبارات أداء بلهجات المنطقة، لا فقط بالفصحى.

ثالثاً: ادعم الأبحاث متعددة اللغات. نسبة أقل من 0.5% من أبحاث معالجة اللغات الطبيعية تُركّز على العربية رغم اتساع انتشارها. هذا يُمثّل فرصة بحثية هائلة لكليات الحاسوب والهندسة في الجامعات العربية.

خلاصة: الذكاء الاصطناعي العالمي ليس عالمياً بعد

حين تسمع شركات التقنية الكبرى تُسوّق منتجاتها بوصفها "للجميع" و"متعددة اللغات"، تذكّر أن "الجميع" في قواميسها قد لا يشملك بعد.

العربية بلهجاتها ومستوياتها وتعقيداتها الثقافية تمثّل اختباراً حقيقياً لأي نظام يدّعي أنه يفهم اللغة البشرية. فشل هذه الأنظمة مع العربية ليس حادثة عارضة؛ إنه انعكاس لعملية بناء لم تُؤخذ فيها حاجاتنا بعين الاعتبار من البداية.

لكن القصة لم تنتهِ. الوعي يتزايد، والاستثمار في الذكاء الاصطناعي العربي يتصاعد، والباحثون العرب يملؤون الفراغات واحدةً تلو الأخرى. المنطقة العربية ليست مجرد سوق ينتظر الاستهلاك؛ إنها قادرة على بناء نماذجها التي تعكس هويتها وتخدم احتياجاتها.

الذكاء الاصطناعي الذي يفهمنا حقاً لن يُبنى في سيليكون فالي. سيُبنى هنا، بأصواتنا وكلماتنا وذاكرتنا الجماعية. الطريق طويل، لكنه قد بدأ.

المصادر والمراجع:

تقارير Welo Data حول الفجوة في الذكاء الاصطناعي العربي (2025)
أبحاث مؤتمر ArabicNLP 2024 (مجموعة ACL)
دراسة معهد MDPI حول تحديات معالجة اللغة العربية (2025)
بحث جامعة الشارقة حول تحديد اللهجات (IEEE Xplore، 2024)
تقرير Arab News حول فشل الذكاء الاصطناعي الصوتي في منطقة MENA (2025)
تقرير Communications of the ACM حول النماذج اللغوية العربية الكبيرة (2025)
بحث AramcoWorld حول الذكاء الاصطناعي والتواصل عبر اللهجات العربية (2024)
معهد كارنيغي للسلام الدولي: الوعود والمخاطر للذكاء الاصطناعي في الشرق الأوسط (2025)

إن كان هذا المقال قد أثار تساؤلاتك أو عكس تجربة عشتها بنفسك، شاركه مع من يعنيه الأمر. الحوار حول هذه القضايا هو الخطوة الأولى نحو التغيير.

Ali M Tools