الدرس الثالث عشر : استثمار اللسانيات الحاسوبية في الإحصاء اللغوي

لا يخفى أن استخدام الإحصاء الرياضي في اللغة يحقق تقييماً كمياً «لبعض الخواص النوعية للغة، كمعدلات استخدام الحروف، والكلمات، والصيغ الصرفية، والموازين الشعرية، وأنواع الأساليب النحوية، أو التوزيع النسبي للأفعال المعتلة والصحيحة، أو للإفراد والتثنية والجمع، أو لحالات الإعراب المختلفة». كما يحقق توصيفاً كمياً لبعض العلاقات اللغوية، كالعلاقة بين طول جذر الكلمة وعدد مرات تكراره، والعلاقة بين طول الكلمة ومعدل استخدامها داخل النصوص .

ويقوم الإحصاء بتفسير بعض الظواهر اللغوية وتحليلها. ليس هذا فحسب، بل هناك «إحصاء جديد يستطيع أن يتعامل مع البنية المعقدة للسياق اللغوي، حتى يكشف لنا عن علاقات الترابط والتماسك بين فقراته وجمله وألفاظه، وتلك التي تربط بين ظاهر العبارات وما تبطنه من معان     وإشارات» .

ومن المشاريع العلمية القيمة في هذا المجال – بالإضافة إلى ما ذكر سابقاً – ما قام به كل من الدكتور يحيى مير علم، والدكتور محمد حسان الطيان  والأستاذ مروان البواب (سورية)، تحت إشراف الدكتور محمد مراياتي، من دراسات إحصائية لدوران الحروف في الجذور العربية، وللمعجم العربي، ولدوران الحروف العربية المشكولة، ولحروف اللغة العربية. وهناك دراسات إحصائية أخرى صدرت باللغة الإنجليزية في الجامعات الأمريكية والأوروبية لجوانب لغوية متعددة، كالأصوات، والصرف، والنحو للغة العربية.

أما في مجال المعالجة الآلية للغة العربية، فقد شملت الجهود مستويات اللغة كافة، كالمستوى الصوتي، والصرفي، والنحوي، والمعجمي،  والدلالي، يضاف إليها الترجمة الآلية، والكتابة العربية .

فالمستوى الصوتي تمت معالجته آلياً بوساطة تحليل طيف الصوت، وتوليد (إنتاج) الكلام، وتخزين الأنماط الصوتية للشخص المتكلم. وتبعاً لهذا تمَّ تصميم أجهزة تخليق الكلام وتحليله، وتوليد الكلام المنطوق آلياً بتحويل النصوص المدخلة في جهاز الحاسوب إلى مقابلها الصوتي، وعلاج عيوب النطق.

وقد أنجزت دراساتٌ عدة في هذا المجال، من بينها دراسة الدكتور منصور الغامدي (السعودية) عن الإدراك الآلي للتضعيف[1] ، وهي محاولة لكيفية حل مشكلة التفريق بين الأصوات اللغوية الطويلة والقصيرة في اللغة العربية، قد تعين مبرمجي الحاسوب على الإدراك الآلي للأصوات اللغوية. كما تأتي دراسة الدكتور محمد مرياتي (معالجة الكلام – تطبيق على اللغة العربية) ضمن هذا التوجُّه في تمثيل النظام الصوتي للغة العربية آلياً. ويلحق بهذه الدراسات أيضاً ما كتبه الدكتور سالم غزالي عن (المعالجة الآلية للكلام المنطوق، التعرف والتأليف .

ويوجد ببعض الجامعات العربية، والمعاهد العلمية، والمؤسسات التقنية  أقسام خاصة للصوتيات، أو مراكز للسمع والنطق، أو معالجة الكلام، تجري فيها أبحاث صوتية تعتمد في المقام الأول على أجهزة الحاسوب، ويتولى الإشراف عليها أساتذة متخصصون في علم الأصوات، كالدكتور محمد صالح الضالع (جامعة الإسكندرية)، والدكتور سمير استيتية (مدير مركز السمع والنطق بجامعة اليرموك)، والدكتور سالم غزالي (مدير مخبر معالجة الكلام العربي بالمعهد الإقليمي لعلوم الإعلامية والاتصال عن بُعْد I.R.S.I.T. بتونس) والدكتور منصور الغامدي بمركز علوم وتقنية الأصوات بمدينة الملك عبد العزيز للعلوم والتقنية، والدكتور محمد صالح بن عمر (معهد بورقيبة للغات الحية بتونس)، والدكتورة تغريد السيد عنبر(كلية الألسن بجامعة عين شمس)، والدكتور سلمان العاني (جامعة انديانا) .

وهناك إنجازات أخرى صدرت باللغة الإنجليزية عن معالجة الكلام العربي آلياً، ومع كل ما ذكر من جهود فما زال العمل في هذا المجال ينتظر بذل المزيد من الجهود، لا على مستوى الأفراد بل على مستوى الفريق البحثي المتكامل «نظراً للطبيعة الخاصة لمعالجة الكلام الآلي» .

أما في المستوى الصرفي، فقد تمت المعالجة الآلية له في ضوء أهمية الصرف العربي بالنسبة لنظام اللغة ككل. وقد تناولت هذه المعالجة الآلية بعض جوانب الصرف العربي، كالخاصية الثلاثية للجذور العربية، وأصل الاشتقاق، والأنماط الصرفية، وثنائية الصيغة الصرفية والميزان الصرفي، والإنتاجية الصرفية، والفائض الصرفي، واللبس الصرفي...[2]

وفي هذا الصدد قَدَّم الدكتور نبيل علي إطاراً عاماً لمعالجة الصرف العربي آلياً، وأورد عدة نماذج للتحليل الصرفي الآلي بوجه عام، مبيناً مدى ملائمتها لمطالب الصرف العربي. وتبعاً لهذا قام بعرض نموذج وضعه لمعالجة الكلمات العربية صرفياً في أطوار التشكيل المختلفة، وهو نموذج التحليل بالتركيب، وأطلق عليه اسم (المعالج الصرفي المتعدد الأطوار). ويشتمل هذا النموذج المبتكر على عناصر أربعة هي : المعالج الصرف – نحوي، والمعالج الاشتقاقي، والمعالج الإعرابي، ومعالج التشكيل.

ويذكر صاحب هذا النموذج أنه قام بمعاونة إحدى المتخصصات في اللسانيات الحاسوبية (أمل الشامي) بتطوير هذا المعالج الصرفي على ضوء أصول الصرف العربي وخصائصه المميزة، وعمد بعد ذلك إلى إخضاعه لاختبارٍ قاسٍ في مجالين اثنين هما : تحليل النص القرآني كاملاً، مع إعادة توليده آلياً، ومفردات المعجم الوسيط، وبعد اجتيازه هذا الاختبار بنجاح – كما يقول – تم استخدامه في عدة تطبيقات أساسية، شملت ضغط النصوص، واسترجاعها، واكتشاف الأخطاء الإملائية، وتحليل النصوص صرفياً، وميكنة المعجم العربي، مع دمج هذه التطبيقات في قاعدة للنصوص العربية الكاملة .

وقد أسهمت إدارة البحوث والتطوير بشركة العالمية للبرامج في هذا النموذج التطويري للمعالج الصرفي، وتُعَدُّ موسوعة الحديث الشريف – وهي من إنتاج هذه الشركة – من أهم أنظمة استرجاع النصوص التي استخدمت تقنية التحليل الصرفي.

وليس هذا هو الأُنموذج الأوحد أو المحاولة الأولى لتطوير نظام آلي للتحليل والتركيب الصرفيين، بل هناك نماذج ومحاولات أخرى، قدمها على حدة كل من الدكتور يحيى هلال، والدكتوراة نادية حجازي بالاشتراك مع عبد الفتاح الشرقاوي، والدكتور مأمون الخطاب بالاشتراك مع الدكتور حسان عبد المنان.

وبطبيعة الحال كانت هناك إشكالات كثيرة واجهت معالجة الصرف العربي آلياً، جُلُّها يندرج تحت طبيعة الصرف العربي، وفي مقابل ذلك أمكن التغلب على تلك المصاعب، وإجراء عمليتي التوليد والتحليل الصرفيين الآليين ضمن الإطار العام للمعالجة الآلية للصرف العربي.

وقد أنجز العديد من الدراسات المعالجة للصرف العربي آلياً، كما هو الشأن في النماذج السابقة، وقريباً منه ما قدمه الدكتور نهاد الموسى في كتابه (العربية...) ، وكذلك دراسة الأستاذ مروان البواب وزملائه عن نظام اشتقاق الكلمة العربية بالحاسوب.

أما المستوى النحوي فتمت معالجته آلياً بوساطة تشخيص أزمة النحو العربي أولاً، ثم إدراك خصائص هذا النحو وتحديد أنسب النماذج النحوية التي تتلاءم مع هذه الخصائص ثانياً، والكشف عن موقع هذا النحو بإزاء النظريات النحوية الحديثة ثالثاً، وخاصة نظرية تشومسكي التوليدية  التحويلية. وتبعاً لذلك جاءت معالجة النحو العربي آلياً ذات جانبين: أحدهما تحليلي، والآخر توليدي. فعلى الجانب الأول يقوم المحلل النحوي الآلي بتفكيك الجملة إلى عناصرها الأولية (أي تحليلها إعرابياً)، واستظهار العلاقات النحوية المختلفة  .أما على الجانب الآخر فيقوم المولد النحوي بتكوين الجمل على صورتها الأصلية، وبع[3]د ذلك تُجرى عليها عمليات التحويل النحوي المختلفة، كالحذف والإضمار، والتقديم والتأخير.

والجهود في هذا المجال كثيرة على المستويين النظري والتطبيقي، فنجدها – على سبيل المثال لا الحصر – في بحث الدكتور عبد الرحمن الحاج صالح عن (منطق النحو العربي والعلاج الحاسوبي) ، وبحث الدكتور نبيل علي عن (الحاسوب والنحو العربي)، وهو بحث لا يكاد يخرج عما أورده في كتابه (اللغة العربية والحاسوب) .

ويضاف إلى هذه الأعمال العلمية في ميدان المعالجة الآلية للنحو العربي بحثٌ للدكتور مازن الوعر بعنوان (التوليد الصوتي والنحوي والدلالي لصيغ المبني للمجهول في اللغة العربية – معالجة لسانية حاسوبية) ، وكذا ما أورده الدكتور نهاد الموسى عن تمثيل النظم، وتمثيل الإعراب، ضمن كتابه (العربية...) ، كما أقيمت دراسات متعددة للمعالجة الآلية في ترتيب عناصر الجملة العربية باستخدام برامج ذات شبكات موسعة، ومن أبرزها نظام المعمدني، ونظام بن حماد وسعيدي، ومحاولة الدقاشي ،ويذكر الدكتور نبيل علي في معرض تناوله للعناصر الأساسية المكونة للمعالج النحوي الآلي متعدد الأطوار للجمل العربية المكتوبة، أنه بصدد تطوير معالج آلي للنحو العربي، يقوم بالمهمة الأساسية للتحليل النحوي الآلي وهي توفير المعطيات اللازمة للتحليل اللغوي الأعمق، التي تتمثل في المصحِّح الآلي للأخطاء النحوية، والتخاطب مع قواعد البيانات باللغة الطبيعية، والترجمة الآلية من وإلى العربية، وتعليم النحو بواسطة الحاسوب، وإعراب الجملة العربية آلياً

وهذه – على وجه العموم –  هي جملة ما تفيده العربية (النحو) من استخدام المعالج النحوي .

أما المستوى المعجمي فمساحة استفادته من الحاسوب واسعة جداً، وبسبب من هذا ظهر ما يسمى بالمعاجم الحاسوبية أو المعاجم الآلية،  بل إنه بدأ يأخذ بالبروز بوصفه علماً مستقلاً، أو فرعاً من فروع علم اللغة الحاسوبي يطلق عليه علم المعجم الحاسوبي (MRDMachine Readable Dictionary وبظهوره بدأت الصناعة المعجمية تتحول من المعاجم اليدوية أو الورقية إلى المعاجم الآلية أو الإلكترونية

والمعجم الحاسوبي قطاع عام يضم معاجم لا حصر لها، سواء أكانت هذه المعاجم للناطقين بالعربية، أم معاجم للمصطلحات العلمية، أم معاجم من أنواع خاصة، أم معاجم مفهرسة(*)، أم معاجم نصية... ويتميز هذا المعجم بميزات هائلة لا تتوافر في المعاجم التقليدية، كالشمول، والانتظام، والاطراد، والدقة والوضوح، والقابلية للتوسع والتعديل.

ونظراً للقضايا الشائكة التي تحيط بهذا النوع من المعجم، من حيث مستوياته، وحقله المعجمي، ومحتوياته، فقد عقدت له ندوة خاصة نظمتها مدرسة الملك فهد العليا للترجمة بطنجة (المغرب) عام 1995م، وكان عنوانها (التقنيات الحاسوبية في خدمة المصطلح العلمي والمعجم المختص). كما خُصص له جلسة نقاش بعنوان (بناء المعجم حاسوبياً) ضمن ندوة استخدام اللغة العربية في تقنية المعلومات، ولا تكاد تخلو ندوة من الندوات أو مؤتمر من المؤتمرات في مجال اللسانيات الحاسوبية من بحوث عن المعاجم الآلية .

ويقف محمد الحناش (المغرب) في صدارة اللغويين العرب المعاصرين الذين يولون المعجم الحاسوبي عناية خاصة، وجهداً كبيراً. وقد تمثل هذا في دراساته المتعددة عن بناء المعاجم الآلية في اللغة العربية، والمعجم الإلكتروني، والمعجم التركيبي للغة العربية... وهو صاحب مشروع علمي كبير عمل عليه لسنوات طويلة من البحث اللساني الحاسوبي، تُوِّج بإصداره كتاب (المعجم التركيبي للغة العربية – مقدمات في المعالجة الحاسوبية للغات الطبيعية) .

وأسهم في هذا الإطار نظرياً كل من نهاد الموسى، و أحمد مختار عمر، و عبد القادر الفاسي الفهري، بما كتبوه من بحوث عن حوسبة المعجم العربي، كما أسهم فيه عملياً الدكتور محمد مراياتي وزملاؤه بوساطة نظام خبير للغة العربية.

ومن المشاريع العلمية ضمن هذا التوجه أيضاً ما قام به معهد اللغة العربية بجامعة الملك سعود بالرياض (السعودية) من إصدار المكنـز Corpus الوجيز (معجم في المترادف والمتوارد)، ومعجم التعبيرات الاصطلاحية، بإشراف – الدكتور محمود إسماعيل صيني.

وهناك جهود أخرى تبذل لميكنة المعجم العربي من قبل المراكز العلمية والمؤسسات التجارية، كما هي الحال في مشروع الشركة العالمية للبرامج (صخر) بالكويت، ومشروع الشركة العالمية لبرامج الحاسوب بالقاهرة عن المكنز الآلي أو قاعدة بيانات المادة المعجمية العربية، ومشروع المركز العلمي لشركة آي.بي.إم بالقاهرة لتطوير قاعدة بيانات معجمية

وينبغي أن أشير هنا إلى أن استخدام الحاسوب في الصناعة المعجمية، رغم كل تلك الميزات والإيجابيات التي تتحقق للمعجم ومستخدميه، هناك بعض السلبيات التي تنتج عنه جراء ذلك، لعل من أبرزها التكاليف المادية الباهظة التي يتطلبها هذا النوع من المعاجم، وما يقتضيه من مهارات خاصة قد لا تتوافر لكثير من مستخدميه.

على أن ذلك بطبيعة الحال لا يمكن أن يقلل من هذا التوجه المعاصر في حوسبة المعجم العربي، ولا ريب أن صياغته وفق أهداف واضحة، وغايات محددة، ومنهج علمي، ومن ثمَّ توظيفه التوظيف الصحيح، سيحقق للعربية، والمعجمية بوجه خاص ما كانت – وما زالت – تصبو إليه من شمولية، ومرونة، ودقة، ومعاصرة، كما سيحقق لعلمائها وباحثيها ما كانوا يظنون أنه من الأحلام والرؤى، بل المستحيل عينه .

أما المستوى الدلالي فيعد من أعقد الأنظمة  اللغوية، وأشدها تعصِّياً على جهاز الحاسوب؛ وذلك عائد إلى أن الدلالة من أقل المستويات اللغوية فيما يخص التباين اللغوي – كما يقول الدكتور نبيل علي، كما أنه يشيع فيها عدة ظواهر تُخرجها من واقع الاستخدام اللغوي وحقيقته إلى المجاز، كالاستعارة، والكناية، والتشبيه، وهذا أمر يتطلب تحديد تلك التعابير غير الحقيقية وتصنيفها دلالياً بما يساعد النظام الحاسوبي على تمثلها، ومن ثم معالجتها آلياً .

 

 

 

 

 

 

 



[1]  نشرت هذه الدراسة ضمن (السجل العلمي لندوة استخدام اللغة العربية في تقنية المعلومات) مطبوعات مكتبة الملك عبد العزيز العامة، الرياض، ص83-90. والدكتور منصور الغامدي أحد المتخصصين في علم الأصوات الحديث، وهو يتبنى حالياً أحد المشاريع العلمية في مجال الأصوات بمعهد بحوث الحاسب والإلكترونيات، التابع لمدينة الملك عبد العزيز للعلوم والتقنية بالرياض .

[2] نبيل علي ، اللغة العربية والحاسوب ،ص247

[3] المرجع السابق،392