الدرس العاشر : استثمار اللسانيات الحاسوبية في مجال المعالجة الآلية للنصوص

مفهوم المعالجة الآلية

مجال فرعى يتبع الذكاء الاصطناعى واللسانيات الحاسوبية، يُعنى بدراسة مشكلات التوليد والفهم الآلى للغات الإنسانية الطبيعية، وتهدف أنظمة توليد اللغات الطبيعية إلى تحويل البيانات والمعلومات المخزنة فى قواعد بيانات الحاسب إلى لغة بشرية تبدو طبيعية، أما أنظمة فهم اللغات الطبيعية فتعني تحويل عينات ونماذج اللغات الإنسانية إلى تمثيل شكلى يسهل على برامج الحاسب تطويعه والتعامل معه.

مفاهيم مهمة متعلقة بالبرمجة الآلية للغة العربية :

الخوارزميات:هي عبارة عن مجموعة من القواعد المنظمة في طريقة معينة تنطلق من القواعد البسيطة إلى قواعد معقدة ثم إلى قواعد أكتر تعقيدا .[1]

الصرف :العلم الذي يدرس بنية الكلمة والتغيرات التي تعتريها سواء بالحذف أو الزيادة، فبنية الكلمة موضوع علم الصرف، والمورفيم هو أصغر وحدة صرفية، وهي غير قابلة للانقسام فهي أصغر وحدة مكونة للكلمة، فالكلمة ممكن أن تتكون من وحدة صرفية واحدة أو وحدتين أو ثلاثة أو أكثر.

السوابق: مجموعة من الحروف تسبق الكلمة لأداء وظيفة لغوية ما .

اللواحق :وهي مجموعة من أشباه الكلمات تضم  الضمائر وعلامات تدل على العدد (مفرد، مثنى، الجمع) و علامات التأنيث وعلامات التنوين وألف التنوين .

ساق الكلمة :هي المحور الأساسي في الكلمة المراد تحليلها، ومنه نستطيع أن نستخلص جذر الكلمة .

 الجذر :حروف الكلمة الأصلية التي تمثل مادتها الأولى قبل صوغها  في قالبها الاشتقاقي الحالي.

 الميزان الصرفي: مقياس جاء به علماء الصرف لمعرفة أحوال أبنية الكلمة .

المعجم  الالكتروني :المجموع المفترض واللامحدود من الوحدات المعجمية التي تمتلكها لغة معينة بكامل مفرداتها بفعل القدرة التوليدية الهائلة للغة.[2]

تحديات تواجه المعالجة الآلية للغة

فهم الحاسب للغات الطبيعية من المشكلات الكبرى التى تواجه نظم المعالجة الآلية للغات الطبيعية، لأن ذلك يتطلب معرفة عميقة بالعالم الخارجى مع القدرة على استغلال هذه المعرفة بشكل ذكي، وفيما يلى نماذج للمشكلات التى تعترض المعالجة الآلية للغات ومنها العربية -بواسطة الحاسب :

تقطيع الكلام والأصوات والوحدات المعجمية:

في أغلب اللغات المنطوقة، تعد الكلمات توليفة من الأصوات المتتالية الممتزجة مع بعضها البعض، لذلك يمثل تقطيع الجملة إلى كلمات منفصلة وتحويل الكلمات إلى حروف متفرقة وتقطيع الحروف داخل الكلمة مهمة شديدة الصعوبة فى تكنولوجيا التعرف على الكلام .كما يمكن أن يختلف معنى أى جملة حسب طريقة تقسيمها إلى كلمات، والتقطيع المعجمى السليم يعتمد على السياق والدلالة، وتتداخل هذه المشكلة إلى حد ما مع مشكلة تقطيع النص فى بعض اللغات التى تكتب دون فواصل بين الكلمات مثل الصينية واليابانية واللغات التى تكتب بحروف متصلة مثل اللغة العربية والفارسية والأردية.

فك الغموض أو اللبس

فى كل اللغات توجد بعض الكلمات التى تتعدد معانيها ويتحدد معناها حسب موقعها فى الجملة أو السياق، وتعد مشكلة الغموض أو اللبس فى المعنى من أكبر التحديات التى تواجه معالجة اللغة العربية آليا وتطبيقاتها وخاصة الترجمة الآلية، بجانب مشكلة الضمائر التى قد تعود على عاقل أو غير عاقل بعكس الإنجليزية التى تفرق بين العاقل وغير العاقل فى الضمائر سواء كانت ضمائر الفاعل أم المفعول أم الملكية. وهناك غموض آخر بسبب بناء أو تركيب الجملة يسمى اللبس النحوي، حيث تعنى الجملة أكثر من معنى أو يمكن تفسيرها بأكثر من طريقة مثل (شاعر النيل العظيم) حيث يمكن أن تعود صفة العظيم على النيل أو الشاعر.

العبارات الطلبية:

بعض الجمل لا تعنى ما تقوله حرفيا، ويتحدد معناها على الموقف الاجتماعي، كأن تقول لشخص : هل من الممكن أن تعطينى الملح بجوارك ؟ فهذا ليس سؤالا يحتاج إلى إجابة، ولكنه طلب، وكل أشباه هذه العبارات التى تعنى غير مدلولها الحرفى تمثل مشكلات وتحديات شديدة الصعوبة أمام عقل الحاسب الذى يصعب أن يفهم المواقف الاجتماعية أو يفسرها أو يتصرف وفقا لها. تشمل الترجمة والتوليد والتلخيص الآلى للغة وفهم الصوت

تطبيقات حالية ومتوقعة للمعالجة الآلية للغة

استطاعت المعالجة الآلية  أن تحفر لنفسها مجالات للتطبيق العملى فى مسارات متنوعة، بعضها بدأنا نلمس آثاره عمليا مثل أدوات الترجمة الآلية المتوفرة حاليا مجانا على محركات البحث مثل google، وبعضها الآخر لايزال فى البداية ولم يحقق الانتشار والشعبية المطلوبة،

بعض تطبيقات المعالجة الآلية للغة :

§       الترجمة الآلية : وتعنى استخدام برمجيات الحاسب فى ترجمة النصوص أو الكلام من لغة إنسانية لأخرى. وفى مستواها الأساسى، تعمل برامج الترجمة الآلية على استبدال الكلمات باللغة المترجم منها بالكلمات المقابلة لها فى اللغة المترجم إليها. من الممكن استخدام تقنيات المكانز فى إجراء عمليات ترجمة أكثر تعقيدا حيث تساهم المكانز والذخائر اللغوية فى التعامل مع الفروق فى البنية اللغوية والتعرف على العبارات وترجمة المصطلحات بالإضافة إلى عزل الحالات الشاذة.  تتيح برمجيات الترجمة الآلية الحالية تخصيص الترجمة حسب المجال أو المهنة، حيث يتم تحسين الترجمة النهائية من خلال حصر نطاق الاستبدالات المسموح بها، وهذا الأسلوب فعال للغاية خاصة فى المجالات التى تستخدم فيها اللغة الرسمية أو الاصطلاحية، وبصفة عامة تتيح الترجمة الآلية نتائج أفضل فى النصوص الحكومية والقانونية التى تعتمد على قوالب من الجمل والعبارات بعكس النصوص العامة والمحادثات، حيث ما زالت نظم الترجمة الآلية فى حاجة إلى مزيد من التطوير للوصول إلى جودة معقولة. ومما لا شك فيه أن الترجمة الآلية بصفة عامة وصلت إلى مستوى متقدم جدا، ونجحت فى مساعدة المترجم البشرى على تحسين عمله بل وتفوقت عليه فى أحيان قليلة، غير أنها فى مجملها لم تستطع أن تتغلب على المترجم البشرى فى هذا المضمار، خاصة فى ترجمة الحوارات والمحادثات ويزيد الأمر صعوبة لو كانت هذه الحوارات باللغة العامية أو غير الرسمية. وتستخدم الترجمة الآلية طريقة تعتمد على القواعد اللغوية التى تعنى ترجمة الكلمات بطريقة لغوية، حيث يتم استبدال الكلمات المناسبة فى اللغة الهدف بالكلمات المقابلة لها فى اللغة المصدر، وهناك بعض الآراء التى ترى أنه لن يكتب للترجمة الآلية تحقيق النجاح ما لم تحل مشكلة فهم اللغات الطبيعية أولا. وتوجد عدة طرق للترجمة الآلية هي: الترجمة المعتمدة على القواعد أو المعتمدة على الإحصاء. تقوم لوغاريتمات الترجمة المعتمدة على القواعد بإعراب النص وإنشاء تمثيل وسيط رمزي، يتم منه توليد النص باللغة الهدف، ووفقا لطبيعة التمثيل الرمزي، يوصف منهج الترجمة الآلية بأنه معتمد على التمثيل المحايد أو التحويل. وتتطلب هذه المناهج معاجم شاملة بمعلومات دلالية وتركيبية وصرفية ومجموعة كبيرة من القواعد.

وتحاول الترجمة الآلية الإحصائية توليد الترجمة باستخدام الطرق الإحصائية المعتمدة على ذخيرة لغوية ثنائية اللغة، فإذا توافرت هذه المكانز، يمكن تحقيق جودة ممتازة فى الترجمة الآلية لأى نصوص مشابهة، واول برنامج للترجمة الإحصائية هو CANDIDE  من آى بى إم، وقد استخدمت شركة جوجل  SYSTRAN  لعدة سنوات ثم انتقلت إلى طريقة الترجمة الإحصائية فى أكتوبر2007، وقامت جوجل مؤخرا بإضافة 200 مليار كلمة من مواد الأمم المتحدة لتدريب أنظمة الترجمة الآلية، حيث تحسنت جودة الترجمة كثيرًا

§       التلخيص الآلى: تطبيق من تطبيقات المعالجة الآلية للغة يقوم إنشاء نص مختصر من ملف أو مستند بواسطة برنامج حاسب آلي، على أن يحتوى النص المختصر على أهم الأفكار فى النص الأصلي، وتأتى أهمية التلخيص الآلى فى ضوء إغراق المعلومات وزيادتها عن قدرة المرء على الملاحقة والمتابعة. ينبغى على البرمجيات التى طورت لتقدم خلاصات متماسكة أن تأخذ فى الاعتبار عدة متغيرات مثل الطول وأسلوب الكتابة والبناء من أجل إنشاء ملخص مفيد.   ويمكن التمييز بين نوعين - برامج التلخيص الآلي:

برامج الاستخلاص  تعتمد  نسخ المعلومات التى تعد مهمة إلى الملخص (مثل الجمل الأساسية  والفقرات المهمة)  برامج التجريد أو التركيز فيتطلب إعادة الصياغة .

ويعد التجريد وإعادة الصياغة أقوى تأثيرا ويركز المعلومات بصورة أكبر من الاستخراج، ولكن البرامج التى تقوم بذلك صعبة للغاية فى البرمجة والتطوير لأنها تتطلب تكنولوجيا توليد اللغة الطبيعية، التى ما زالت حتى الآن مجالا متناميا.

التوليد الآلى للغة :  يقصد بالتوليد الآلى اللغة إنشاء نص بلغة طبيعية من نظام تمثيل آلى مثل قاعدة معرفة أو استمارة منطقية، والبعض يعده مقابلا لفهم اللغة الطبيعية، وفى نظم إنشاء التوليد الآلي للغة، يحتاج النظام إلى اتخاذ قرارات بشأن كيفية صياغة أحد المفاهيم. وأنجح التطبيقات للتوليد الآلي للغة أنظمة تحويل البيانات إلى نصوص التي تقوم بإعداد خلاصات نصية للبيانات الرقمية وغير اللغوية حيث تمزج بين تحليل البيانات والتوليد الآلى للغة مثل النشرات الآلية لأحوال المناخ والاقتصاد والبورصة.

 استخلاص المعلومات: يقصد باستخلاص المعلومات فى معالجة اللغات الطبيعية استرجاع المعلومات، فالهدف هو الاستخلاص الآلى للمعلومات المنظمة المصنفة والمعرفة من حيث السياق والمعنى من مستندات إلكترونية غير منظمة. ومن الأهداف الواسعة لاستخلاص المعلومات استنتاج الاستدلالات من المحتوى المنطقى للبيانات المدخلة، ويأتي هذا الهدف في ظل نمو المعلومات في الأشكال غير المنظمة (أى دون بيانات وصف) على الإنترنت، والتي يمكن تسهيل الوصول إليها من خلال ترميزها بأكواد XML .  ومن التطبيقات المثالية لاستخلاص المعلومات مسح مجموعة من المستندات المكتوبة بلغة طبيعية وحشو قاعدة البيانات بالمعلومات التى تم التوصل إليها. ومن المهام الفرعية لاستخلاص المعلومات: تمييز أسماء الأعلام تلقائيا وتمييز العبارات الاسمية التى تشير إلى نفس الشيء واستخلاص المصطلحات أى العثور على المصطلحات لمكنز لغوى معين واستخلاص العلاقات بين الأشياء أو الهويات.

استرجاع المعلومات : خرجت تطبيقات استرجاع المعلومات من عباءة علم البحث عن الوثائق والمستندات والمعلومات داخل الحاسبات وقواعد ومستودعات البيانات وشبكة الويب العالمية وغيرها، وهناك تداخل فى استخدام هذا المصطلح لاسترجاع البيانات والمستندات والمعلومات والنصوص، واسترجاع المعلومات كعلم متعدد الفروع وتتضافر فيه علوم الحاسب والرياضيات وعلوم المكتبة وعلوم المعلومات وبنية المعلومات وعلم النفس الإدراكى واللغويات والإحصاء والفيزياء. تستخدم أنظمة استرجاع المعلومات آليا فى تقليل فيض المعرفة، فالعديد من الجامعات والمكتبات العامة تستخدم أنظمة استرجاع المعلومات لتسهيل العثور على الكتب والدوريات وغيرها من الوثائق ومحركات البحث هى التجسيد الأسمى لتطبيقات استرجاع المعلومات. تتمثل علاقة استرجاع المعلومات بمعالجة اللغة آليا فى تطوير قدرات محرك البحث أو قاعدة البيانات على فهم العبارات والأسئلة باللغة العادية مثل (أريد كتابا يتحدث عن الفيزياء الفلكية) وفى ربط أنظمة استرجاع المعلومات بأنظمة تحويل الكلام إلى نص وبتحويل النص إلى كلام منطوق.

الاجابة على الاسئلة : يعتبر هذا التطبيق من التطبيقات المنتمية استرجاع المعلومات، حيث يفترض بالحاسب أن يستطيع الإجابة على أى أسئلة باللغة العادية من خلال البحث فى مجموعة ضخمة من المستندات والوثائق مثل شبكة الويب العالمية، وتتطلب الإجابة على الأسئلة وسائل معالجة آلية متقدمة للغات مثل استرجاع المستندات، ويعتبرها الكثيرون المرحلة التالية بعد محركات البحث، حيث تقوم بطرح سؤال عادى عن شىء معين، وينبغي على الحاسب أو محرك البحث أن يعرض لك الإجابة فقط أو المستندات التى تحوى الإجابة فقط، وبعض الخبراء يقولون إن الإجابة على الأسئلة لن تكون ممكنة إلا بعد تطوير الويب الدلالية خلال السنوات الخمس أو العشر المقبلة، وحتى الآن ما زالت الإجابة على الأسئلة المنطوقة شكل من أشكال الخيال العلمي حيث يسأل الكابتن السفينة الفضائية عن أي شيء وتجيبه بصوت أنثوى رصين.

 التنقيب فى النصوص : يقصد به عملية استخلاص معلومات عالية الجودة من النصوص، وتستمد المعلومات عالية الجودة من تقسيم الأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائى للأنماط. وتتضمن عملية التنقيب فى النصوص هيكلة النصوص المدخلة من خلال الإعراب (الفك إلى الوحدات اللغوية) مع إضافة مزايا لغوية مشتقة وإزالة مزايا أخرى والإدخال التالى فى قاعدة البيانات واشتقاق الأنماط داخل البيانات المهيكلة وفى النهاية تقييم وتفسير المخرجات. تتضمن مهام التنقيب فى النصوص تصنيف النصوص وعنقدتها واستخراج المفاهيم والهويات وإنتاج التصنيفات المتدرجة وغيرها. وتستخدم تقنيات التنقيب فى النصوص فى تطبيقات الحماية والرعاية الطبية والبرمجيات والتطبيقات وتحسين نتائج البحث وأغراض التسويق والتطبيقات الأكاديمية.

تحويل النص إلى كلام منطوق : يقوم بقراءة النصوص أو تحويل الكلام المكتوب إلى صوت مسموع وكلام منطوق مفهوم، ويسمى نظام الحاسب (برمجيات أو أجهزة) المستخدم لهذا الغرض بمولف الكلام، ويقوم نظام تحويل النص إلى كلام بتحويل نص اللغة العادية إلى كلام، أما الأنظمة الأخرى فتعمل على تحويل الرموز اللغوية الصوتية إلى كلام. يمكن إنشاء الكلام المولف من خلال ضم أجزاء متسلسلة من الحديث المسجل المخزن فى قاعدة بيانات هى المكانز المنطوقة، وتختلف الأنظة فى حجم وحدات الحديث المخزنة، وفى مجالات استخدام معينة، يتيح تخزين كلمات كاملة أو جمل كاملة إنتاج كلام عالى الجودة. وهناك طريقة أخرى هى تضمين نموذج من جهاز النطق وغيرها من خصائص الصوت الإنساني لإنتاج صوت مولف بالكامل. ويتم الحكم على جودة مولف الكلام بدرجة تماثله مع الصوت البشرى أو بمدى فهمه، ويتيح برنامج تحويل النصوص إلى كلام مفهوم للمكفوفين والمعاقين بصريا الاستماع إلى الأعمال المكتوبة من خلال الحاسب المنزلي، وقد تضمنت العديد من أنظمة تشغيل الحاسب مولفات كلام منذ بداية الثمانينات. المشكلة التى تواجه إنتاج مولفات كلام باللغة العربية هى غياب علامات التشكيل، ولهذا لابد من إنتاج المشكل الآلي حتى يمكن تحويل النصوص العربية إلى كلام منطوق.

فهم الصوت : يستمع هذا التطبيق إلى صوت مسموع ويقوم بالتعرف عليه وتحديد هوية صاحبه، من خلال تحويل الصوت إلى رموز تفهمها الآلة وتتعرف عليه، وهو يختلف كذلك عن مصطلح التعرف على الصوت Voice Recognition ويقصد به التعرف على صوت المتحدث نفسه وليس الكلام الذى يقوله. ومن تطبيقات فهم الكلام الاتصالات الصوتية وتوجيه المكالمات والتحكم فى الأجهزة المنزلية والبحث فى المحتوى بالصوت وإدخال البيانات البسيطة وإعداد المستندات المنظمة وتحويل الكلام إلى نص مكتوب وفى كابينات القيادة بالطائرات .

 التعرف الضوئى على الحروف : يقصد بالتعرف الضوئى على الحروف OCR التحويل الميكانيكى أو الإلكترونى لصور الكتابة اليدوية أو الكتابة بالآلة الكاتبة أو النص المطبوع، والتى يتم عادة التقاطها بالماسحة الضوئية إلى نص قابل للتحرير والقراءة فى الحاسب. وقد بلغت تقنية التعرف الضوئى على الحروف شأوا كبيرا فى اللغات اللاتينية بل لم تعد مشكلة على الإطلاق، وفى اللغة العربية توجد تطبيقات متطورة للتعرف الضوئى على الحروف العربية المطبوعة من صخر غير أنها باهظة التكلفة وقليلة الانتشار. وما زال التعرف الضوئى على الكتابة باليد أو الكتابة المنحنية المتصلة مجالا للبحث النشط سواء فى اللغات اللاتينية أو اللغة العربية

واقع المعالجة الآلية للغة العربية :

 يجمع خبراء المعالجة الآلية وهندسة اللغة العرب على أن المعالجة الآلية للغة العربية تعيش واقعا تعيسا يهدد وجود ومستقبل العربية فى عصر العولمة وثقافة الإنترنت وتكنولوجيا المعلومات واقتصاد المعرفة، وهذه الأزمة تجعلها تبدو فى نظر البعض وكأنها غير جديرة بأن تكون لغة العلم والمعرفة، وتتجسد أبرز ملامح هذه المحنة :

•         أن الدول العربية والجامعة العربية بلا حضور أو دور ولا تلقى بالا للقضية برمتها،

•         المحاولات العربية الجارية فى معظمها  لا تحظى بالدعم

•         أغلب المبادرات تتم خارج الوطن العربى

•         غياب الكثير من الأدوات والأسس المطلوبة لدفع جهود المعالجة الآلية للعربي

•         غياب معجم عربى حديث يستفيد من المعالجة الآلية وتكنولوجيا المعلومات.

 

 

 



[1] سناء منعم ومصطفى بوعناني، اللسانيات الحاسوبية  والترجمة الآلية  بعض الثوابت النظرية والإجرائية، ص 96

2 المرجع نفسه، ص 101