شناسایی خودکار سیر اشتقاق کلمات در زبان عربی

‌ ‌‌‌شـناسایی‌ خودکار سیر اشتقاق کلمات در زبان عربی

سید محمد دانش

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 7)


مقدمه

تـحلیل صـرفی و نـحوی، از جمله تحلیل‌های مهم و پایه‌ای هستند که در بسیاری از پردازش‌های‌ متنی زبان عربی مورد استفاده قرار مـی‌گیرند. تحلیل صرفی نیز خود در تحلیل‌ نحوی به طور گستره‌ مورد‌ استفاده قرار مـی‌گیرد و به همین دلیل، در زبـان عـربی تحلیل صرفی، از اهمیت بالایی برخوردار می‌باشد.

در حال حاضر، مرکز تحقیقات کامپیوتری علوم اسلامی از تحلیلگر صرفی نور برای نیازهای خود‌ استفاده می‌کند. در ابتدای امر دستیابی به تمام حالات صرفی صحیح یک عـبارت(کلمه) به عنوان هدف اولیه مطرح گردید؛ ولی به دلیل استفاده گسترده و فواید جانبی دیگری که بر این‌ سامانه‌ متصور است، بر آن شدیم تا در این مقاله به چند نمونه از این فواید اشـاره نـماییم که می‌توانند در پروژه‌های مرکز تحقیقات کامپیوتری علوم اسلامی و سرعت‌بخشی به بعضی از‌ آنها‌ مورد بهره‌برداری قرار گیرند. ارائه مجموعه کاملی از خصوصیات صرفی توسط برنامه، قابلیت بهره‌برداری‌های بیشتر را برای کاربردهای متفاوت فراهم مـی‌نماید. جـدا‌سازی پیشوندها و پسوندها، کمک به شناسایی اغلاط احتمالی‌ متن‌، استفاده در تحلیل نحوی، شناسایی و پیشنهاد ریشه‌های احتمالی و نیز بهره‌برداری در سیر اشتقاق تصریف، از جمله این فواید می‌باشد که در ادامه به آنها اشـاره مـی‌کنیم.

1. جدا‌سازی (1) پیشوندها و پسوندها‌

پیراسته‌سازی‌(2)، یکی‌ از عملیات‌های رایج و پرفایده در‌ زمینه‌ پردازش‌ هوشمند متون می‌باشد که از اهمیت بالایی برخوردار است. یکی از خروجی‌های جنبی تحلیلگر صرفی نور، این است که قبل از‌ ایـنکه‌ وارد‌ مـرحله تـحلیل صرفی عمیق کلمه شود، تـمام حـالات‌ جـدا‌سازی‌ پیشوندی و پسوندی را برای کلمه ورودی انجام داده، فهرست تمام حالات احتمالی را ارائه نماید. از آنجا که بعضی‌ از‌ پیشوندها‌ و پسوندها میان اسم، فعل و حرف مشترک بـوده و یـا مـیان دو‌ دسته از آنها مشترک هستند و از طرف دیگر، بعضی از آنـها مـخصوص یک دسته می‌باشد، در مرحله اولیه‌ و بدون‌ مشخص‌ نمودن کاربر حالات ارائه‌شده توسط برنامه متنوع بوده و ممکن است کاربر‌ بـه‌راحتی‌ نـتواند بـه حالت مورد نظر خود دست پیدا کند؛ اما اگر کـاربر نوع کلمه را وارد‌ نماید‌، این‌ حالات به‌مراتب کاهش پیدا خواهد نمود.

بنا به وارد نمودن نوع تفکیک‌ اسمی‌ یا‌ فـعلی و هـمچنین عـمق جداسازی، می‌توان به تفکیک دلخواه دست پیدا نمود. از این قابلیت‌ عـلاوه‌ بـر‌ جداسازی پیشوندها و پسوندها و دستیابی به میانوند مورد نظر، می‌توان در مواردی که کاربر قسمتی‌ از‌ کلمه‌ای را وارد می‌کند، بـقیه حـالات را بـه عنوان پیشنهاد و قبل از وارد‌ نمودن‌ به‌ او ارائه نمود که در صورت موجود بودن میانوند مـورد نـظر، آن را انـتخاب‌ نموده‌، بدین صورت، عملیات وارد کردن کلمه سرعت بهتری پیدا کند و در صورت نادرست‌ بودن‌ قـسمت‌ وارد شـده فـعلی، آن را برایش اصلاح کرده، درست آن را جایگزین نمود. در شکل‌ ذیل‌، تفکیک کلمه «فسیکفیکهم» نشان داده شده اسـت کـه به کاربر در انتخاب‌ کلمه‌ مورد‌ نظر کمک می‌کند.

/

با کمک قاعده مشهور «سـألتمونیها» مـی‌توان پا را فـراتر نهاده و حتی حروف‌ «أتین‌» را‌ از افعال و اسما جدا نمود تا دسته‌بندی‌های جامع‌تری داشته باشیم؛ بـرای مـثال‌، کلمات‌ «فیتقابل»، «یتقابله»، «بمقابل» و «مقابلک» را در نظر بگیرید که دوتای اول فعل و دو تای بعدی اسـم‌ مـی‌باشند‌. در مـرحله اول، با جدا‌سازی پیشوندها و پسوندها دو دسته با محوریت «یتقابل‌» و «مقابل‌» تشکیل می‌گردد که هر کدام هـم دو‌ کـلمه‌ از‌ این چهار کلمه را پوشش می‌دهند؛ ولی‌ اگر‌ روند تفکیک را در سطح قاعده «سـألتمونیها» ادامـه دهـیم، یک دسته با محوریت‌ «قابل‌» تشکیل می‌گردد که هر چهار‌ کلمه‌ را درون‌ خود‌ جای‌ داده اسـت و بـه عـبارت دیگر، با‌ تجرید‌ بیشتر می‌توانیم به یک میانوندی برسیم که جامعیت بـیشتری داشـته باشد.

گفتنی‌ است‌، از این قابلیت در موتور میانوند‌ به شکل گسترده در‌ ابزار‌ ریشه مشتق استفاده شده اسـت‌ کـه‌ با یک میانوند، حداکثر کلمات پوشش داده می‌شود و کاربر با انتخاب یک ریـشه‌، ریـشه‌ مورد نظر را برای همه‌ آنها‌ انتخاب‌ مـی‌نماید کـه در‌ افـزایش‌ سرعت زدن ریشه تأثیر‌ بسزایی‌ دارد.

2. شناسایی اغلاط احـتمالی (3) مـتن

از آنجا که روند تحلیل موتور صرف با فرض‌ صحیح‌ بودن کلمات موجود در مـتن ورودیـ‌ صورت‌ می‌پذیرد، به‌ همین‌ دلیـل‌، اگـر تحلیلگر صـرفی نـتواند‌ بـرای کلمه‌ای

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 8)


جوابی ارائه نماید، فارغ از اینکه عـدم وجـود جواب ممکن است به جهت‌ ضعف‌ و نقص تحلیلگر صرفی باشد، خود مـی‌تواند‌ بـا‌ یک‌ احتمال‌ نسبتاً‌ بالایی وجود اشـتباه‌ برای‌ آن کلمه را بیان نـماید. ایـن اشتباه ممکن است از چند دسـته مـختلف: اشتباهات املایی(تایپی‌)، اشتباهات‌ ساختاری‌(صرفی)، به هم چسبیدگی کلمات و از هم‌ گسستگی‌ اجـزای‌ یـک‌ کلمه‌ باشد‌. کلمات با اشـتباهات سـاختاری مـثل «انبطال» یا «تـوصیف»، از نـظر زبان‌شناسی نیز دارای اهمیت بـالایی اسـت. از این قابلیت می‌توان به مقدار قابل توجه در تصحیح اغلاط‌ متون استفاده نمود و روند تـصحیح را سـرعت بخشید.

3. استفاده در تحلیل نحوی

از آنجا کـه شـناخت جایگاه کـلمه از نـظر نـحوی، بر مشخص بودن شـرایط صرفی کلمه مبتنی است، به‌ همین‌ دلیل، لازم است قبل از شروع نتیجه‌گیری‌های نحوی، از لحاظ صرفی عـملیات شـناسایی انجام شده باشد و به عبارت بـهتر، تـحلیل نـحوی سـرعت بـهتری پیدا می‌کند؛ بـرای مـثال، فاعل یا‌ مفعول‌ جمله حتماً باید اسم باشند و یا ترکیب اضافی جار و مجرور همیشه از یک حـرف و اسـم بـعد از آن تشکیل می‌گردد. یکی دیگر از‌ موارد‌ پر تکرار در مـتن، تـرکیبات‌ مـضاف‌ و مـضافٌ الیـه مـی‌باشد که باید از دو اسم تشکیل گردد و یا شناسایی جملات فعلیه متوقف بر این است که جمله با فعل شروع گردد‌ که‌ همه اینها، از تحلیل‌ صرفی‌ استنتاج می‌گردد. در حـال حاضر، از خروجی تحلیل صرفی در تحلیل نحوی قرآن کریم استفاده شده است که در نوع خود بی‌نظیر می‌باشد و در پایگاه متن نور قابل دسترسی می‌باشد‌.

/

4. شناسایی‌ و پیشنهاد ریشه‌های احتمالی

یکی دیگر از قابلیت‌های تـحلیلگر صـرفی نور، استفاده در عملیات تعیین ریشه برای کلمات متن می‌باشد. روند کار این‌گونه است که می‌توان از ویژگی ریشه خروجی برنامه‌ صرف‌ به طور‌ بسزایی در شناسایی ریشه کلمات بهره برد. ایـن نـیاز در خصوص کلمات معتل، مقلوب و یا مهموز، بیشتر‌ خودنمایی می‌کند؛ چراکه در این نوع کلمات به دلیل اِعمال قواعد‌ اعلال‌، مهموز‌، تخفیف، ادغام و ابدال، سـاختار کـلمه دستخوش تغییر و دگرگونی می‌شود. ایـن امـر باعث می‌گردد که تشخیص ریشه برای ‌‌محقق‌ مشکل گردد؛

برای مثال، کلمه «عاد» می‌تواند هر سه ریشه «عدد»، «عدو» و «عود‌» را‌ داشته‌ باشد و یا هـر کـدام از ریشه‌های «بور»، «برو»، «بـری»، «بـءر» و «برر» می‌تواند ریشه کلمه «بار‌» باشند که تشخیص بعضی از آنها برای کاربر یا مشکل بوده و بعضی دیگر‌ هم حقیقتاً غیر قابل‌ تشخیص‌ هستند که در اینجا با کمک برنامه می‌توان تـمام ریـشه‌های احتمالی را پیدا کرده، به کاربر ارائه نمود. با داشتن تعداد تکرار ریشه‌های موجود، می‌توان ریشه‌های مستعمل و غیرمستعمل را برای هر‌ کلمه در صورت تعدد ریشه مشخص کرد و از طرف دیگر، در صورت نقص ریشه‌های اسـتعمالی، آن را تـرمیم نمود.

5. کـمک به موتور اِعراب (4)

از آنجا که موتور صرف قابلیت کار با‌ متون‌ با اعراب و بدون اعراب دارد، می‌توان از خـروجی آن جهت اتقان و در عین حال، برطرف نمودن اشکالات احتمالی جواب پیشنهادی مـوتور اعـراب‌گذار اسـتفاده کرد.

6. استفاده از بانک‌های جانبی برنامه

این‌ بانک‌ها‌ با زحمت زیاد و تلاش همکاران گروه ادبیات و متن‌کاوی، از میان کـتب ‌ ‌مـختلف استخراج و جمع‌آوری شده است. بانک‌های اطلاعاتی مذکور عبارت‌اند از: بانک ادات اسمی و حرفی، بانک اسـامی جـامد، جـمع‌های‌ مکسر‌، افعال غیرمتصرف، ادات متصل، صفات مشبهه، اعلام تک‌کلمه‌ای و بانک ریشه‌های مستعمل زبان عربی، مصادر ثـلاثی و رباعی مجرد. این منابع اطلاعاتی، در نوع خود بسیار ارزشمند است که به‌تدریج جـمع‌آوری‌ شده‌ و غنی‌ گردیده‌اند.

تـعداد رکـورد

نام بانک‌

نوع‌ بانک‌ اطلاعاتی

63

ادات متصل

اسمی

20000

اعلام

50

پسوند اسمی

368

ادات اسمی

19221

جوامد

53

مصادر ثلاثی مجرد

18067

جمع‌های‌ مکسر‌

128‌

ادات حرفی

حرفی

18

پیشوند فعلی

43

پیشوند‌ اسمی‌

33

پیشوند حرفی

67

افعال غیرمتصرف

فعلی

7. آماده‌سازی پیکره(5)‌هـای نشان‌گذاری شده

یکی دیگر از استفاده‌هایی که از تحلیلگر‌ صرفی‌ می‌شود‌، کمک به زبان‌شناسان خبره ادبیات عرب برای تهیه پیکره‌های رفع‌ ابهام‌شده و آماده‌سازی دیتای آموزش برای برنامه رفع ابهام صرف می‌باشد. برنامه رفـع ابـهام صرف، جواب‌های با استعمال بیشتر‌ را‌ به‌ترتیب‌ اولویت‌بندی می‌کند. در حال حاضر، این برنامه با زحمت

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 9)


همکاران گروه‌ متن‌کاوی‌ و مساعدت زبان‌شناسان خبره گروه پژوهش انجام شده است. سرعت‌بخشی در تهیه و توسعه این پیـکره‌های رفـع ابهام‌شده‌ و افزایش‌ دقت‌ آن، از جمله بهره‌برداری‌هایی بود که تحلیلگر صرفی ارائه کرد.

نفس تهیه‌ این‌ پیکره‌های‌ رفع ابهام‌شده با توجه به روند پرچالش و حجیمی که دارد، ارزشمند بوده و بعضی از‌ مؤسسات‌ مشابه‌، از آن بـه عـنوان دستاوردهای انحصاری خود استفاده می‌نمایند. هم‌اینک، دیتای رفع ابهام صرف‌، دارای‌ 523992 رکورد می‌باشد که 487716 رکورد آن، یعنی معادل 93% رفع ابهام شده‌اند‌. تعداد‌ کل‌ میانوندها، پیشوندها و پسوندهای رفع ابهام‌شده، 489630 عدد و تـعداد کـل ویـژگی‌های رفع ابهام‌شده، حدود 4651485‌ مورد‌ مـی‌باشد کـه در نـوع خود بی‌نظیر است.

8. مدیریت رسم‌الخط‌های مختلف

برای بعضی حروف‌ در‌ زبان‌ عربی، رسم‌الخط‌های مختلفی وجود دارد که همه آنها صحیح بوده و ممکن اسـت در یـک مـتن‌ یک‌ کلمه با چند رسم‌الخط متفاوت آمده بـاشد. در ایـن صورت، لازم است‌ برنامه‌ بتواند‌ تمام حالات صحیح را شناسایی نموده، از اشتباهات آن تفکیک نماید. یکی از این حروف‌، همزه‌ می‌باشد‌ که بـا پایـه کـرسی‌های مختلف در متن ظاهر می‌گردد؛ به طور مثال‌، کلمات‌ «ءادم، آدم، أولئک، أولائک، شیئا، شـیءا، لَئِن، لَإِن، علماءهم، علمائهم، علماؤهم»، از جمله مواردی هستند که‌ برنامه‌ می‌تواند تمام آنها را شناسایی نماید.

9. استفاده در آموزش علم صرف زبـان‌ عـربی‌

یـکی دیگر از قابلیت‌های جنبی برنامه صرف‌، این‌ است‌ که می‌تواند در آموزش عـلم صـرف به‌ زبان‌شناسان‌، محققان، دانشجویان و طلاب علوم دینی کمک شایانی کند. اگر برنامه‌ای مناسب با طراحی‌ واسـط‌ کـاربر خـوب طراحی گردد، کاربران‌ می‌توانند‌ خروجی‌های درخواستی‌ خود‌ را‌ مشاهده نمایند که در خصوص قـواعد‌ اعـلال‌، ادغـام و یا ابدال مفید خواهد بود.

10. سیر اشتقاق تصریف

یکی از‌ مهم‌ترین‌ کاربردهای برنامه تحلیل صـرف، اسـتفاده در‌ بـه‌دست آوردن سیر اشتقاق‌ تصریف‌ و روند ساخته‌شدن کلمه از ریشه‌ تا‌ کلمه مورد نظر می‌باشد. ارائه سلسله‌کلمات مـرتبط بـا کلمه ورودی، در اصطلاح، ریشه‌یابی‌ تصریفی‌ (6) نامیده می‌شود. روند کار بدین‌ صورت‌ است‌ که زنـجیره ایـن‌ کـلمات‌ مرتبط با توجه به‌ تعریف‌ ارائه‌شده، از نزدیک‌ترین سطح شروع گردیده، تا دورترین سطح کـه هـمان ریشه کلمه است‌، ادامه‌ پیدا می‌کند.

در سامانه تحلیلگر صرفی‌، تمام‌ شقوق و حالات‌ ریـشه‌های‌ مـعتبر‌ زبـان عربی به طور‌ بالقوه وجود دارند و برای هر دسته از کلمات، اعم از فعل و اسم، توانایی تـولید و ایـجاد‌ وجود‌ دارد. در حال حاضر، فقط حالاتی‌ که‌ متناسب‌ با‌ کلمه‌ ورودی هستند، توسط‌ بـرنامه‌ تـولید مـی‌گردد و حالات مورد نیاز، به صورت هوشمند تولید می‌شوند. از آنجا که مقدمات تولید زنجیره‌ سیر‌ اشـتقاق‌ تـصریف، هـمگی در تحلیلگر صرفی موجود بود‌ و فقط‌ نیاز‌ به‌ تولید‌ یکایک‌ عناصر این زنـجیره داشـت، به همین دلیل، در کنار سیر تحلیل صرفی برای کلمه، این زنجیره نیز تولید می‌گردد.

اگر ریـشه صـحیح و سالم نباشد، لازم است که‌ برای تک‌تک عناصر، عملیات اعلال، ادغام، تخفیف و مـضاعف نـیز انجام شود که به طور متوسط، بـه ازای هـر کـلمه ورودی، 10 کلمه مورد تحلیل صرفی قرار می‌گیرد. بـرنامه در ایـن‌ باره‌ به گونه‌ای نوشته شده است که ابتدا همه عناصر به طور مـجزا سـاخته می‌شوند و در نهایت، با هر تـرتیب دلخـواهی که لازم بـاشد، در کـنار هـم قرار گرفته و به‌ کاربر‌ ارائه می‌شوند. ایـن قـابلیت وجود دارد که تعداد و یا ترتیب آنها عوض شده، کاربر می‌تواند متناسب بـا نـیاز خود، زنجیره مورد نظر را‌ دریافت‌ نـموده، مورد بررسی قرار دهـد‌.

بـرای‌ مثال، روند اشتقاق تصریفی فـعل

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 10)


«سـَتُنْتَصَرْنَ» به صورت «سَتُنْتَصَرْنَ، تُنْتَصَرْنَ، تُنْتَصَرِینَ، تُنْتَصَرُ، یُنْتَصَرُ، یَنْتَصِرُ، اِنْتَصَرَ، اِنْتِصَار، نَصْر، نُصُور، نـُصْرَه، نـ‌ص‌ر» و برای اسم «بِمَعْنَوِیَّاتِهِ» به‌ صـورت‌ «مـَعْنَوِیَّات، مـَعْنِیَّات، مَعْنِیَّه، مَعْنِیّ‌، أَعـْنَی‌، إِعـْنَاء، عَنَا، عُنُوّ، عَنَاء، عـَنْوَه، عـَنْو، ع‌ن‌و» می‌باشد.

نمونه‌ای از خروجی برنامه تحلیلگر صرفی برای فعل «سَتُنْتَصَرْنَ» در تصویر ذیل نشان داده شـده اسـت. همان طور که ملاحظه می‌کنید، بـرنامه‌ تـحلیلگر‌ صرفی بـرای کـلمات بـه صورت خطی، (7) سیر اشـتقاق تصریف را ارائه می‌کند که از استم میانوند کلمه شروع شده و به ریشه منتهی می‌گردد. برای کل کـلمات ورودی، بـر اساس تعریفی‌ که‌ بسته به‌ نـوع کـلمه ارائه شـده اسـت، ایـن سیر اشتقاقی ارائه مـی‌گردد کـه می‌توان از هر کدام از کلمات‌ داخل این زنجیره در مراحل مختلف و برنامه‌های متعدد استفاده نمود.

در‌ این‌ بین‌، ارائه مـصادر مـزید و مـجرد که محمل مناسبی برای ارتباط میان هـم‌خانواده‌های یـک ریـشه هـستند، قـابلیت‌ها و ارزش ایـن ‌‌ویژگی‌ را دو چندان می‌نماید. سیر ارائه خروجی برای فعل و اسم، به‌ترتیب در شکل‌های‌ «1» و «2» نمایش‌ داده‌ شده است.

شکل 1: شیوه محاسبه اشتقاق تصریفی برای افعال «سَتُنْتَصَرْنَ»

شکل 2: شیوه محاسبه اشتقاق تـصریفی‌ برای اسما «بِمَعْنَوِیَّاتِهِ»

با کنار هم قراردادن این زنجیره‌های خطی، زمینه کاملاً مناسبی‌ برای ایجاد ساختارهای سلسله‌مراتبی‌ و درختی‌ فراهم می‌شود و فایده اصلی کار ما در این ساختار به‌خوبی مورد بهره‌برداری قـرار مـی‌گیرد.

ریشه درخت سلسله‌مراتبی در این ساختار ریشه صرفی کلمه می‌باشد. در این مرحله، با کمک فنون دسته‌بندی‌ و مرتب‌سازی داده گروه‌ها و به عبارت دیگر، درخت‌های مختلفی با محوریت ریشه تشکیل می‌گردد که بـا تـوجه به اینکه فرزندان ریشه که بزرگ این دسته نامیده می‌شود، چه باشند، به صورت مرتبه‌به‌مرتبه‌ و سطح‌به‌سطح‌ جلو رفته و درخت فرزندان و نوه‌ها و به هـمین تـرتیب، سایر نسل‌های دیگر آن مورد جـست‌وجو قـرار گرفته و هر کلمه در درخت بسته به اینکه پدر و فرزندانش چه می‌باشند، تعبیه می‌گردد و به‌ این‌ صورت، از ریشه تا برگ‌های درخت که در حقیقت همان کلمات داخـل مـتن می‌باشند، جلو می‌رویم و شـجره‌نامه مـربوطه را تهیه می‌نماییم.

در ذیل چند کلمه اعم از اسم و فعل‌ که‌ از ریشه «ن ص ر» هستند و زنجیره خطی برای آنها وجود دارد، نشان داده شده است.

/

پس از دسته‌بندی تمام کلمات موجود در متن که دارای ریشه «ن ص ر» هستند و اجرای فنون لازم بـرای‌ سـاخت‌ درخت‌ سلسله‌مراتبی، درخت زیر ساخته می‌گردد‌.

این‌ ریشه‌، در مرحله اوّل دارای سه فرزند می‌باشد که هر کدام از آنها خود دارای فرزندان مخصوص به خود می‌باشند. در شکل‌ ذیل‌، حالت‌ بازشده‌تر این درخت نمایش داده شـده اسـت.

/

در‌ شکل‌ زیـر هم سلسله‌مراتب پایین‌تر از این درخت را نیز مشاهده می‌کنید:

/

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 11)


فواید درخت سلسله‌مراتبی

همان طور که مشاهده می‌کنید‌، کـلماتی‌ مثل‌ «نَاصَرَ» یا «نَاصِرً» که برگ‌های این درخت سلسله‌مراتبی می‌باشند کـلماتی‌ هـستند کـه در متن ورودی ما وجود داشته‌اند و به همین دلیل، در مرحله نهایی تعبیه شده‌اند. این درخت‌ سلسله‌مراتبی‌، فواید‌ بسیاری دارد کـه ‌ ‌در ادامـه به بعضی از این موارد اشاره‌ می‌نماییم‌:

1. جست‌وجوی گسترده (تجرید میانوند از پیشوند و پسوند): ایـن جـست‌وجو روی لفـظ کلمه مورد نظر کاربر متمرکز‌ نبوده‌ و با‌ یک مرحله تجرید کلمه، می‌توان به گروهی از کـلمات که کلمه مورد‌ نظر‌ هم‌ در میان آنهاست، دست یافت؛ برای مثال، اگر جـست‌وجو به خود لفظ مـتمرکز بـاشد‌، کاربر‌ وقتی‌ کلمه «بمساجد» را مورد جست‌وجو قرار می‌دهد، تمام رخدادهای این کلمه درون متن استخراج‌ می‌گردد‌؛ ولی با استفاده از این روش، کلمات: «مساجد»، «بمساجده»، «بمساجدکم»، «مساجدهم» و… نیز به‌ کاربر‌ پیشنهاد‌ می‌گردد که در بعضی مـوارد، ممکن است کاربر متوجه شود که نیاز اصلی او‌، کلمه‌ مورد جست‌وجو نبوده و در میان جواب‌های پیشنهادی دیگر، به نیاز اصلی خود معطوف‌ گردد‌ و یا‌ اینکه وسعت دید کاربر به دلیل ارائه جواب‌های مـتعدد دیـگر بیشتر شده و دقت و تصمیم‌گیری او‌ بعد‌ از در کنار هم قرار دادن موارد پیداشده، به طور چشمگیری بهبود‌ پیدا‌ نماید‌. نمونه‌ای از این استفاده، در نرم‌افزار «جامع الأحادیث» در شکل ذیل نشان داده شده است‌.

/

2. جست‌وجوی‌ پیشرفته‌ (رجـوع بـه مصدر): حلقه وصل مورد استفاده در جست‌وجوی گسترده، میانوندی بود‌ که‌ با یک لایه تجرید، کلمه از پیشوندها و پسوندها به‌دست می‌آمد و می‌توانست رابط میان کلمات دیگر با‌ همین‌ میانوند، ولی با پیـشوندها و پسـوندهای متنوع دیگر قرار گیرد. در این جست‌وجو‌، علاوه‌ بر این مرحله، میانوند کلمه را به‌ مصدر‌ آن‌ بر می‌گردانیم که این

ره آورد نور » زمستان 1394 – شماره 53 (صفحه 12)


باعث می‌گردد کاربر‌ به‌ دامنه وسیع‌تری از کلمات دسترسی پیدا کـند و در نـتیجه، بـررسی و تصمیم‌گیری‌هایش با احاطه‌ بیشتری‌ صـورت خـواهد گـرفت؛ برای مثال‌، با‌ جست‌وجوی کلمه‌ «بمساجد‌»، علاوه‌ بر «مساجد»، «بمساجده»، «بمساجدکم» و «مساجدهم»، کلمات‌ «مسجد‌»، «سجده»، «سجود» و «سجّاد» و سایر ترکیبات پیشوندی و پسـوندی آنـها نـیز در دامنه بررسی‌ قرار‌ می‌گیرند.

3. جست‌وجوی مدیریت‌شده: اگر تـمام کـلمات‌ داخل متن مورد استفاده‌ قبل‌ از انجام جست‌وجو توسط تحلیلگر‌ صرفی‌ تگ خورده و رفع ابهام هم شده باشند، در مواردی کـه کـلمه مـورد جست‌وجو‌ بین‌ اسم، فعل و حرف و یا حداقل‌ دوتای‌ از‌ آنها مـشترک باشند‌، کاربر‌ را قادر می‌سازند که‌ کلمه‌ را در دامنه‌های مختلف اسمی، فعلی و یا حرفی مورد جست‌وجو قرار دهد؛

به عـنوان‌ مـثال‌، کـلمه «علی» بین هر سه دسته‌ مشترک‌ می‌باشد؛ (عَلِیَ‌(فعل‌)، عَلِیّ‌(اسـم) و عـَلَی(حرف)). در‌ حال حاضر، کاربر با جست‌وجوی این کلمه به سوی هر سه دسته از این کلمات‌ در‌ مـتن سـوق داده مـی‌شود که با‌ فرض‌ فعال‌ بودن‌ جست‌وجوی‌ پیشرفته، تعداد کلمات‌ پیشنهادی‌ به‌مراتب زیـاد بـوده و کـاربر را دچار سردرگمی می‌نماید؛ اما با این قابلیت کاربر می‌تواند فقط «علی‌”های‌ فعلی‌ را مـورد بـررسی قـرار دهد؛ برای مثال‌، کلمه‌ «فی‌» میان‌ فعل‌ و حرف‌ مشترک است که تعداد رخدادهای حـرفی آن در مـتن به‌مراتب بیشتر از رخداد‌های فعلی است و اگر کاربر بخواهد به حالات فعلی دسترسی پیـدا کـند، فـرآیند جست‌وجو زمان‌بر‌، کم‌فایده و پرهزینه خواهد بود؛ ولی به کمک این قابلیت می‌تواند به موارد فـعلی بـه طور مستقیم دسترسی داشته باشد.

به دلیل ارائه شدن ویژگی‌های متعدد صرفی برای هـر کـلمه، مـی‌توان‌ عملیات‌ جست‌وجو را بر اساس هر کدام از این ویژگی‌ها متمرکز نمود که در مثال فوق، جست‌وجو بـر اسـاس نوع کلمه که در ویژگی Pos خروجی تحلیل صرف بود، صورت‌ می‌گرفت‌؛ به عـنوان مـثال دیـگر، می‌توان جست‌وجو را بر ریشه کلمات، یعنی Root خروجی تحلیل صرفی متمرکز نمود؛ برای مثال، کلمه «عـاد» در حـالت‌ فـعلی‌ از ریشه «عود»، و در حالت‌ اسمی‌ از ریشه «عدد» قابل تصور است.

حال اگر کـاربر در هـنگام جست‌وجو ریشه مورد نظر خود را هم وارد نماید، می‌تواند به طور مستقیم‌ به‌ کلمه «عاد» مورد نـظر‌ خـود‌ دسترسی پیدا نماید. در موارد لازم می‌توان حتی با تلفیق این ویژگی‌ها، فرآیند جـست‌وجو را بـا دقت بسیار بالایی مدیریت و ناوبری کرد. در مـثال جـست‌وجوی «عـلی»، کاربر می‌تواند با ترکیب‌ نوع‌ کلمه و ریـشه بـه طور مستقیم، به «علی”هایی که فعل بوده و از ریشه «علو» هستند، دست پیـدا کـند و یا اینکه به «علی”هـایی کـه از ریشه «عـلی» هـستند، رجـوع نماید‌.

4. کمک‌ به محققان‌ جهت تـدوین لغـت‌نامه، از جمله کاربردهای دیگر سیر اشتقاق تصریف می‌باشد. روش کار این است که مـحقق‌ بـه‌ترتیب از خود کلمه تا ریشه جلو رفـته و در این پیشروی‌، هر‌ کـلمه‌ای‌ کـه موضوعیت قرار گرفتن به عـنوان یـک مدخل در لغت‌نامه را داشته باشد، انتخاب گردیده، در جایگاه ‌‌خود‌ قرار داده می‌شوند و باعث می‌شود تـا ایـن تدوین، با نظم و دقت بـهتر و سـرعت‌ بـالاتری‌ صورت‌ پذیرد.

5. از جـمله کـاربردهای مفید این ویژگی، اسـتفاده در انـتقال کاربر به نزدیک‌ترین کلمه موجود‌ در لغت‌نامه (قاموس) می‌باشد. در این حالت، کاربر در بررسی کلمه مـورد نـظر‌ خود به یکباره به‌ سطوح‌ دورتـر و کـمتر مرتبط بـا کـلمه ورودی مـنتقل نشده و موجبات سردرگمی او ایـجاد نمی‌گردد و تنها در صورت نیاز و درخواست خود کاربر است که مرحله‌به‌مرحله به سطوح کمتر مرتبط کـه آخـرین آنها ریشه‌ کلمه است، منتقل مـی‌شود و دامـنه بـررسی کـاربر بـه اختیار خود او گـسترش پیـدا می‌نماید.

کاربردهای سیستم ریشه‌یابی تصریفی، به این موارد خلاصه نمی‌شود. به طور کلی، با استفاده از ایـن سـیستم‌ مـی‌توان‌ به «غنی‌سازی انواع داده‌های متنی» پرداخت و بـا بـهره‌گیری از «درخـت‌های ارتـباط مـعنایی»، از ایـن متون غنی‌شده در کاربردهای سطح بالایی، از قبیل سیستم‌های: «تحلیل محتوا»، «مشابه‌یاب متون» و «معاجم لفظی و موضوعی‌» بهره‌ برد. بررسی و توضیح موارد اشاره‌شده، به تفصیل و توضیح بیشتر نیاز دارد که در ایـن مقام نمی‌گنجد و در کارهای تحقیقاتی پیش رو، با جزئیات بیشتر به آنها پرداخته خواهد شد‌.

پی‌نوشت‌ها‌:

1. Tokenization.

2. Stemming.

3. Error Detection.

4. Diacritizator.

5. Corpus.

6. Lemmatization.

7. Linier.

مطالب مرتبط

نظرات شما

قالب ووکامرس