آنالیز پنهان مفهومی
معناشناسی | ||||||||
---|---|---|---|---|---|---|---|---|
رایانش | ||||||||
|
||||||||
آنالیز مفاهیم نهفته یک روش در پردازش زبان طبیعی است که در مدلسازی ارتباط مفهومی بین تعدادی متن بر اساس مجموعهٔ کلماتی که دربردارند کاربرد دارد.[۱]
آنالیز مفاهیم نهفته با فرض اینکه کلمات با بار معنایی مشابه در بخش های یکسانی از نوشته قرار می گیرند، کار خود را انجام می هد(طبق Distributional semantics).
یک ماتریس که ردیفهای آن کلمات و ستونهای آن نوشتهها را نشان میدهند، بیانگر تعداد هر واژه در هر نوشته خواهدبود.این ماتریس معمولا با متنهای زیادی ایجاد میشود.در نتیجه برای کاهش تعداد ردیفها از تکنیک تجزیه مقدارهای منفرد استفاده میشود که در عین کاهش تعداد ردیفها ساختار مشابهت بین ستونها را حفظ میکند.در نهایت نوشتهها با محاسبه «تشابه کسینوسی» بین هر دو ستون مقایسه میشوند.
خلاصه
[ویرایش]ماتریس وقوع
[ویرایش]آنالیز مفاهیم نهفته از یک ماتریس استفاده میکند که بیانگر میزان نمایان شدن هر کلمه در هر نوشته است.این ماتریس یک ماتریس تنک است که معمولا سطرهای آن بیانگر کلمات و ستونهای بیانگر نوشتهها هستند.یک روش معمول برای مقدار هر درایه در این ماتریس روش فراوانی وزنی تیاف-آیدیاف است.این روش درواقع میزان اهمیت یک کلمه را در یک نوشته نشان میدهد.عبارات نادر برای نشان دادن اهمیتشان وزن بیشتری دارند.
کاهش رتبه
[ویرایش]بعد از تشکیل ماتریس وقوع ، نیاز است که آن را با یک تقریب کم رتبه از آن جایگزین کنیم.از جمله دلایل این عمل می توان به موارد زیر اشاره کرد:
- ماتریس وقوع اصلی بسیار برای محاسبات بزرگ است.
- ماتریس وقوع اصلی ممکن است حاوی نویز باشد.(برای مثال بعضی از حالت های یک کلمه ممکن است نیاز به حذف شدن داشته باشند.)
- ماتریس وقوع اصلی تنک است.همچنین ما ممکن است علاقمند به این باشیم که کلمات مرتبط با هر نوشته را بررسی کنیم.
روند کاهش رتبه به این شکل است که بعضی از ابعاد با هم ترکیب میشوند.در این حالت کلمات هممعنی را کنار هم قرار میدهد.و همچنین مشکل چندمعنایی کلمات را نیز تا حدودی حل میکند.
کاربرد
[ویرایش]فضای کمبعد ایجاد شده میتواند در موارد زیر استفاده شود:
- مقایسه نوشتهها در فضای کمبعد (خوشهبندی داده، طبقهبندی نوشتهها )
- یافتن نوشتههای مشابه در بین زبان های مختلف پس از آنالیز یک سری نوشته ترجمه شده (CLIR)
- یافتن ارتباط بین عبارات (هممعنایی و چندمعنایی)
- یافتن نوشتههای مرتبط بر حسب عبارت داده شده (کاوش اطلاعات)
- یافتن بهترین شباهت بین گروه های کوچک از عبارات (برای مثال سوالات چندگزینه ای )[۲]
- گسترش فضای خصوصیات در یادگیری ماشین یا سیستم های استخراج متن[۳]
- آنالیز وابستگی کلمات در چهارچوب متن[۴]
کاربرد های تجاری
[ویرایش]آنالیز مفاهیم نهفته در بررسی معیارهای حق ثبت اختراع استفاده شده است.[۵]
کاربرد ها در مطالعه حافظۀ انسان
[ویرایش]آنالیز مفاهیم نهفته در مطالعاتی که در مورد حافظه انسان انجام شده است بسیار موثر بوده است، به خصوص در مباحث free recall و جستوجوی حافظه. یک همبستگی و وابستگی مثبت بین کلماتی که طبق آنالیز ما به هم شبیه هستند وجود دارد و احتمال اینکه این کلمات بعد از یک دیگر به زبان آورده شوند زیاد است.
منابع
[ویرایش]- ↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188. doi:10.1002/aris.1440380105.
- ↑ Lifchitz, Alain; Jhean-Larose, Sandra; Denhière, Guy (2009-11-01). "Effect of tuned parameters on an LSA multiple choice questions answering model". Behavior Research Methods (به انگلیسی). 41 (4): 1201–1209. doi:10.3758/BRM.41.4.1201. ISSN 1554-3528.
- ↑ Gálvez, Ramiro H.; Gravano, Agustín (2017-03-01). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science (به انگلیسی). 19: 43–56. doi:10.1016/j.jocs.2017.01.001. ISSN 1877-7503.
- ↑ Altszyler, Edgar; Ribeiro, Sidarta; Sigman, Mariano; Fernández Slezak, Diego (2017-11-01). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition (به انگلیسی). 56: 178–187. doi:10.1016/j.concog.2017.09.004. ISSN 1053-8100.
- ↑ Elman, Gerry J. (2007-10-01). "Automated Patent Examination Support—A Proposal". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896. ISSN 0730-031X.