پرش به محتوا

آنالیز پنهان مفهومی

از ویکی‌پدیا، دانشنامهٔ آزاد

آنالیز مفاهیم نهفته یک روش در پردازش زبان طبیعی است که در مدلسازی ارتباط مفهومی بین تعدادی متن بر اساس مجموعهٔ کلماتی که دربردارند کاربرد دارد.[۱]

آنالیز مفاهیم نهفته با فرض این‌که کلمات با بار معنایی مشابه در بخش های یکسانی از نوشته قرار می گیرند، کار خود را انجام می هد(طبق Distributional semantics).

یک ماتریس که ردیف‌های آن کلمات و ستون‌های آن نوشته‌ها را نشان می‌دهند، بیانگر تعداد هر واژه در هر نوشته خواهد‌بود.این ماتریس معمولا با متن‌های زیادی ایجاد می‌شود.در نتیجه برای کاهش تعداد ردیف‌ها از تکنیک تجزیه مقدارهای منفرد استفاده می‌شود که در عین کاهش تعداد ردیف‌ها ساختار مشابهت بین ستون‌ها را حفظ می‌کند.در نهایت نوشته‌ها با محاسبه «تشابه کسینوسی» بین هر دو ستون مقایسه می‌شوند.

خلاصه

[ویرایش]

ماتریس وقوع

[ویرایش]

آنالیز مفاهیم نهفته از یک ماتریس استفاده می‌کند که بیانگر میزان نمایان شدن هر کلمه در هر نوشته است.این ماتریس یک ماتریس تنک است که معمولا سطر‌های آن بیانگر کلمات و ستون‌های بیانگر نوشته‌ها هستند.یک روش معمول برای مقدار هر درایه در این ماتریس روش فراوانی وزنی تی‌اف-آی‌دی‌اف است.این روش درواقع میزان اهمیت یک کلمه را در یک نوشته نشان می‌دهد.عبارات نادر برای نشان دادن اهمیتشان وزن بیشتری دارند.

کاهش رتبه

[ویرایش]

بعد از تشکیل ماتریس وقوع ، نیاز است که آن را با یک تقریب کم رتبه از آن جایگزین کنیم.از جمله دلایل این عمل می توان به موارد زیر اشاره کرد:

  • ماتریس وقوع اصلی بسیار برای محاسبات بزرگ است.
  • ماتریس وقوع اصلی ممکن است حاوی نویز باشد.(برای مثال بعضی از حالت های یک کلمه ممکن است نیاز به حذف شدن داشته باشند.)
  • ماتریس وقوع اصلی تنک است.همچنین ما ممکن است علاقمند به این باشیم که کلمات مرتبط با هر نوشته را بررسی کنیم.

روند کاهش رتبه به این شکل است که بعضی از ابعاد با هم ترکیب می‌شوند.در این حالت کلمات هم‌معنی را کنار هم قرار می‌دهد.و همچنین مشکل چند‌معنایی کلمات را نیز تا حدودی حل می‌کند.

کاربرد

[ویرایش]

فضای کم‌بعد ایجاد شده می‌تواند در موارد زیر استفاده شود:

  • مقایسه نوشته‌ها در فضای کم‌بعد (خوشه‌بندی داده، طبقه‌بندی نوشته‌ها )
  • یافتن نوشته‌های مشابه در بین زبان های مختلف پس از آنالیز یک سری نوشته ترجمه شده (CLIR)
  • یافتن ارتباط بین عبارات (هم‌معنایی و چند‌معنایی)
  • یافتن نوشته‌های مرتبط بر حسب عبارت داده شده (کاوش اطلاعات)
  • یافتن بهترین شباهت بین گروه های کوچک از عبارات (برای مثال سوالات چند‌گزینه ای )[۲]
  • گسترش فضای خصوصیات در یادگیری ماشین یا سیستم های استخراج متن[۳]
  • آنالیز وابستگی کلمات در چهارچوب متن[۴]

کاربرد های تجاری

[ویرایش]

آنالیز مفاهیم نهفته در بررسی معیار‌های حق ثبت اختراع استفاده شده است.[۵]

کاربرد ها در مطالعه حافظۀ انسان

[ویرایش]

آنالیز مفاهیم نهفته در مطالعاتی که در مورد حافظه انسان انجام شده است بسیار موثر بوده است، به خصوص در مباحث free recall و جست‌و‌جوی حافظه. یک همبستگی و وابستگی مثبت بین کلماتی که طبق آنالیز ما به هم شبیه هستند وجود دارد و احتمال این‌که این کلمات بعد از یک دیگر به زبان آورده شوند زیاد است.



منابع

[ویرایش]
  1. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188. doi:10.1002/aris.1440380105.
  2. Lifchitz, Alain; Jhean-Larose, Sandra; Denhière, Guy (2009-11-01). "Effect of tuned parameters on an LSA multiple choice questions answering model". Behavior Research Methods (به انگلیسی). 41 (4): 1201–1209. doi:10.3758/BRM.41.4.1201. ISSN 1554-3528.
  3. Gálvez, Ramiro H.; Gravano, Agustín (2017-03-01). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science (به انگلیسی). 19: 43–56. doi:10.1016/j.jocs.2017.01.001. ISSN 1877-7503.
  4. Altszyler, Edgar; Ribeiro, Sidarta; Sigman, Mariano; Fernández Slezak, Diego (2017-11-01). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition (به انگلیسی). 56: 178–187. doi:10.1016/j.concog.2017.09.004. ISSN 1053-8100.
  5. Elman, Gerry J. (2007-10-01). "Automated Patent Examination Support—A Proposal". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896. ISSN 0730-031X.

جستارهای وابسته

[ویرایش]

یادگیری تقریبی بیزی

توزیع دیریکله

تخصیص پنهان دیریکله

آنالیز پنهان مفهومی احتمالی