استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information

در این پست آموزش استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information یا MI قرار داده شده است. برای انتخاب یا استخراج ویژگی یا همان Feature از متن می توان از روش های مختلفی استفاده کرد. روش اطلاعات متقابل بین دو متغیر معیاری برای نشان دادن میزان وابستگی متقابل آن دو متغیر می‌باشد. مفهوم اطلاعات متقابل ذاتاً مرتبط با آنتروپی یک متغیر که میزان اطلاعات موجود در یک متغیر دیگر را نشان می‌دهد، می‌باشد.

این روش جزو روش های فیلتری یا آماری در دسته بندی محسوب می شود. در این آموزش قصد داریم نحوه فیلترینگ یا بدست آوردن ویژگی های مهم و موثر از بین کل ویژگی های استخراج شده از یک متن را به کمک روش Mutual Information یا MI توضیح دهیم. یکی از مشکلات اکثر محققین در نحوه استفاده از این روش بر روی دیتاست یا مجموعه داه ها می باشد که در این آموزش بصورت کامل همراه با مثال روش اطلاعات متقابل بر روی یک دیتاست اعمال خواهد شد.

مقدمه

با پیشرفت علم حجم اسناد متنی موجود بر روی رسانه‌های دیجیتال و اینترنت، افزایش یافته است و این موضوع ضرورت استفاده از سیستم‌های خودکار تشخیص و دسته‌بندی متن را بیشتر پررنگ می‌کند. روش‌های دسته‌بندی متن جزو روش‌های یادگیری ماشین هستند و استخراج و انتخاب ویژگی مرحله‌ی بسیار مهم در رویه‌ی دسته‌بندی متون به شمار می‌رود، زیرا در این مرحله واژه‌های کلیدی انتخاب می‌شوند تا به‌عنوان بهترین نمایش‌دهنده برای سند متنی مورد استفاده قرار بگیرند. هدف روش‌های انتخاب ویژگی به دست آوردن یک مجموعه‌ی کوچک‌تر از ویژگی‌های موجود در سند می‌باشند که به طرز مؤثری محتوای سند را بیان می‌کند.

الگوریتم‌های مختلفی برای دسته‌بندی متون وجود دارد. مشکلی که در دسته‌بندی متن وجود دارد، حجم زیاد ویژگی‌ها است که باعث کاهش دقت نتایج دسته‌بندی می‌شود. برای انتخاب و برای حل این مشکل و کاهش ابعاد ویژگی‌ها از متدهای انتخاب ویژگی استفاده می‌کنند.

استخراج ویژگی از متن – پیش پردازش

اولین مرحله در دسته‌بندی متن تبدیل اسناد به صورت رشته‌ای از کاراکترها با فرمت‌های مختلف می‌باشد که برای روش‌های یادگیری و طبقه‌بندی نمایش داده می‌شود. همواره بهتر است در بازیابی اطلاعات ریشه کلمه را پیدا کرده تا بتوان آن کلمه را به صورت واحد در اسناد به کار برد و این کلمه‌ی واحد، منجر به نمایش مقدار ویژگی در متن می‌شود. شکل ‏زیر فرآیند دسته‌بندی متن را نمایش می‌دهد.

استخراج ویژگی با روش اطلاعات متقابل

توکن‌بندی

مطابق با شکل فوق در ابتدا بعد از این‌که اسناد خوانده شدند این فر‌آیند انجام می‌گیرد. این فرآیند به این صورت است که جریان متن به کلمه‌ها، عبارات، نشانه‌ها یا عناصر معنی‌دار شکسته می‌شود که به هر کدام از آن‌ها توکن گفته شده و به این فرآیند توکن‌بندی Tokenization می‌گویند.

ریشه‌یابی

در مرحله‌ ریشه‌یابی،‌ ریشه کلمه‌ها به فرم اصلی در می‌آید و هر گونه پیشوند و پسوندی از ابتدا و انتهای آن حذف می‌شود.

حذف کلمات ایست یا توقف

کلمات ایست به کلمه‌هایی گفته می‌شود که حاوی هیچ‌گونه معنی مفیدی نیستند مانند حروف ربط و حروف اضافه. لیست کلمات توقف برای اکثر زبان ها باید استخراج شود که با استفاده از این لیست می‌توان دید که اگر این کلمه‌ها در داخل اسناد متنی وجود داشته باشد از اسناد حذف می‌شود و اگر کلمه در لیست نبود حذف نمی‌شود و با این کار از تعداد ویژگی‌ها کم می‌شود. نمونه‌ای از کلمات ایست می‌توان به کلمه‌های و، در، به، که، از، این، را، است، با، برای و غیره اشاره کرد. عبارات تاکید یا نشانه‌گذاری هم شامل – _ # ) ( * } { ! . … / : ] [ , : ? “ ” می‌باشد.

نمایش متون

برای نمایش متون می‌توان از روش فضای برداری استفاده نمود. با این نمایش می‌توان ویژگی‌ها را از داخل اسناد استخراج کرد.

در مدل فضای برداری، سندها به وسیله برداری از کلمه‌ها نمایش داده می‌شوند و مجموعه سندها به وسیله ماتریس کلمه در سند A، نمایش داده می‌شوند. همان‌طور که در جدول زیر نشان داده شده است مجموعه {F1,…,Fn} بیانگر فضای کلمه‌ها است و کلمه‌ای را نشان می‌دهد که حداقل یکبار در سند به کار رفته است. همچنین مجموعه {D1,…,Dn} مجموعه اسنادی را نشان می‌دهد که به کمک روش نمایش برداری نمایش داده شده‌اند. هر عضو این ماتریس، وجود کلمه در یک سند را نشان می‌دهد. به طور کلی ماتریس A به شکل (A=(ajk نشان داده می‌شود که در آن ajk نشان‌دهنده‌ی وزن کلمه‌ی j ام در سند k ام است. تعداد سطرها در ماتریس یعنیm نشان‌دهنده‌‌ی تعداد کلمه‌ها در مجموعه کلمه‌ها است که m معمولا بسیار بزرگ است و یکی از مشکلات دسته‌بندی است.

انتخاب خصیصه یا ویژگی

انتخاب ویژگی یا خصیصه یک مرحله‌ی بسیار مهم در رویه‌ی دسته‌بندی به شمار می‌رود، زیرا در این مرحله واژه‌های کلیدی انتخاب می‌شوند تا به عنوان بهترین نمایش‌دهنده برای سند متنی مورد استفاده قرار بگیرند. اگر تعداد واژه‌های کلیدی انتخاب شده کم باشد صحت و کارایی سیستم تحت تاثیر قرار می‌گیرد و کاهش می‌یابد و در مقابل اگر تعداد واژه‌های کلیدی انتخاب شده زیاد باشد باعث کاهش کارایی سیستم در بعد زمان خواهد شد و سرعت آموزش در فاز آموزش پایین می‌آید.

روش‌های انتخاب ویژگی

روش‌های انتخاب ویژگی به دو دسته‌ی

  • روش‌های فیلتری یا پالایشی یا آماری Filtering method
  • روش‌های روکشی یا پوششی Wrapper methods

این روش‌ها ساده‌ترین روش انتخاب ویژگی‌ها می‌باشند و اساس آن بر پایه‌ی نگه داشتن ویژگی‌هایی می‌باشد که بیشترین امتیاز را از تابعی که اهمیت نسبی یک واژه را می‌سنجد دریافت می‌کند. هر سند Di شامل تمام کلمه‌ها، فاصله‌ها، علایم و برچسب‌هایی هست که در آن سند موجود می‌باشد.

  • روش فرکانس سند DF) Document Frequency)
  • روش وزن‌دهی منطقی
  • روش فرکانس کلمه TF)Term Frequency)
  • روش فرکانس معکوس سند IDF) Inverse Document Frequency)
  • روش فرکانس کلمه-فرکانس معکوس سند TF-IDF
  • روش بهره اطلاعاتی  (Information Gain (IG
  • روش اطلاعات متقابل (Mutual Information (MI
  • روش(CHI)  یا statistic x2
  • روش ضریب همبستگی Correlation Coefficient
  • روش SCHI

پیش نمایش 1

 


مشخصات فیلم آموزشی

نام اثر : استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information

مدرس : مهندس امین جلیل زاده

مدت زمان : 35 دقیقه

زبان آموزش : فارسی

حجم فایل : 1 فایل با فرمت rar با حجم (63 مگابایت)

فرمت ویدئو : MP4 با کیفیت بالا


پس از خرید این مجموعه آموزشی پاورپوینت + فیلم آموزشی  در اختیار شما قرار خواهد گرفت.

درباره محصول

آموزش استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information عنوان محصولی است که در این پست به آن پرداخته شده است. در این آموزش به توضیح و تشریح کامل روش اطلاعات متقابل Mutual Information پرداخته شده و بصورت کامل توسط گروه پشتیبانی پی استور تست و بازبینی شده است. محصول دارای نشان تضمین کیفیت پی استور می باشد. برای دانلود محصول آن را خریداری کنید.

1 دیدگاه برای استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information

  1. programstore

    نظرات و پیشنهادات خود را با ما در میان بگذارید.

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

اطلاعات فروشنده