
در این پست آموزش استخراج ویژگی با روش اطلاعات متقابل Mutual Information یا MI قرار داده شده است. برای انتخاب یا استخراج ویژگی یا همان Feature از متن می توان از روش های مختلفی استفاده کرد. روش اطلاعات متقابل بین دو متغیر معیاری برای نشان دادن میزان وابستگی متقابل آن دو متغیر میباشد. مفهوم اطلاعات متقابل ذاتاً مرتبط با آنتروپی یک متغیر که میزان اطلاعات موجود در یک متغیر دیگر را نشان میدهد، میباشد.
مدرس: امین جلیل زاده رزین
کارشناس ارشد رشته مهندسی کامپیوتر — نرم افزار
امین جلیل زاده رزین از بنیانگذاران مجموعه آموزشی پی استور و مدرس دانشگاه فنی و حرفه ای هستند. ایشان علاوه بر پژوهش در حوزه های الگوریتم های ابتکاری، فرا ابتکاری، یادگیری ماشین، شبکه و پایگاه داده در زبان های برنامه نویسی متعدد، نظیر ++C، سی شارپ، PHP ،Java، متلب MATLAB و Python تسلط و سابقه تدریس فعال دارند.
این روش جزو روش های فیلتری یا آماری در دسته بندی محسوب می شود. در این آموزش قصد داریم نحوه فیلترینگ یا بدست آوردن ویژگی های مهم و موثر از بین کل ویژگی های استخراج شده از یک متن را به کمک روش Mutual Information یا MI توضیح دهیم. یکی از مشکلات اکثر محققین در نحوه استفاده از این روش بر روی دیتاست یا مجموعه داه ها می باشد که در این آموزش بصورت کامل همراه با مثال روش اطلاعات متقابل بر روی یک دیتاست اعمال خواهد شد.
مقدمه
با پیشرفت علم حجم اسناد متنی موجود بر روی رسانههای دیجیتال و اینترنت، افزایش یافته است و این موضوع ضرورت استفاده از سیستمهای خودکار تشخیص و دستهبندی متن را بیشتر پررنگ میکند. روشهای دستهبندی متن جزو روشهای یادگیری ماشین هستند و استخراج و انتخاب ویژگی مرحلهی بسیار مهم در رویهی دستهبندی متون به شمار میرود، زیرا در این مرحله واژههای کلیدی انتخاب میشوند تا بهعنوان بهترین نمایشدهنده برای سند متنی مورد استفاده قرار بگیرند.
هدف روشهای انتخاب ویژگی به دست آوردن یک مجموعهی کوچکتر از ویژگیهای موجود در سند میباشند که به طرز مؤثری محتوای سند را بیان میکند.
الگوریتمهای مختلفی برای دستهبندی متون وجود دارد. مشکلی که در دستهبندی متن وجود دارد، حجم زیاد ویژگیها است که باعث کاهش دقت نتایج دستهبندی میشود. برای انتخاب و برای حل این مشکل و کاهش ابعاد ویژگیها از متدهای انتخاب ویژگی استفاده میکنند.
استخراج ویژگی از متن – پیش پردازش
اولین مرحله در دستهبندی متن تبدیل اسناد به صورت رشتهای از کاراکترها با فرمتهای مختلف میباشد که برای روشهای یادگیری و طبقهبندی نمایش داده میشود. همواره بهتر است در بازیابی اطلاعات ریشه کلمه را پیدا کرده تا بتوان آن کلمه را به صورت واحد در اسناد به کار برد و این کلمهی واحد، منجر به نمایش مقدار ویژگی در متن میشود. شکل زیر فرآیند دستهبندی متن را نمایش میدهد.
توکنبندی
مطابق با شکل فوق در ابتدا بعد از اینکه اسناد خوانده شدند این فرآیند انجام میگیرد. این فرآیند به این صورت است که جریان متن به کلمهها، عبارات، نشانهها یا عناصر معنیدار شکسته میشود که به هر کدام از آنها توکن گفته شده و به این فرآیند توکنبندی Tokenization میگویند.
ریشهیابی
در مرحله ریشهیابی، ریشه کلمهها به فرم اصلی در میآید و هر گونه پیشوند و پسوندی از ابتدا و انتهای آن حذف میشود.
حذف کلمات ایست یا توقف
کلمات ایست به کلمههایی گفته میشود که حاوی هیچگونه معنی مفیدی نیستند مانند حروف ربط و حروف اضافه. لیست کلمات توقف برای اکثر زبان ها باید استخراج شود که با استفاده از این لیست میتوان دید که اگر این کلمهها در داخل اسناد متنی وجود داشته باشد از اسناد حذف میشود و اگر کلمه در لیست نبود حذف نمیشود و با این کار از تعداد ویژگیها کم میشود. نمونهای از کلمات ایست میتوان به کلمههای و، در، به، که، از، این، را، است، با، برای و غیره اشاره کرد. عبارات تاکید یا نشانهگذاری هم شامل – _ # ) ( * } { ! . … / : ] [ , : ? “ ” میباشد.
نمایش متون
برای نمایش متون میتوان از روش فضای برداری استفاده نمود. با این نمایش میتوان ویژگیها را از داخل اسناد استخراج کرد.
در مدل فضای برداری، سندها به وسیله برداری از کلمهها نمایش داده میشوند و مجموعه سندها به وسیله ماتریس کلمه در سند A، نمایش داده میشوند. همانطور که در جدول زیر نشان داده شده است مجموعه {F1,…,Fn} بیانگر فضای کلمهها است و کلمهای را نشان میدهد که حداقل یکبار در سند به کار رفته است. همچنین مجموعه {D1,…,Dn} مجموعه اسنادی را نشان میدهد که به کمک روش نمایش برداری نمایش داده شدهاند.
هر عضو این ماتریس، وجود کلمه در یک سند را نشان میدهد. به طور کلی ماتریس A به شکل (A=(ajk نشان داده میشود که در آن ajk نشاندهندهی وزن کلمهی j ام در سند k ام است. تعداد سطرها در ماتریس یعنیm نشاندهندهی تعداد کلمهها در مجموعه کلمهها است که m معمولا بسیار بزرگ است و یکی از مشکلات دستهبندی است.
انتخاب خصیصه یا ویژگی
انتخاب ویژگی یا خصیصه یک مرحلهی بسیار مهم در رویهی دستهبندی به شمار میرود، زیرا در این مرحله واژههای کلیدی انتخاب میشوند تا به عنوان بهترین نمایشدهنده برای سند متنی مورد استفاده قرار بگیرند. اگر تعداد واژههای کلیدی انتخاب شده کم باشد صحت و کارایی سیستم تحت تاثیر قرار میگیرد و کاهش مییابد و در مقابل اگر تعداد واژههای کلیدی انتخاب شده زیاد باشد باعث کاهش کارایی سیستم در بعد زمان خواهد شد و سرعت آموزش در فاز آموزش پایین میآید.
روشهای انتخاب ویژگی
روشهای انتخاب ویژگی به دو دستهی
- روشهای فیلتری یا پالایشی یا آماری Filtering method
- روشهای روکشی یا پوششی Wrapper methods
این روشها سادهترین روش انتخاب ویژگیها میباشند و اساس آن بر پایهی نگه داشتن ویژگیهایی میباشد که بیشترین امتیاز را از تابعی که اهمیت نسبی یک واژه را میسنجد دریافت میکند. هر سند Di شامل تمام کلمهها، فاصلهها، علایم و برچسبهایی هست که در آن سند موجود میباشد.
- روش فرکانس سند DF) Document Frequency)
- روش وزندهی منطقی
- روش فرکانس کلمه TF)Term Frequency)
- روش فرکانس معکوس سند IDF) Inverse Document Frequency)
- روش فرکانس کلمه-فرکانس معکوس سند TF-IDF
- روش بهره اطلاعاتی (Information Gain (IG
- روش اطلاعات متقابل (Mutual Information (MI
- روش(CHI) یا statistic x2
- روش ضریب همبستگی Correlation Coefficient
- روش SCHI
پیش نمایش 1
توجه: ممکن است که به خاطر سرعت پایین اینترنت، نمایش آنلاین با کیفیت پایین تر از کیفیت ویدئوی اصلی نمایش داده شوند. این ویدئو یک نسخه 17 دقیقه ای از آموزش می باشد.
مشخصات فیلم آموزشی
نام اثر: | استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information |
---|---|
مدرس: | مهندس امین جلیل زاده |
مدت زمان: | 35 دقیقه |
زبان آموزش: | فارسی |
نوع آموزش: | تئوری |
حجم فایل: | 1 فایل با فرمت rar با حجم (63 مگابایت) |
فرمت ویدئو: | MP4 با کیفیت متوسط |
پس از خرید این مجموعه آموزشی پاورپوینت + فیلم آموزشی در اختیار شما قرار خواهد گرفت.
درباره استخراج ویژگی از متن
آموزش استخراج ویژگی از متن با روش اطلاعات متقابل Mutual Information عنوان محصولی است که در این پست به آن پرداخته شده است. در این آموزش به توضیح و تشریح کامل روش اطلاعات متقابل Mutual Information پرداخته شده و بصورت کامل توسط گروه پشتیبانی پی استور تست و بازبینی شده است. محصول دارای نشان تضمین کیفیت پی استور می باشد. برای دانلود محصول آن را خریداری کنید.
مباحث مرتبط با دسته بندی متن
تاریخ انتشار: | 21 مهر 1398 |
---|---|
تاریخ بروزرسانی: | 23 بهمن 1398 |
حجم فایل: | 63 مگابایت |
فرمت فایل | MP4 |
نسخه: | 1.0 |
شناسه اثر: | ندارد |
تاکنون 305 نفر این محصول را تهیه کرده اند و 2 نظر برای آن ثبت شده است.
نظرات و دیدگاه ها
قوانین ثبت دیدگاه
- لطفاً دیدگاه های خود را فارسی تایپ کنید.
- دیدگاه های نامرتبط به مطلب تایید نخواهد شد.
- از درج دیدگاه های تکراری پرهیز نمایید.
- سوالات تخصصی خودتان را از طریق تیکت پشتیبانی مطرح کنید.
قیمت 39,000 تومان
تاریخ انتشار: | 21 مهر 1398 |
---|---|
تاریخ بروزرسانی: | 23 بهمن 1398 |
حجم فایل: | 63 مگابایت |
فرمت فایل | MP4 |
نسخه: | 1.0 |
شناسه اثر: | ندارد |
2 بازخورد (مشاهده نظرات)
قیمت: 39,000 تومان
عارف
انتخاب ویژگی به روش iG رو هم لطفا بزارید
مدیریت و پشتیبانی
نظرات و پیشنهادات خود را با ما در میان بگذارید.