بررسی اثر سه کلاسه کردن دسته‌بندی بر روی دقت تشخیص اسپم در ایمیل‌ های فارسی

تشخیص اسپم در ایمیل‌ های فارسی عنوان داکیومنتی است که در این پست به آن پرداخته شده است. در یک دهه گذشته، با گسترش سریع اینترنت ایمیل‌ها یکی از سریع‌ترین و مقرون به صرفه‌ترین و راحت‌ترین راه‌های ارتباطی شده‌اند. امروزه ایمیل‌ها در اینترنت به صورت نمایی در حال افزایش می‌باشند، اما متاسفانه کارایی و ماهیت اقتصادی ایمیل‌ها مورد سوء‌استفاده قرار گرفته است.

در دنیای واقعی ایمیل‌ها به دو دسته ایمیل‌های قانونی و ایمیل‌های اسپم یا ناخواسته تقسیم می‌شوند. ایمیل‌های قانونی در بیشتر موارد دارای محتوای مفید و کاربردی می‌باشد و برای کاربر مفید می‌باشد، اما ایمیل‌های اسپم در اکثر موارد دارای محتوای غیرمفید و اغلب زاید می‌باشند.  تشخیص اسپم در ایمیل‌ را می توان با استفاده از الگوریتم های یادگیری ماشین انجام داد. برای این کار ابتدا لیستی از ایمیل های قانونی و اسپم تهیه می شود سپس با آموزش از طریق الگوریتم های یادگیری می توان به تست و تجزیه تحلیل اسپم یا قانونی بودن ایمیل پرداخت.

در این پست داکیومنت تشخیص اسپم در ایمیل‌ های فارسی در 135 صفحه در قالب Word گذاشته شده است. این محصول با بهترین کیفیت مناسب برای داکیومنت نویسی، سمینار، تحقیق کلاسی است. در ادامه چکیده و فهرست مطالب این اثر آمده است.

 

چکیده

امروزه بیشتر ارتباطات مردم از طریق نامه‌های الکترونیکی یا همان ایمیل‌ها می‌باشد. عموما همه‌ی افراد ایمیل‌ها را به دو دسته یا کلاس ایمیل‌های اسپم و ایمیل‌های قانونی دسته‌بندی می‌کنند. کلاس اسپم به کلاسی گفته می‌شود که معمولا دارای محتوای غیرمفید و شاید مضر می‌باشد و کلاس ایمیل‌های قانونی کلاسی است که در اغلب موارد دارای محتوای مفید برای کاربر بوده است.

در این پژوهش می‌خواهیم ایمیل‌های فارسی را به جای دسته‌بندی به دو کلاس اسپم و غیر اسپم به سه کلاس اسپم، غیراسپم و میانی تقسیم و دقت دسته‌بندی را بررسی کنیم. کلاس سوم را با نام کلاس میانی عنوان‌گذاری کرده و در تعریف این کلاس می‌گوییم، در این دسته وقتی کاربر ایمیل را در صندوق ورودی خود دریافت می‌کند نمی‌تواند در نگاه اول دسته‌ی این نوع ایمیل را تشخیص داده چون آن ایمیل از از نظر برخی اسپم واز نظر برخی دیگر غیراسپم می‌باشد. برای انجام این‌کار مجموعه‌داده‌ای از ایمیل‌ها را به‌صورت سه کلاسه جمع‌آوری کردیم و با توجه به این‌که در اکثر موارد بدنه و عنوان ایمیل به صورت متن می‌باشد، بنابراین از روش‌های دسته‌بندی متون مانند الگوریتم نیوبیزین، ماشین بردار پشتیبان و k همسایه نزدیک استفاده شد.

برای بررسی اثر سه‌کلاسه کردن ایمیل‌های فارسی از معیارهای دقت، فراخوانی و F‌استفاده کردیم. برای حالت سه کلاسه نتایج به دست آمده برای روش نیوبیزین 275/86٪، 22/86٪ و 875/83٪ (به ترتیب برای دقت، فراخوانی و F) و برای ماشین بردار پشتیبان25/85٪، 175/85٪ و 175/81٪ و برای وK همسایه نزدیک925/84٪، 075/85٪ و 875/80٪ بود. برای حالت دو کلاسه نیز نتایج به دست آمده برای روش نیوبیزین 425/93٪، 825/92٪ و 775/92٪ (به ترتیب برای دقت، فراخوانی و F) و برای ماشین بردار پشتیبان 3/83٪، 925/84٪ و 8/84٪ و برای وK همسایه نزدیک575/89٪، 875/86٪ و 575/86٪ بود.

 

فهرست مطالب

فصل اول مقدمه و کلیات پژوهش

1-1 مقدمه

1-2 شرح مسئله

1-3 ضرورت انجام تحقیق

1-4 اهداف تحقیق

1-5 روش تحقیق

1-6 نوآوری های تحقیق

1-7 ساختار پایاننامه

فصل دوم انواع روش‌های دسته‌بندی متن

2-1 مقدمه

2-2 تعاریف پایه

2-3 ساختار ایمیل

2-4 تعریف اسپم

2-5 مشخصات اسپم

2-6 نمونه‌هایی از ایمیل‌های اسپم انگلیسی

2-7 دسته بندی

2-7-1‌ مرحله پیش پردازش

2-7-2 توکن بندی

2-7-3 حذف جمعهای فارسی

2-7-4 حذف پسوند ها و پیشوند ها

2-7-5 ریشه یابی

2-7-6 حذف کلمات ایست یا توقف یا زاید یا کلمات سراسری یا کلمات بی ارزش

2-7-7 نمایش متون

2-7-8 انتخاب خصیصه یا ویژگی

2-8 همبستگی بین خصیصه ها و دسته ها

2-9 روش های انتخاب ویژگی یا خصیصه

2-9-1 روش های فیلتری یا آماری

2-9-2 روش های روکشی

2-10 الگوریتم های دسته بندی متن

2-10-1 روش نیوبیزین

2-10-2 روش ماشین بردار پشتیبان

2-10-3 روش kهمسایه‌ی نزدیک

2-10-4 روش شبکه های عصبی

2-10-5 روش درخت تصمیم

2-11 معیارهای ارزیابی

2-12 نرم افزار وکا

2-13 جمع بندی فصل

فصل سوم سه کلاسه کردن ایمیل‌های فارسی

3-1 مقدمه

3-2 سه تعریف مهم برای روش پیشنهادی

3-3 نمونه ای از هر کدام از ایمیل‌ها قبل از برچسب‌گذاری

3-4 تشکیل مجموعه داده ی ایمیل آموزشی و ایمیل تستی

3-5 روش پیشنهادی

3-6 جمع بندی فصل

فصل چهارم آزمایش‌ها و نتایج

4-1 مقدمه

4-2 جمع‌آوری مجموعه داده

4-3 تعیین تعداد ایمیل و تعداد ویژگی ها

4-3-1 آزمایش برای تعیین تعداد ایمیل و خصیصه بر اساس معیار دقت

4-3-2 تعیین بهترین تعداد ایمیل و تعداد ویژگی برای معیار دقت برای سه کلاسه کردن

4-3-3 آزمایش برای تعیین تعداد ایمیل‌ها و تعداد خصیصه‌های مناسب بر اساس معیار فراخوانی

4-3-4 تعیین تعداد ایمیل‌ها و تعداد خصیصه‌های مناسب بر اساس معیار ارزیابی

4-4 تعیین بهترین تعداد ایمیل و خصیصه برای سه کلاسه کردن ایمیلهای فارسی

4-5 تعیین معیارTP و FP برای حالت سه کلاسه در ایمیلهای فارسی

4-5-1 بهترین روش برای سه کلاسه کردن ایمیل های فارسی بر اساس معیار دقت، معیار فراخوانی

4-6 جمع بندی فصل

فصل پنجم نتیجه‌گیری و کارهای آتی

5-1 نتیجه گیری

5-2 کارهای آتی

مراجع و منابع

پیوست‌ها

پیوست یک (پ1 ): لیست کلمات توقف فارسی

پیوست 2 (پ 2): جدول‌ها

پیوست 3 لیست واژگان

محصول

این محصول داکیومنت بررسی اثر سه کلاسه کردن دسته‌بندی بر روی دقت تشخیص اسپم در ایمیل‌ های فارسی که به صورت ساده و روان در 135 صفحه در قالب ورد بصورت نگارش آکادمیک کامل فارسی منتشر شده است. این داکیومنت توسط کارشناسان پی استور بررسی و تایید شده است. محصول دارای نشان تضمین کیفیت پی استور می باشد. برای دانلود محصول آن را خریداری کنید.

 

1 دیدگاه برای بررسی اثر سه کلاسه کردن دسته‌بندی بر روی دقت تشخیص اسپم در ایمیل‌ های فارسی

  1. programstore

    نظرات و دیدگاه های خود را با ما درمیان بگذارید.

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.