تشخیص اسپم

تعریف اسپم

اگرچه یک تعریف جهانی از اسپم وجود ندارد اما می توان چندین اصطلاح را برای Spam نام‌گذاری کنیم که از آن جمله می‌توان به هرزنامه، ایمیل ناخواسته , ایمیل فله‌ای , یا ایمیل ناخواسته تجاری اشاره کرد، اما رایج‌ترین کلمه مورد استفاده “Spam” می‌باشد پس می‌توان گفت اگر در اینترنت ارسال‌های بی‌جا و نامناسب که دارای محتوای مفیدی برای کاربر نمی‌باشند در مقیاس بزرگی رخ دهند ارسال این ایمیل‌ها به صورت اسپم می‌باشد. البته TREC هم تعریف مشابهی را به این صورت برای اسپم درنظر گرفته است که” Spam یک نامه‌ی ناخواسته می‌باشد که به طور نامشخص، به طور مستقیم یا غیر مستقیم توسط فردی که نسبتی با گیرنده نامه ندارد فرستاده می‌شود.

اسپم

مشخصات اسپم

در حالت کلی می‌توان گفت اگر ایمیلی دارای ویژگی‌های زیر باشد ایمیل را به عنوان ایمیل Spam دسته‌بندی خواهیم کرد که این ویژگی‌ها به صورت زیر می‌باشد.

  • ایمیل‌ به صورت ناخواسته ‌باشد یعنی گیرنده علاقه‌ای به دریافت چنین اطلاعاتی ندارد.
  • فرستنده‌ی ایمیل ناشناس است یعنی گیرنده‌ی نامه، فرستنده را نمی‌شناسد و هیچ ارتباطی با فرستنده ندارد.
  • بالا بودن حجم ایمیل ارسالی یعنی ایمیل به تعداد زیادی به ایمیل آدرس‌های کاربران اینترنت ارسال می‌شود.

نمونه‌هایی از ایمیل‌های اسپم انگلیسی

نمونه‌هایی از محتوای ایمیل‌های اسپم انگلیسی را در زیر نشان می‌دهیم:

  • “ You have won!!!!“, you are almost winner of $…
  • “Your order”, your item$ have to be $hipped
  • “Lose your weight”, no subscription required
  • “Assistance required”, an amount of million 25 US$
  • “Download it”, free celebrity wallpapers download

یک مورد دیگر هم از پدیده اسپم phishing می‌باشد که به منظور دریافت اطلاعات حساس و محرمانه از کاربران به کار می‌رود (به طور مثال پسورد و شماره کارت بانک). Phishing با جعل درخواست مراجع ذی‌صلاح مانند بانک‌ها و یا فراهم‌آورندگان سرویس انجام می‌شود و به طور جعلی از کاربران درخواست می‌شود که اطلاعات محرمانه خود را در اختیار آن‌ها بگذارند، و در این‌ حالت درخواستی که از کاربر انجام می‌شود جعلی است.

روش تشخیص اسپم

تا این‌جا درباره‌ی تعریف و مشخصات ایمیل Spam بحث کردیم. با توجه به این‌که چون بدنه‌ی ایمیل‌ها به‌صورت متن می‌باشد پس ما می‌توانیم از روش‌های دسته‌بندی متن برای دسته‌بندی ایمیل استفاده کنیم. برای این کار ابتدا باید تعدادی از ایمیل‌ها را به عنوان داده‌های مجموعه‌ی آموزشی و تعدادی را به عنوان مجموعه‌ی ایمیل تستی در نظر بگیریم و بعد از یادگیری ایمیل‌های آموزشی هر ایمیل جدید یا ایمیل تستی را می‌توانیم به دسته‌ی مربوطه‌اش منتقل کنیم. این کار معمولاً با الگوریتم های یادگیری ماشین انجام می شود.

 

محصولات مرتبط

مطالب زیر را حتما بخوانید

دیدگاه ها

  1. programstore گفت:

    نظرات و دیدگاه های خود را برای هرچه بهتر قرار دادن مطالب با ما در میان بگذارید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.