تبدیل دیتاست KDD99 برای استفاده الگوریتم های یادگیری ماشین در متلب

در این پست سورس پیاده سازی و آماده سازی دیتاست KDD99 برای تزریق به الگوریتم های یادگیری ماشین را قرار داده ایم. یکی از مشکلات محققان در زمینه دیتاست ها چگونگی جستجو و تهیه آن است ولی مشکل اصلی پس از پیدا کردن دیتاست، نحوه استفاده و تزریق آن به الگوریتم ها است. بدین صورت که اکثر دیتاست ها یا مجموعه داه ها بصورت خام هستند و برای استفاده از آن ها بایستی پیش پردازش شوند. احتمالا در موارد بسیار زیادی داده ها در دیتاست ها دارای نوع متفاوتی باشند (رشته، عدد) که نحوه تبدیل آنها به فرمت مخصوص الگوریتم ها با ابعا گسترده دیتاست ها کاری طاقت فرسا است. مخصوصا اینکه برای مشاهده نتیجه پس از اجرای کد بایستی چندین ساعت منتظر ماند. در این پست در ادامه به تشریح دیتاست KDD99 پرداخته می شود و محصول آماده که در متلب نوشته شده ارائه می گردد.

 

دیتاست KDD99

دیتاست KDD99 به عنوان يك داده‌ي استاندار براي ارزيابي سيستم هاي تشخيص نفوذ پذيرفته شده و مورد استفاده قرارگرفته است. اين داده اعتبار خود را از سومين مسابقه بين الملي كشف دانش و داده كاوي كسب كرده است. گروه IST از آزمايشگاه MIT Lincoln زير نظر DARPA و AFRL/SNHS ، اولين داده هاي استاندارد براي بررسي و ارزيابي سيستم هاي تشخيص نفوذ را جمع آوري نمودند. اين اطلاعات در طول چند هفته در يك شبيه سازي براي آزمايش سيستم تشخيص نفوذ DARPA به كار رفته اند. اين مجموعه داده ها براساس سال جمع آوري اطلاعات ( 1998 – 1999 ) طبقه بندي شده است. دیتاست KDD99 شامل ركوردهاي اتصال استانداردي مي باشد كه مجموعه اي از حملات و نفوذهاي شبيه سازي شده در يك شبكه نظامي را شامل مي شود.

يك اتصال با پروتكل TCP ،UDP و يا ICMP است كه در زمان هاي مشخص شروع و پايان مي يابد و بين آن زمان ها، داده ها از آدرس IP مبدأ به آدر س IP مقصد و برعكس تحت يك پروتکل تعريف شده جريان دارند. هر اتصال به عنوان نرمال (Normal) يا حمله (Attack) برچسب گذاري مي شود و در مورد حمله، نوع آن دقيقاً مشخص مي گردد.

حملاتي كه در اين مجموعه داده مشاهده مي شوند، در چهار دسته اصلي U2R ،R2L ، DOS و Probe قرار مي گيرند. دیتاست KDD99 در قالب چند فايل سازماندهي گرديده اند. در اين مجموعه از فايل ها، دو فاي  به نام هاي 10_percent و corrected وجود دارند كه در بسيار ي از پژوهش ها از دیتاست 10_percent براي آموزش و آزمايش سيستم هاي طراحي شده به استفاده میگردد.

 

جزئیات دیتاست KDD99

مجموعه داده KDD99 یا همان فایل 10_percent در مخزن داده ای UCI موجود است و می توانید از اینجا دانلود کنید. همانطور که قبلا هم گفته شد حملاتي كه در اين مجموعه داده مشاهده مي شوند، در چهار دسته اصلي U2R ،R2L ، DOS و Probe قرار مي گيرند. اما در خود فایل 10_percent در 23 دسته مختلف قرار دارد از این رو طبق مقالات و رفرنس های متنوع ما نیز این دسته بندی را بصورت زیر در 4 گروه انجام می دهیم. و اعداد جلوی آنها مربوط به تعداد رکوردهای موجود است.

There are total of 23 types of attack, and all of them belong to the four main attack categories (DoS, R2L, U2R, Probing) and normal.
%normal.=normal. =97278
%DoS=back. land. neptune. pod. smurf. teardrop. =391458
%R2L=warezclient. warezmaster. spy. multihop. phf. ftp_write. guess_passwd. imap.=1126
%U2R=rootkit. perl. loadmodule. buffer_overflow.= 52
%Probing=portsweep. satan. ipsweep. nmap.= 4107

بنابراین ما 5 کلاس داریم که یک کلاس مربوط به حالت نرمال و 4 کلاس مربوط به حمله است. تعداد کل داده های 10 درصدی494021 رکورد می باشد. این دیتاست شامل 41 ویژگی یا ستون است و ستون 42 نیز معرف نوع حمله یا نرمال بودن است. در زیر تصویری از این دیتاست مشاهده می شود.

دیتاست KDD99

هر کدام از ستون ها معرف یک خصیصه از یک اتصال است که در فایل دانلودی از سایت UCI قابل مشاهده است.

 

ویدئوی معرفی محصول

درباره محصول

سورس کد آماده تبدیل دیتاست KDD99 خام به دیتاست رقمی در متلب در متلب 2014 نوشته شده است. این کد بصورت کامل توسط گروه پشتیبانی پی استور تست و اجرا شده است محصول دارای نشان تضمین کیفیت پی استور می باشد. برای دانلود محصول آن را خریداری کنید. بمحض خرید محصول لینک دانلود در دسترس خواهد بود.

28,000 تومان

1 دیدگاه برای تبدیل دیتاست KDD99 برای استفاده الگوریتم های یادگیری ماشین در متلب

  1. امتیاز 5 از 5

    programstore

    نظرات و دیدگاه های خود را با ما درمیان بگذارید.

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

اطلاعات فروشنده