تخفیف نوروزی پی استور
هزینه سفارش:
۱۹۹,۰۰۰ تومان
یکی از مباحث مهم در پیاده سازیهای سیستمهای تشخیص نفوذ، استفاده از دیتاستهای مناسب است. در این میان دیتاست KDD99 یا همان KDDCUP99 یک دیتاست کامل و کاربردی است که برای الگوریتم های یادگیری ماشین استفاده میشود. از مشکلات اصلی پس از پیدا کردن یک دیتاست مناسب، نحوه استفاده و تزریق آن به الگوریتمها است. بدین صورت که اکثر دیتاستها یا مجموعه دادهها بصورت خام هستند و برای استفاده از آنها بایستی پیش پردازش شوند.
احتمالا در موارد بسیار زیادی دادهها در دیتاستها دارای نوع متفاوتی باشند (رشته، عدد) که نحوه تبدیل آنها به فرمت مخصوص الگوریتمها با ابعا گسترده دیتاستها کاری طاقت فرسا است. مخصوصا اینکه برای مشاهده نتیجه پس از اجرای کد بایستی چندین ساعت منتظر ماند. در این پست در ادامه به تشریح دیتاست KDD99 پرداخته میشود و اثر آماده که در متلب نوشته شده ارائه میگردد.
دیتاست KDD99 به عنوان یک دادهی استاندارد برای ارزیابی سیستمهای تشخیص نفوذ پذیرفته شده و مورد استفاده قرار گرفته است. این داده اعتبار خود را از سومین مسابقه بین الملی کشف دانش و داده کاوی کسب کرده است. گروه IST از آزمایشگاه MIT Lincoln زیر نظر DARPA و AFRL/SNHS ، اولین دادههای استاندارد برای بررسی و ارزیابی سیستمهای تشخیص نفوذ را جمع آوری نمودند.
این اطلاعات در طول چند هفته در یک شبیه سازی برای آزمایش سیستم تشخیص نفوذ DARPA به کار رفتهاند. این مجموعه دادهها براساس سال جمع آوری اطلاعات ( ۱۹۹۸ – ۱۹۹۹ ) طبقه بندی شده است. دیتاست KDD99 شامل رکوردهای اتصال استانداردی میباشد که مجموعهای از حملات و نفوذهای شبیه سازی شده در یک شبکه نظامی را شامل میشود.
یک اتصال با پروتکل TCP ،UDP و یا ICMP است که در زمانهای مشخص شروع و پایان مییابد و بین آن زمانها، دادهها از آدرس IP مبدأ به آدرس IP مقصد و برعکس تحت یک پروتکل تعریف شده جریان دارند. هر اتصال به عنوان نرمال (Normal) یا حمله (Attack) برچسب گذاری میشود و درمورد حمله، نوع آن دقیقاً مشخص میگردد.
حملاتی که در این مجموعه داده مشاهده میشوند، در چهار دسته اصلی U2R ،R2L ، DOS و Probe قرار میگیرند. دیتاست KDD99 در قالب چند فایل سازماندهی گردیدهاند. در این مجموعه از فایلها، دو فایل به نامهای 10_percent و corrected وجود دارند که در بسیاری از پژوهشها از دیتاست 10_percent برای آموزش و آزمایش سیستمهای طراحی شده به استفاده میگردد.
همانطور که قبلا هم گفته شد حملاتی که در این مجموعه داده مشاهده میشوند، در چهار دسته اصلی U2R ،R2L ، DOS و Probe قرار میگیرند. اما در خود فایل 10_percent در ۲۳ دسته مختلف قرار دارد از این رو طبق مقالات و رفرنسهای متنوع ما نیز این دسته بندی را بصورت زیر در ۴ گروه انجام میدهیم و اعداد جلوی آنها مربوط به تعداد رکوردهای موجود است.
There are total of 23 types of attack, and all of them belong to the four main attack categories (DoS, R2L, U2R, Probing) and normal.
%normal.=normal. =97278
%DoS=back. land. neptune. pod. smurf. teardrop. =391458
%R2L=warezclient. warezmaster. spy. multihop. phf. ftp_write. guess_passwd. imap.=1126
%U2R=rootkit. perl. loadmodule. buffer_overflow.= 52
%Probing=portsweep. satan. ipsweep. nmap.= 4107
بنابراین ما ۵ کلاس داریم که یک کلاس مربوط به حالت نرمال و ۴ کلاس مربوط به حمله است. تعداد کل دادههای ۱۰ درصدی۴۹۴۰۲۱ رکورد میباشد. این دیتاست شامل ۴۱ ویژگی یا ستون است و ستون ۴۲ نیز معرف نوع حمله یا نرمال بودن است. در زیر تصویری از این دیتاست مشاهده میشود.
هر کدام از ستونها معرف یک خصیصه از یک اتصال است که در فایل دانلودی از سایت UCI قابل مشاهده است.
تیم برنامه نویسی پی استور یکی از اولین گروههای تشکیل شده در مجموعه آموزشی پی استور میباشد. این تیم از اساتید مجرب و فارغ التحصیلان رشتههای فنی و مهندسی تشکیل شده که در زمینههای مختلف برنامهنویسی و تهیه سورس کد فعال هستند.
نام اثر: | تبدیل دیتاست KDD99 برای استفاده الگوریتم های یادگیری ماشین در متلب |
نوع اثر: | سورس کد |
برنامهنویس: | تیم برنامهنویسی پیاستور |
زبان برنامه نویسی: | متلب Matlab |
ویژگی: | قابلیت دانلود و ویرایش |
توجه: کیفیت این محصول توسط پی استور تضمین شده و در صورت عدم رضایت از محصول، به انتخاب شما:
هزینه سفارش:
۱۹۹,۰۰۰ تومان
نظرات
علی فاخری
خیلی خوب و تمیز بود. با اینکه خودم بارها می خواستم این دیتاست رو برای الگوریتم ترکیبی خودم اعمال کنم ولی موفق نشده بودم. این دیتاست پردازش شده کارم رو خیلی آسون کرد.
مدیریت و پشتیبانی
نظرات و دیدگاه های خود را با ما درمیان بگذارید.