دسته بندی OneR

دسته بندی OneR

دسته بندی OneR یکی از روش های دسته بندی یا classification در زیر شاخه گروه جدول فراوانی Frequency Table در بحث پیش بینی آینده predicting the future در علوم داده یا داده کاوی است. در ادامه به توضیح و تشریح این الگوریتم همراه با یک مثال خواهیم پرداخت.

دسته بندی OneR چیست؟

OneR ، مختصر “One Rule” ، یک الگوریتم طبقه بندی ساده اما در عین حال دقیق است که برای هر پیش بینی کننده در داده ها یک قانون ایجاد می کند ، سپس این قانون را با کوچکترین خطای کل به عنوان “یک قاعده” آن انتخاب می کند. برای ایجاد یک قانون برای یک پیش بینی کننده ، یک جدول فرکانس یا فراوانی برای هر پیش بینی کننده در برابر هدف ایجاد می کنیم. نشان داده شده است که OneR قوانینی را تولید می کند که کمی دقیق تر از الگوریتم های طبقه بندی پیشرفته ترین کشورها است که قوانینی را تولید می کند که تفسیر ساده ای برای انسان ها داشته باشد.

الگوریتم OneR

بصورت فارسی الگوریتم بصورت زیر خواهد بود.

برای هر پیش بینی کننده

  • برای هر مقدار از آن پیش بینی کننده ، قاعده ای را به شرح زیر بسازید:
    • تعداد دفعات مشاهده شده را هر تعداد هدف (کلاس) بشمارید
    • مکرر ترین کلاس را پیدا کنید
    • این قانون را تنظیم کنید که آن کلاس را به این مقدار پیش بینی کننده اختصاص دهید
  • خطای کلی قوانین هر پیش بینی کننده را محاسبه کنید

پیش بینی کننده با کمترین خطای کل را انتخاب کنید.

مثال الگوریتم OneR

مثال زیر در نظر بگیرید در این مثال شرایط آب و هوایی لازم برای برگزاری بازی گلف در نظر گرفته شده است. 4 ستون با نام های Outlook (چشم انداز)، temp (دما)، Humidity ( رطوبت) و windy (باد) در نظر گرفته شده است. ستون پنجم ستون هدف یا بازی گلف Play Golf است. با استفاده از 4 ستون قبلی و در نظر گرفتن شرایط آنها باید در نظر گرفت بازی گلف انجام می شود یا نه. یافتن بهترین پیش بینی کننده با کمترین خطای کل با استفاده از الگوریتم OneR بر اساس جداول فرکانس انجام می شود. برای درک کامل جدول فراوانی زیر را درنظر بگیرید.

دسته بندی OneR

برای این کار ابتدا برای هر ستون بطور مجزا حالت های هدف (یعنی) انجام بازی گلف رو طبق 4 جدول زیر در نظر می گیریم:

دسته بندی OneR

جدول بالا حالت های هر چهار ستون Outlook ، temp ، Humidity و windy  را منحصرا با تابع هدف مشخص کرده است. در این بین جدول Outlook دارای کمتری خطا است بنابراین این جدول ستاره دار شده و به عنوان جدول پیش بینی انتخاب می شود. اما این خطای این جدول ها چگونه محاسبه شده است. طبق شکل جدول Outlook رو در نظر بگیرید.

طبقه بند OneR

برای هر کدام از جدول ها می توان به ترتیب بالا خطا را محاسبه کرد.

مثال الگوریتم OneR

پس مشخص شد جدول Outlook با 0.26 خطا به عنوان کمترین خطا انتخاب می شود. پس قوانین ما بصورت زیر خواهد بود.

پیش بینی مشارکت Predictors Contribution

به سادگی ، خطای کل محاسبه شده از جداول فرکانس ، اندازه گیری هر سهم پیش بینی کننده است. خطای کل پایین به معنای سهم بالاتر در پیش بینی مدل است.

ارزیابی مدل

ماتریس اغتشاش زیر قدرت پیش بینی قابل توجهی را نشان می دهد. OneR نمره یا احتمال ایجاد نمی کند ، به این معنی که نمودارهای ارزیابی (Gain، Lift، K-S و ROC) کاربردی نیستند.

ارزیابی مدل OneR

مطالب زیر را حتما بخوانید

دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.