دسته بندی OneR چیست؟
OneR ، مختصر “One Rule” ، یک الگوریتم طبقه بندی ساده اما در عین حال دقیق است که برای هر پیش بینی کننده در داده ها یک قانون ایجاد می کند ، سپس این قانون را با کوچکترین خطای کل به عنوان “یک قاعده” آن انتخاب می کند.
برای ایجاد یک قانون برای یک پیش بینی کننده، یک جدول فرکانس یا فراوانی برای هر پیش بینی کننده در برابر هدف ایجاد می کنیم. نشان داده شده است که OneR قوانینی را تولید می کند که کمی دقیق تر از الگوریتم های طبقه بندی پیشرفته ترین کشورها است که قوانینی را تولید می کند که تفسیر ساده ای برای انسان ها داشته باشد.
الگوریتم OneR
For each predictor, For each value of that predictor, make a rule as follows; Count how often each value of target (class) appears Find the most frequent class Make the rule assign that class to this value of the predictor Calculate the total error of the rules of each predictor Choose the predictor with the smallest total error.
بصورت فارسی الگوریتم بصورت زیر خواهد بود.
برای هر پیش بینی کننده
- برای هر مقدار از آن پیش بینی کننده ، قاعده ای را به شرح زیر بسازید:
- تعداد دفعات مشاهده شده را هر تعداد هدف (کلاس) بشمارید
- مکرر ترین کلاس را پیدا کنید
- این قانون را تنظیم کنید که آن کلاس را به این مقدار پیش بینی کننده اختصاص دهید
- خطای کلی قوانین هر پیش بینی کننده را محاسبه کنید
پیش بینی کننده با کمترین خطای کل را انتخاب کنید.
مثال الگوریتم OneR
مثال زیر در نظر بگیرید در این مثال شرایط آب و هوایی لازم برای برگزاری بازی گلف در نظر گرفته شده است. ۴ ستون با نام های Outlook (چشم انداز)، temp (دما)، Humidity ( رطوبت) و windy (باد) در نظر گرفته شده است. ستون پنجم ستون هدف یا بازی گلف Play Golf است.
با استفاده از ۴ ستون قبلی و در نظر گرفتن شرایط آنها باید در نظر گرفت بازی گلف انجام می شود یا نه. یافتن بهترین پیش بینی کننده با کمترین خطای کل با استفاده از الگوریتم OneR بر اساس جداول فرکانس انجام می شود. برای درک کامل جدول فراوانی زیر را درنظر بگیرید.
برای این کار ابتدا برای هر ستون بطور مجزا حالت های هدف (یعنی) انجام بازی گلف رو طبق ۴ جدول زیر در نظر می گیریم:
جدول بالا حالت های هر چهار ستون Outlook ، temp ، Humidity و windy را منحصرا با تابع هدف مشخص کرده است. در این بین جدول Outlook دارای کمتری خطا است بنابراین این جدول ستاره دار شده و به عنوان جدول پیش بینی انتخاب می شود. اما این خطای این جدول ها چگونه محاسبه شده است. طبق شکل جدول Outlook رو در نظر بگیرید.
برای هر کدام از جدول ها می توان به ترتیب بالا خطا را محاسبه کرد.
پس مشخص شد جدول Outlook با ۰.۲۶ خطا به عنوان کمترین خطا انتخاب می شود. پس قوانین ما بصورت زیر خواهد بود.
پیش بینی مشارکت Predictors Contribution
به سادگی ، خطای کل محاسبه شده از جداول فرکانس ، اندازه گیری هر سهم پیش بینی کننده است. خطای کل پایین به معنای سهم بالاتر در پیش بینی مدل است.
ارزیابی مدل
ماتریس اغتشاش زیر قدرت پیش بینی قابل توجهی را نشان می دهد. OneR نمره یا احتمال ایجاد نمی کند ، به این معنی که نمودارهای ارزیابی (Gain، Lift، K-S و ROC) کاربردی نیستند.