الگوریتم یادگیری ماشین رگرسیون لجستیک
رگرسیون لجستیک معروف ترین الگوریتم یادگیری ماشین بعد از رگرسیون خطی است. از بسیاری جهات، رگرسیون خطی و رگرسیون لجستیک مشابه هستند. اما، بزرگترین تفاوت در این است که آنها برای چه استفاده می شوند. الگوریتم های رگرسیون خطی برای پیشبینی مقادیر استفاده می شود اما رگرسیون لجستیک برای وظایف دستهبندی استفاده می شود.
مقدمه
کارهای دستهبندی زیادی وجود دارد که به طور معمول توسط افراد انجام می شود. به عنوان مثال، دستهبندی اینکه آیا یک ایمیل هرزنامه است یا نه، دستهبندی بدخیم یا خوش خیم بودن یک تومور، دستهبندی اینکه آیا یک وب سایت تقلبی است یا نه، و غیره. اینها نمونه های معمولی هستند که الگوریتم های یادگیری ماشینی می توانند زندگی ما را بسیار آسان کنند. یک الگوریتم بسیار ساده، ابتدایی و مفید برای دستهبندی، الگوریتم رگرسیون لجستیک است. اکنون، میخواهیم نگاهی عمیقتر به رگرسیون لجستیک بیندازیم.
تابع سیگموید (رگرسیون لجستیک)
الگوریتم رگرسیون لجستیک نیز از یک معادله خطی با پیش بینی کننده های مستقل برای پیش بینی یک مقدار استفاده می کند. مقدار پیش بینی شده می تواند بین منفی بی نهایت تا مثبت بی نهایت باشد. ما نیاز داریم که خروجی الگوریتم متغیر کلاس باشد، یعنی 1 برای کلاس yes و 0 برای کلاس no. بنابراین، ما خروجی معادله خطی را در محدوده [0،1] انتقال میدهیم. برای انتقال مقدار پیش بینی شده بین 0 و 1، از تابع سیگموئید استفاده می کنیم.
خروجی (z) معادله خطی را می گیریم و به تابع g(x) می دهیم که مقدار انتقال، h را برمی گرداند، مقدار h در محدوده 0 تا 1 قرار می گیرد.
همانطور که از نمودار می بینید، تابع سیگموئید برای مقادیر مثبت x به y=1 مجانبی میشود و برای مقادیر منفی x تبدیل به y=0 مجانبی می شود.
تابع هزینه
از آنجایی که ما در تلاش برای پیشبینی مقادیر کلاس هستیم، نمیتوانیم از همان تابع هزینه استفاده شده در الگوریتم رگرسیون خطی استفاده کنیم. بنابراین، ما از یک تابع ضرر لگاریتمی برای محاسبه هزینه دستهبندی نادرست استفاده میکنیم.
تابع هزینه فوق را می توان به صورت زیر بازنویسی کرد زیرا محاسبه گرادیان ها از معادله بالا دشوار است.
محاسبه گرادیان
ما مشتقات جزئی تابع هزینه را با توجه به هر پارامتر (theta_0، theta_1، …) می گیریم تا گرادیان ها را بدست آوریم. با کمک این گرادیان ها، می توانیم مقادیر theta_0، theta_1، … را به روز کنیم. برای درک معادلات زیر به مقداری حساب دیفرانسیل و انتگرال نیاز دارید.
درباره امین جلیل زاده رزین
پایه گذار و موسس وب سایت آموزشی پی استور، مدرس دانشگاه فنی و حرفه ای، برنامه نویس و تحلیل گر سیستم، پژوهشگر در حوزه الگوریتم های ابتکاری، فرا ابتکاری، یادگیری ماشین، شبکه و پایگاه داده. ایشان در زبان های برنامه نویسی متعدد، نظیر ++C، سی شارپ، PHP ،Java، متلب MATLAB و Python تسلط و سابقه تدریس فعال دارند.