مفهوم خوشه بندی یا Clustering

4 اردیبهشت 1397

نویسنده: امین جلیل زاده رزین

الگوریتم یادگیری ماشین

3.09k بازدید

زمان تقریبی مطالعه: 3 دقیقه

مفهوم خوشه بندی یا Clustering

در این پست در مورد مفهوم خوشه بندی یا Clustering ، انواع روش های خوشه بندی داده ها ، کاربرد خوشه بندی ، معیارهای ارزیابی کیفیت خوشه بندی همراه با مثال خوشه بندی و در کل اینکه خوشه بندی چیست؟ و چه تفاوت هایی با طبقه بندی یا دسته بندی دارد به طور مفصل صحبت خواهیم کرد و آنها را توضیح و تشریح خواهیم کرد.

فهرست مطالب مخفی

تعریف خوشه بندی

روش خوشه بندی خوب

انواع روش های خوشه بندی داده ها

تفاوت خوشه بندی با طبقه بندی

تعریف خوشه بندی

برای اینکه مفهوم خوشه بندی یا Clustering را بدانیم ابتدا لازم است تعریفی از خوشه بندی ارائه شود. در تعریف خوشه بندی می توان گفت: خوشه بندی، فرآیندی است که به کمک آن می‌توان مجموعه‌ای از اشیاء را به گروه‌های مجزا افراز کرد. هر افراز یک خوشه نامیده می‌شود. اعضاء هر خوشه با توجه به ویژگی‌هایی که دارند به یکدیگر بسیار شبیه هستند و در عوض میزان شباهت بین خوشه‌ها کمترین مقدار است. در چنین حالتی هدف از خوشه‌بندی، نسبت دادن برچسب‌هایی به اشیاء است که نشان دهنده عضویت هر شیء به خوشه است.

به عنوان مثال ما جمعیتی را داریم. در این جمعیت هدف اگر تفکیک جنسیتی باشد می توان دو گروه از این جمعیت را در نظر گرفت که با یکدیگر از لحاظ جنسیتی شبیه باشد. پس دو خوشه مردان و زنان را می توان افراز کرد که جنسیت هایی که مشخصات آن ها به مردان نزدیک باشد در خوشه مردان و دیگری در خوشه زنان قرار داشته باشند.

خوشه بندی می تواند روابط قبلی کشف نشده در یک مجموعه داده را کشف کند. کاربردهای زیادی برای تجزیه و تحلیل خوشه بندی وجود دارد. به عنوان مثال ، در تجارت ، از تجزیه و تحلیل خوشه ای می توان برای کشف و توصیف بخش های مشتری برای اهداف بازاریابی استفاده کرد و در زیست شناسی نیز با توجه به ویژگی های آنها می توان از طبقه بندی گیاهان و حیوانات استفاده کرد.

روش خوشه بندی خوب

برای تعریف و ارائه یک روش خوشه بندی خوب بایستی تمامی الزامات و مزیت های یک روش بخوبی مورد توجه قرار گیرد. الزامات روش خوشه بندی خوب عبارتند از:

توانایی کشف همه خوشه های پنهان را داشته باشد.
شباهت درون خوشه و عدم تمایز بین خوشه را رعایت کند.
امکان برخورد با انواع مختلفی از ویژگی ها را داشته باشد.
با نویز و ویژگی های دوردست مقابله کند.
قابلیت خوشه بندی با ابعاد داده های بالا را داشته باشد.
مقیاس پذیر ، تفسیر پذیر و قابل استفاده باشد.

انواع روش های خوشه بندی داده ها

به طور کلی الگوریتم ها یا روش های خوشه بندی مبنای یکسان و مشابهی دارند ولی تفاوت هایی در شیوه اندازه گیری شباهت یا فاصله و همچنین انتخاب برچسب برای اشیاء هر خوشه در این روش ها وجود دارد. در واقع همین تفاوت های کوچک در شیوه محاسبه شباهت ها سبب بوجود آمدن انواع مختلفی از روش ها و الگوریتم های خوشه بندی شده است. در ادامه چهار گروه اصلی از الگوریتم های خوشه بندی همراه با نمونه هایی از هر کدام بیان شده است. چهار گروه اصلی الگوریتم های خوشه بندی عبارتند از:

خوشه بندی سلسله مراتبی Hierarchical
- الگوریتم خوشه بندی Agglomerative
- الگوریتم خوشه بندی Divisive
خوشه بندی وابسته به جزء Partitive
- الگوریتم خوشه بندی K Means
- الگوریتم خوشه بندی Self-Organizing Map
خوشه‌بندی مبتنی بر چگالی Density-Bases Clustering
- الگوریتم خوشه بندی DBSCAN
- الگوریتم خوشه بندی OPTIC
خوشه‌بندی مبتنی بر مدل Model-Based Clustering
- الگوریتم خوشه بندی EM

تفاوت خوشه بندی با طبقه بندی

تفاوت اصلی که بین خوشه‌بندی Clustering و طبقه‌بندی Classification وجود دارد، نداشتن برچسب‌های اولیه برای مشاهدات است. در روش های دسته بندی برای هر نمونه یک برچسب وجود دارد و از روی این برچسب ها می توان طبقه بدی و دسته بندی را انجام داد ولی در روش های خوشه بندی این برچسب ها وجود ندارد و معیار جدا سازی فقط میزان شباهت هر یک از نمونه ها خواهد بود. به همین خاطر خوشه بندی یکی از روش های یادگیری ماشین بدون ناظر هست و طبقه بندی به عنوان یک روش یادگیری با ناظر می باشد.

در خوشه بندی براساس ویژگی های مشترک و روش های اندازه گیری فاصله یا شباهت بین اشیاء یا نمونه ها، باید برچسب هایی بطور خودکار نسبت داده شوند. در حالیکه در طبقه‌بندی برچسب‌های اولیه موجود است و باید با استفاده از الگوی های پیش‌بینی قادر به برچسب گذاری برای مشاهدات جدید باشیم.‌ به عنوان مثال در جمعیت مردان و زنان اگر از روش خوشه بندی برای تفکیک جنسیتی استفاده کنیم معیار جداسازی میزان شباهت افراد است و ما اطلاعی از جنسیت افراد نداریم ولی در روش طبقه بندی ما از جنسیت افراد خبر داریم.

میزان رضایتمندی

لطفاً میزان رضایت خودتان را از این مطلب با دادن امتیاز اعلام کنید.

[ امتیاز میانگین 3.5 از 2 نفر ]

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

درباره امین جلیل زاده رزین

پایه گذار و موسس وب سایت آموزشی پی استور، مدرس دانشگاه فنی و حرفه ای، برنامه نویس و تحلیل گر سیستم، پژوهشگر در حوزه الگوریتم های ابتکاری، فرا ابتکاری، یادگیری ماشین، شبکه و پایگاه داده. ایشان در زبان های برنامه نویسی متعدد، نظیر ++C، سی شارپ، PHP ،Java، متلب MATLAB و Python تسلط و سابقه تدریس فعال دارند.

نوشته های بیشتر از امین جلیل زاده رزین

تعریف خوشه بندی

روش خوشه بندی خوب

انواع روش های خوشه بندی داده ها

تفاوت خوشه بندی با طبقه بندی

درباره امین جلیل زاده رزین

مطالب زیر را حتما مطالعه کنید

شبکه عصبی و توابع انتقال یا فعال سازی در متلب Activation Functions

تفاوت یادگیری ماشین و یادگیری عمیق چیست — در 9 دقیقه طلایی یاد بگیرید!

انواع خوشه بندی در داده کاوی — معرفی 6 نوع خوشه بندی پر کاربرد

درخت تصمیم گیری چیست — راهنمای گام به گام طراحی درخت تصمیم گیری

معرفی جامع انواع شبکه عصبی مصنوعی — همراه با نمونه کد متلب

آموزش deep learning بصورت گام به گام