مفهوم خوشه بندی یا Clustering

مفهوم خوشه بندی

مفهوم خوشه بندی یا Clustering

در این پست در مورد مفهوم خوشه بندی یا Clustering ، انواع روش های خوشه بندی داده ها ، کاربرد خوشه بندی ، معیارهای ارزیابی کیفیت خوشه بندی همراه با مثال خوشه بندی و در کل اینکه خوشه بندی چیست؟ و چه تفاوت هایی با طبقه بندی یا دسته بندی دارد به طور مفصل صحبت خواهیم کرد و آنها را توضیح و تشریح خواهیم کرد.

تعریف خوشه بندی

برای اینکه مفهوم خوشه بندی یا Clustering را بدانیم ابتدا لازم است تعریفی از خوشه بندی ارائه شود. در تعریف خوشه بندی می توان گفت: خوشه بندی، فرآیندی است که به کمک آن می‌توان مجموعه‌ای از اشیاء را به گروه‌های مجزا افراز کرد. هر افراز یک خوشه نامیده می‌شود. اعضاء هر خوشه با توجه به ویژگی‌هایی که دارند به یکدیگر بسیار شبیه هستند و در عوض میزان شباهت بین خوشه‌ها کمترین مقدار است. در چنین حالتی هدف از خوشه‌بندی، نسبت دادن برچسب‌هایی به اشیاء است که نشان دهنده عضویت هر شیء به خوشه است.

به عنوان مثال ما جمعیتی را داریم. در این جمعیت هدف اگر تفکیک جنسیتی باشد می توان دو گروه از این جمعیت را در نظر گرفت که با یکدیگر از لحاظ جنسیتی شبیه باشد. پس دو خوشه مردان و زنان را می توان افراز کرد که جنسیت هایی که مشخصات آن ها به مردان نزدیک باشد در خوشه مردان و دیگری در خوشه زنان قرار داشته باشند.

خوشه بندی می تواند روابط قبلی کشف نشده در یک مجموعه داده را کشف کند. کاربردهای زیادی برای تجزیه و تحلیل خوشه بندی وجود دارد. به عنوان مثال ، در تجارت ، از تجزیه و تحلیل خوشه ای می توان برای کشف و توصیف بخش های مشتری برای اهداف بازاریابی استفاده کرد و در زیست شناسی نیز با توجه به ویژگی های آنها می توان از طبقه بندی گیاهان و حیوانات استفاده کرد.

روش خوشه بندی خوب

برای تعریف و ارائه یک روش خوشه بندی خوب بایستی تمامی الزامات و مزیت های یک روش بخوبی مورد توجه قرار گیرد. الزامات روش خوشه بندی خوب عبارتند از:

  • توانایی کشف همه خوشه های پنهان را داشته باشد.
  • شباهت درون خوشه و عدم تمایز بین خوشه را رعایت کند.
  • امکان برخورد با انواع مختلفی از ویژگی ها را داشته باشد.
  • با نویز و ویژگی های دوردست مقابله کند.
  • قابلیت خوشه بندی با ابعاد داده های بالا را داشته باشد.
  • مقیاس پذیر ، تفسیر پذیر و قابل استفاده باشد.

انواع روش های خوشه بندی داده ها

به طور کلی الگوریتم ها یا روش های خوشه بندی مبنای یکسان و مشابهی دارند ولی تفاوت هایی در شیوه اندازه گیری شباهت یا فاصله و همچنین انتخاب برچسب برای اشیاء هر خوشه در این روش ها وجود دارد. در واقع همین تفاوت های کوچک در شیوه محاسبه شباهت ها سبب بوجود آمدن انواع مختلفی از روش ها و الگوریتم های خوشه بندی شده است. در ادامه چهار گروه اصلی از الگوریتم های خوشه بندی همراه با نمونه هایی از هر کدام بیان شده است. چهار گروه اصلی الگوریتم های خوشه بندی عبارتند از:

  • خوشه بندی سلسله مراتبی Hierarchical
    • الگوریتم خوشه بندی Agglomerative
    • الگوریتم خوشه بندی Divisive
  • خوشه بندی وابسته به جزء Partitive
    • الگوریتم خوشه بندی K Means
    • الگوریتم خوشه بندی Self-Organizing Map
  • خوشه‌بندی مبتنی بر چگالی Density-Bases Clustering
    • الگوریتم خوشه بندی DBSCAN
    • الگوریتم خوشه بندی OPTIC
  • خوشه‌بندی مبتنی بر مدل Model-Based Clustering
    • الگوریتم خوشه بندی EM

تفاوت خوشه بندی با طبقه بندی

تفاوت اصلی که بین خوشه‌بندی Clustering و  طبقه‌بندی Classification  وجود دارد، نداشتن برچسب‌های اولیه برای مشاهدات است. در روش های دسته بندی برای هر نمونه یک برچسب وجود دارد و از روی این برچسب ها می توان طبقه بدی و دسته بندی را انجام داد ولی در روش های خوشه بندی این برچسب ها وجود ندارد و معیار جدا سازی فقط میزان شباهت هر یک از نمونه ها خواهد بود. به همین خاطر خوشه بندی یکی از روش های یادگیری ماشین بدون ناظر هست و طبقه بندی به عنوان یک روش یادگیری با ناظر می باشد.

در خوشه بندی براساس ویژگی های مشترک و روش های اندازه گیری فاصله یا شباهت بین اشیاء یا نمونه ها، باید برچسب هایی بطور خودکار نسبت داده شوند. در حالیکه در طبقه‌بندی برچسب‌های اولیه موجود است و باید با استفاده از الگوی های پیش‌بینی قادر به برچسب گذاری برای مشاهدات جدید باشیم.‌ به عنوان مثال در جمعیت مردان و زنان اگر از روش خوشه بندی برای تفکیک جنسیتی استفاده کنیم معیار جداسازی میزان شباهت افراد است و ما اطلاعی از جنسیت افراد نداریم ولی در روش طبقه بندی ما از جنسیت افراد خبر داریم.

مطالب زیر را حتما بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.