دیتاست DataSet

22 فروردین 1397

نویسنده: امین جلیل زاده رزین

الگوریتم یادگیری ماشین ، داده کاوی

2.18k بازدید

زمان تقریبی مطالعه: 3 دقیقه

فهرست مطالب مخفی

دیتاست DataSet

ویژگی های دیتاست

نمونه ای از دیتاست

معرفی چند پایگاه‌ دیتاست‌ها

استفاده از دیتاست

دیتاست DataSet

یک مجموعه داده (DataSet) مجموعه ای از داده ها است. اغلب مجموعه داده ها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس داده های یکپارچه است که هر ستون جدول یک متغیر خاص را نشان می دهد و هر ردیف مربوط به یک عضو داده شده از مجموعه داده های مورد سوال است. مجموعه داده ها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه داده ها فهرست می کند. هر مقدار به عنوان پایه شناخته می شود. مجموعه داده ها ممکن است شامل داده هایی برای یک یا چند عضو باشد که مربوط به تعداد ردیف ها باشد.

بیشتر بخوانید:

علوم داده Data Science

ویژگی های دیتاست

چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف می کند که شامل تعداد و نوع مشخصه ها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی متر باشد، اما ممکن است داده های اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان می دهد. به طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه گیری تعریف شود. برای هر متغیر، مقادیر به طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزشهای گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.

در آمار، مجموعه داده ها معمولا از مشاهدات واقعی حاصل از نمونه گیری جمعیت آماری حاصل می شود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتم ها می توان مجموعه داده ها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.

تبدیل دیتاست KDD99 برای استفاده الگوریتم های یادگیری ماشین در متلب

کلیک کنید

نمونه ای از دیتاست

به عنوان یک نمونه دیتاست مورداستفاده مجموعه داده بیماران سرطان سینه موجود در مخزن داده‌ی یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده می شود. در این دیتاست ویژگی ها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبه‌ها، حجم سلول بافت اپیتلیال، هسته‌های عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت می‌باشد که در ایالت ویسکانسین ایالات‌متحده جمع‌آوری‌شده است. جدول زیر نشان‌دهنده این مجموعه از داده است.

Domain	Attribute	#
id number	code number	1
1 – 10	Clump Thickness	2
1 – 10	Uniformity of Cell Size	3
1 – 10	Uniformity of Cell Shape	4
1 – 10	Marginal Adhesion	5
1 – 10	Single Epithelial Cell Size	6
1 – 10	Bare Nuclei	7
1 – 10	Bland Chromatin	8
1 – 10	Normal Nucleoli	9
1 – 10	Mitoses	10
2 for benign, 4 for malignant	Class	11

بیشتر بخوانید:

روش های انتخاب ویژگی در داده کاوی – نحوه انتخاب ویژگی و موارد استفاده از آن

معرفی چند پایگاه‌ دیتاست‌ها

پاورپوینت تکنیک های مرتب سازی

کلیک کنید

استفاده از دیتاست

اهداف زیادی از دیتاست ها وجود دارد یکی از اهداف استفاده از دیتاست ها استفاده از آنها برای مدل و تشخیص است که با روش های دسته بندی و الگوریتم های یادگیری انجام می شود. هدف از دسته‌بندی داده‌ها تشخیص داده ها در دسته درست مجموعه داده‌های هست و به‌منظور دسته‌بندی آن‌ها تعدادی از داده‌ها را به‌عنوان نمونه‌های آموزشی و تعدادی از داده‌ها را به‌عنوان نمونه‌های تستی در نظر می‌گیرند. منظور از نمونه‌های آموزشی این است که بخشی از نمونه‌ها را جدا کنیم و به آن‌ها برچسب نمونه آموزشی بزنیم. منظور از نمونه‌های تستی یعنی یکسری از نمونه‌هایی که برای آزمایش استفاده می‌شوند. این نمونه‌های تستی از روی نمونه‌های آموزشی بر اساس الگوریتم‌هایی، قوانینی را یاد می‌گیرند و سپس داده‌های خود را با نمونه‌های آموزشی مقایسه می‌کنند و به داده‌ی خود برچسب موفقیت یا شکست می‌زنند و آن را به دسته مربوطه ارسال می‌کنند.

بیشتر بخوانید:

انواع خوشه بندی در داده کاوی — معرفی 6 نوع خوشه بندی پر کاربرد

دسته‌بندی از نمونه‌های آموزشی استفاده می‌کند تا چگونگی تشخیص در یک مجموعه را یاد بگیرد. مکانیزیم‌های یادگیری ممکن است به‌صورت آماری، هندسی، مبتنی بر قواعد یا چیزهای دیگری باشد. از دسته‌بندی آموزشی برای پیش‌بینی در مجموعه تستی استفاده می‌شود. زمانی که تشخیص درست شناسایی شدند دسته‌بندی می‌تواند مثلاً بر اساس معیار دقت یا معیار‌های دیگر مرتب شود و این به‌عنوان مشکل یادگیری با ناظر مطرح می‌شود. زمانی که میزان موفق بودن یک الگوریتم در مشکل یادگیری با ناظر ارزیابی می‌شود حتماً باید به این نکته توجه کرد که نمونه‌های آموزشی و تستی باهم همپوشانی نداشته باشند؛ بنابراین بسیاری از تکنیک‌های یادگیری ماشین تمایل دارند تا مجموعه آموزشی را overfitting کنند به این معنی که اگر آن‌ها خیلی به جزییات داده‌ها در نمونه‌های آموزشی دقیق شوند آنگاه به‌خوبی نمی‌توانند اسناد جدیدی که تا حالا آن‌ها را ندید‌ه‌اند دسته‌بندی کنند

الگوریتم دایجسترا Dijkstra در سی شارپ #C

کلیک کنید

پس به‌طور خلاصه می‌توان گفت نمونه‌های آموزشی برای آموزش سیستم به‌منظور شناخت الگوهای مختلف و نمونه‌های آزمایشی برای ارزیابی سیستم استفاده می‌شوند. روش‌های زیادی برای دسته‌بندی وجود دارد ازجمله‌ی این روش‌ها می‌توان‌ به درخت تصمیم، الگوریتم k‌ همسایه نزدیک، الگوریتم نیوبیزین، بردار ماشین پشتیبان و شبکه‌های عصبی است.

میزان رضایتمندی

لطفاً میزان رضایت خودتان را از این مطلب با دادن امتیاز اعلام کنید.

[ امتیاز میانگین 5 از 1 نفر ]

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

درباره امین جلیل زاده رزین

پایه گذار و موسس وب سایت آموزشی پی استور، مدرس دانشگاه فنی و حرفه ای، برنامه نویس و تحلیل گر سیستم، پژوهشگر در حوزه الگوریتم های ابتکاری، فرا ابتکاری، یادگیری ماشین، شبکه و پایگاه داده. ایشان در زبان های برنامه نویسی متعدد، نظیر ++C، سی شارپ، PHP ،Java، متلب MATLAB و Python تسلط و سابقه تدریس فعال دارند.

نوشته های بیشتر از امین جلیل زاده رزین

دیتاست DataSet

ویژگی های دیتاست

نمونه ای از دیتاست

معرفی چند پایگاه‌ دیتاست‌ها

استفاده از دیتاست

درباره امین جلیل زاده رزین

مطالب زیر را حتما مطالعه کنید

شبکه عصبی و توابع انتقال یا فعال سازی در متلب Activation Functions

تفاوت یادگیری ماشین و یادگیری عمیق چیست — در 9 دقیقه طلایی یاد بگیرید!

انواع خوشه بندی در داده کاوی — معرفی 6 نوع خوشه بندی پر کاربرد

درخت تصمیم گیری چیست — راهنمای گام به گام طراحی درخت تصمیم گیری

معرفی جامع انواع شبکه عصبی مصنوعی — همراه با نمونه کد متلب

آموزش deep learning بصورت گام به گام