دیتاست DataSet

دیتاست DataSet

یک مجموعه داده (DataSet) مجموعه ای از داده ها است. اغلب مجموعه داده ها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس داده های یکپارچه است که هر ستون جدول یک متغیر خاص را نشان می دهد و هر ردیف مربوط به یک عضو داده شده از مجموعه داده های مورد سوال است. مجموعه داده ها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه داده ها فهرست می کند. هر مقدار به عنوان پایه شناخته می شود. مجموعه داده ها ممکن است شامل داده هایی برای یک یا چند عضو باشد که مربوط به تعداد ردیف ها باشد.

دیتاست

ویژگی های دیتاست

چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف می کند که شامل تعداد و نوع مشخصه ها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی متر باشد، اما ممکن است داده های اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان می دهد. به طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه گیری تعریف شود. برای هر متغیر، مقادیر به طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزشهای گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.

در آمار، مجموعه داده ها معمولا از مشاهدات واقعی حاصل از نمونه گیری جمعیت آماری حاصل می شود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتم ها می توان مجموعه داده ها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.

نمونه ای از دیتاست

به عنوان یک نمونه دیتاست مورداستفاده مجموعه داده بیماران سرطان سینه موجود در مخزن داده‌ی یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده می شود. در این دیتاست ویژگی ها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبه‌ها، حجم سلول بافت اپیتلیال، هسته‌های عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت می‌باشد که در ایالت ویسکانسین ایالات‌متحده جمع‌آوری‌شده است. جدول زیر نشان‌دهنده این مجموعه از داده است.

DomainAttribute#
id numbercode number1
1 – 10Clump Thickness2
1 – 10Uniformity of Cell Size3
1 – 10Uniformity of Cell Shape4
1 – 10Marginal Adhesion5
1 – 10Single Epithelial Cell Size6
1 – 10Bare Nuclei7
1 – 10Bland Chromatin8
1 – 10Normal Nucleoli9
1 – 10Mitoses10
2 for benign, 4 for malignantClass11

معرفی چند پایگاه‌ دیتاست‌ها

استفاده از دیتاست

اهداف زیادی از دیتاست ها وجود دارد یکی از اهداف استفاده از دیتاست ها استفاده از آنها برای مدل و تشخیص است که با روش های دسته بندی و الگوریتم های یادگیری انجام می شود. هدف از دسته‌بندی داده‌ها تشخیص داده ها در دسته درست مجموعه داده‌های هست و به‌منظور دسته‌بندی آن‌ها تعدادی از داده‌ها را به‌عنوان نمونه‌های آموزشی و تعدادی از داده‌ها را به‌عنوان نمونه‌های تستی در نظر می‌گیرند. منظور از نمونه‌های آموزشی این است که بخشی از نمونه‌ها را جدا کنیم و به آن‌ها برچسب نمونه آموزشی بزنیم. منظور از نمونه‌های تستی یعنی یکسری از نمونه‌هایی که برای آزمایش استفاده می‌شوند. این نمونه‌های تستی از روی نمونه‌های آموزشی بر اساس الگوریتم‌هایی، قوانینی را یاد می‌گیرند و سپس داده‌های خود را با نمونه‌های آموزشی مقایسه می‌کنند و به داده‌ی خود برچسب موفقیت یا شکست می‌زنند و آن را به دسته مربوطه ارسال می‌کنند.

دسته‌بندی از نمونه‌های آموزشی استفاده می‌کند تا چگونگی تشخیص در یک مجموعه را یاد بگیرد. مکانیزیم‌های یادگیری ممکن است به‌صورت آماری، هندسی، مبتنی بر قواعد یا چیزهای دیگری باشد. از دسته‌بندی آموزشی برای پیش‌بینی در مجموعه تستی استفاده می‌شود. زمانی که تشخیص درست شناسایی شدند دسته‌بندی می‌تواند مثلاً بر اساس معیار دقت یا معیار‌های دیگر مرتب شود و این به‌عنوان مشکل یادگیری با ناظر مطرح می‌شود. زمانی که میزان موفق بودن یک الگوریتم در مشکل یادگیری با ناظر ارزیابی می‌شود حتماً باید به این نکته توجه کرد که نمونه‌های آموزشی و تستی باهم همپوشانی نداشته باشند؛ بنابراین بسیاری از تکنیک‌های یادگیری ماشین تمایل دارند تا مجموعه آموزشی را overfitting کنند به این معنی که اگر آن‌ها خیلی به جزییات داده‌ها در نمونه‌های آموزشی دقیق شوند آنگاه به‌خوبی نمی‌توانند اسناد جدیدی که تا حالا آن‌ها را ندید‌ه‌اند دسته‌بندی کنند

پس به‌طور خلاصه می‌توان گفت نمونه‌های آموزشی برای آموزش سیستم به‌منظور شناخت الگوهای مختلف و نمونه‌های آزمایشی برای ارزیابی سیستم استفاده می‌شوند. روش‌های زیادی برای دسته‌بندی وجود دارد ازجمله‌ی این روش‌ها می‌توان‌ به درخت تصمیم، الگوریتم k‌ همسایه نزدیک، الگوریتم نیوبیزین، بردار ماشین پشتیبان و شبکه‌های عصبی است.

محصولات مرتبط

مطالب زیر را حتما بخوانید

دیدگاه ها

  1. programstore گفت:

    نظرات و دیدگاه های خود را برای هرچه بهتر قرار دادن مطالب با ما در میان بگذارید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.