تخفیف ویژه زمستانه پی استور

تا 60 درصد تخفیف

شامل پروژه‌ها و دوره‌های آموزشی
روز
ساعت
دقیقه
ثانیه
آخرین فرصت‌ها

با خرید اشتراک ویژه ، با هزینه بسیار کمتر به فایل های پاورپوینت دسترسی داشته باشید!

دیتاست DataSet

دیتاست DataSet
یک مجموعه داده (DataSet) مجموعه‌ای از داده‌ها است. اغلب مجموعه داده‌ها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس داده‌های یکپارچه است که هر ستون جدول یک متغیر خاص را نشان می‌دهد و هر ردیف مربوط به یک عضو داده شده از مجموعه داده‌های مورد سوال است.

فهرست مطالب

دیتاست DataSet

مجموعه داده‌ها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه داده‌ها فهرست می‌کند. هر مقدار به عنوان پایه شناخته می‌شود. مجموعه داده‌ها ممکن است شامل داده‌هایی برای یک یا چند عضو باشد که مربوط به تعداد ردیف‌ها باشد.

دیتاست

ویژگی‌های دیتاست

چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف می‌کند که شامل تعداد و نوع مشخصه‌ها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی‌متر باشد، اما ممکن است داده‌های اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان می‌دهد. به طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه گیری تعریف شود. برای هر متغیر، مقادیر به طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزش‌های گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.

در آمار، مجموعه داده‌ها معمولا از مشاهدات واقعی حاصل از نمونه‌گیری جمعیت آماری حاصل می‌شود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتم‌ها می‎توان مجموعه داده‌ها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.

نمونه ای از دیتاست

به عنوان یک نمونه دیتاست مورداستفاده مجموعه داده بیماران سرطان سینه موجود در مخزن داده‌ی یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده می‌شود. در این دیتاست ویژگی‌ها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبه‌ها، حجم سلول بافت اپیتلیال، هسته‌های عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت می‌باشد که در ایالت ویسکانسین ایالات‌متحده جمع‌آوری‌شده است. جدول زیر نشان‌دهنده این مجموعه از داده است.

Domain Attribute #
id number code number ۱
۱ – ۱۰ Clump Thickness ۲
۱ – ۱۰ Uniformity of Cell Size ۳
۱ – ۱۰ Uniformity of Cell Shape ۴
۱ – ۱۰ Marginal Adhesion ۵
۱ – ۱۰ Single Epithelial Cell Size ۶
۱ – ۱۰ Bare Nuclei ۷
۱ – ۱۰ Bland Chromatin ۸
۱ – ۱۰ Normal Nucleoli ۹
۱ – ۱۰ Mitoses ۱۰
۲ for benign, 4 for malignant Class ۱۱

 

معرفی چند پایگاه‌ دیتاست‌ها

استفاده از دیتاست

اهداف زیادی از دیتاست‌ها وجود دارد یکی از اهداف استفاده از دیتاست‌ها استفاده از آن‌ها برای مدل و تشخیص است که با روش‌های دسته بندی و الگوریتم های یادگیری انجام می‌شود. هدف از دسته‌بندی داده‌ها تشخیص داده‌ها در دسته درست مجموعه داده‌های هست و به‌منظور دسته‌بندی آن‌ها تعدادی از داده‌ها را به‌عنوان نمونه‌های آموزشی و تعدادی از داده‌ها را به‌عنوان نمونه‌های تستی در نظر می‌گیرند.

منظور از نمونه‌های آموزشی این است که بخشی از نمونه‌ها را جدا کنیم و به آن‌ها برچسب نمونه آموزشی بزنیم. منظور از نمونه‌های تستی یعنی یکسری از نمونه‌هایی که برای آزمایش استفاده می‌شوند. این نمونه‌های تستی از روی نمونه‌های آموزشی بر اساس الگوریتم‌هایی، قوانینی را یاد می‌گیرند و سپس داده‌های خود را با نمونه‌های آموزشی مقایسه می‌کنند و به داده‌ی خود برچسب موفقیت یا شکست می‌زنند و آن را به دسته مربوطه ارسال می‌کنند.

دسته‌بندی از نمونه‌های آموزشی استفاده می‌کند تا چگونگی تشخیص در یک مجموعه را یاد بگیرد. مکانیزیم‌های یادگیری ممکن است به‌صورت آماری، هندسی، مبتنی بر قواعد یا چیزهای دیگری باشد. از دسته‌بندی آموزشی برای پیش‌بینی در مجموعه تستی استفاده می‌شود. زمانی که تشخیص درست شناسایی شدند دسته‌بندی می‌تواند مثلاً بر اساس معیار دقت یا معیار‌های دیگر مرتب شود و این به‌عنوان مشکل یادگیری با ناظر مطرح می‌شود.

زمانی که میزان موفق بودن یک الگوریتم در مشکل یادگیری با ناظر ارزیابی می‌شود حتماً باید به این نکته توجه کرد که نمونه‌های آموزشی و تستی باهم همپوشانی نداشته باشند؛ بنابراین بسیاری از تکنیک‌های یادگیری ماشین تمایل دارند تا مجموعه آموزشی را overfitting کنند به این معنی که اگر آن‌ها خیلی به جزییات داده‌ها در نمونه‌های آموزشی دقیق شوند آنگاه به‌خوبی نمی‌توانند اسناد جدیدی که تا حالا آن‌ها را ندید‌ه‌اند دسته‌بندی کنند

]پس به‌طور خلاصه می‌توان گفت نمونه‌های آموزشی برای آموزش سیستم به‌منظور شناخت الگوهای مختلف و نمونه‌های آزمایشی برای ارزیابی سیستم استفاده می‌شوند. روش‌های زیادی برای دسته‌بندی وجود دارد ازجمله‌ی این روش‌ها می‌توان‌ به درخت تصمیم، الگوریتم k‌ همسایه نزدیک، الگوریتم نیوبیزین، بردار ماشین پشتیبان و شبکه‌های عصبی است.

3 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *