دیتاست DataSet
مجموعه دادهها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه دادهها فهرست میکند. هر مقدار به عنوان پایه شناخته میشود. مجموعه دادهها ممکن است شامل دادههایی برای یک یا چند عضو باشد که مربوط به تعداد ردیفها باشد.
ویژگیهای دیتاست
چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف میکند که شامل تعداد و نوع مشخصهها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتیمتر باشد، اما ممکن است دادههای اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان میدهد. به طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه گیری تعریف شود. برای هر متغیر، مقادیر به طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزشهای گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.
در آمار، مجموعه دادهها معمولا از مشاهدات واقعی حاصل از نمونهگیری جمعیت آماری حاصل میشود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتمها میتوان مجموعه دادهها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.
نمونه ای از دیتاست
به عنوان یک نمونه دیتاست مورداستفاده مجموعه داده بیماران سرطان سینه موجود در مخزن دادهی یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده میشود. در این دیتاست ویژگیها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبهها، حجم سلول بافت اپیتلیال، هستههای عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت میباشد که در ایالت ویسکانسین ایالاتمتحده جمعآوریشده است. جدول زیر نشاندهنده این مجموعه از داده است.
Domain | Attribute | # |
id number | code number | ۱ |
۱ – ۱۰ | Clump Thickness | ۲ |
۱ – ۱۰ | Uniformity of Cell Size | ۳ |
۱ – ۱۰ | Uniformity of Cell Shape | ۴ |
۱ – ۱۰ | Marginal Adhesion | ۵ |
۱ – ۱۰ | Single Epithelial Cell Size | ۶ |
۱ – ۱۰ | Bare Nuclei | ۷ |
۱ – ۱۰ | Bland Chromatin | ۸ |
۱ – ۱۰ | Normal Nucleoli | ۹ |
۱ – ۱۰ | Mitoses | ۱۰ |
۲ for benign, 4 for malignant | Class | ۱۱ |
معرفی چند پایگاه دیتاستها
- UCI
- Amazon
- WorldBankData
- UNData
- DataHub
- GitHub
- DataVancouver
استفاده از دیتاست
اهداف زیادی از دیتاستها وجود دارد یکی از اهداف استفاده از دیتاستها استفاده از آنها برای مدل و تشخیص است که با روشهای دسته بندی و الگوریتم های یادگیری انجام میشود. هدف از دستهبندی دادهها تشخیص دادهها در دسته درست مجموعه دادههای هست و بهمنظور دستهبندی آنها تعدادی از دادهها را بهعنوان نمونههای آموزشی و تعدادی از دادهها را بهعنوان نمونههای تستی در نظر میگیرند.
منظور از نمونههای آموزشی این است که بخشی از نمونهها را جدا کنیم و به آنها برچسب نمونه آموزشی بزنیم. منظور از نمونههای تستی یعنی یکسری از نمونههایی که برای آزمایش استفاده میشوند. این نمونههای تستی از روی نمونههای آموزشی بر اساس الگوریتمهایی، قوانینی را یاد میگیرند و سپس دادههای خود را با نمونههای آموزشی مقایسه میکنند و به دادهی خود برچسب موفقیت یا شکست میزنند و آن را به دسته مربوطه ارسال میکنند.
دستهبندی از نمونههای آموزشی استفاده میکند تا چگونگی تشخیص در یک مجموعه را یاد بگیرد. مکانیزیمهای یادگیری ممکن است بهصورت آماری، هندسی، مبتنی بر قواعد یا چیزهای دیگری باشد. از دستهبندی آموزشی برای پیشبینی در مجموعه تستی استفاده میشود. زمانی که تشخیص درست شناسایی شدند دستهبندی میتواند مثلاً بر اساس معیار دقت یا معیارهای دیگر مرتب شود و این بهعنوان مشکل یادگیری با ناظر مطرح میشود.
زمانی که میزان موفق بودن یک الگوریتم در مشکل یادگیری با ناظر ارزیابی میشود حتماً باید به این نکته توجه کرد که نمونههای آموزشی و تستی باهم همپوشانی نداشته باشند؛ بنابراین بسیاری از تکنیکهای یادگیری ماشین تمایل دارند تا مجموعه آموزشی را overfitting کنند به این معنی که اگر آنها خیلی به جزییات دادهها در نمونههای آموزشی دقیق شوند آنگاه بهخوبی نمیتوانند اسناد جدیدی که تا حالا آنها را ندیدهاند دستهبندی کنند
]پس بهطور خلاصه میتوان گفت نمونههای آموزشی برای آموزش سیستم بهمنظور شناخت الگوهای مختلف و نمونههای آزمایشی برای ارزیابی سیستم استفاده میشوند. روشهای زیادی برای دستهبندی وجود دارد ازجملهی این روشها میتوان به درخت تصمیم، الگوریتم k همسایه نزدیک، الگوریتم نیوبیزین، بردار ماشین پشتیبان و شبکههای عصبی است.
3 پاسخ
نظرات و دیدگاه های خود را برای هرچه بهتر قرار دادن مطالب با ما در میان بگذارید.