دیتاست DataSet
دیتاست DataSet
یک مجموعه داده (DataSet) مجموعه ای از داده ها است. اغلب مجموعه داده ها مربوط به محتویات یک جدول پایگاه داده تک یا یک ماتریس داده های یکپارچه است که هر ستون جدول یک متغیر خاص را نشان می دهد و هر ردیف مربوط به یک عضو داده شده از مجموعه داده های مورد سوال است. مجموعه داده ها برای هر یک از متغیرها مانند ارتفاع و وزن یک شیء برای هر یک از اعضای مجموعه داده ها فهرست می کند. هر مقدار به عنوان پایه شناخته می شود. مجموعه داده ها ممکن است شامل داده هایی برای یک یا چند عضو باشد که مربوط به تعداد ردیف ها باشد.
ویژگی های دیتاست
چندین ویژگی ساختار و خواص مجموعه داده یا دیتاست را تعریف می کند که شامل تعداد و نوع مشخصه ها یا متغیرها است. مقادیر ممکن است عددی ( مانند عدد حقیقی یا عدد صحیح ) باشد، مثلا نشان دهنده قد فرد بر اساس سانتی متر باشد، اما ممکن است داده های اسمی یا سمبلیک باشد، به عنوان مثال مذهب یک شخص را نشان می دهد. به طور کلی، مقادیر ممکن است از هر نوعی به عنوان سطح اندازه گیری تعریف شود. برای هر متغیر، مقادیر به طور معمول همه نوع مشابه هستند. با این حال ممکن است ارزشهای گم شده نیز وجود داشته باشد که باید به نحوی نشان داده شود.
در آمار، مجموعه داده ها معمولا از مشاهدات واقعی حاصل از نمونه گیری جمعیت آماری حاصل می شود و هر ردیف مربوط به مشاهدات بر روی یک عنصر از آن جمعیت است. با استفاده از الگوریتم ها می توان مجموعه داده ها را با هدف آزمایش انواع خاصی از نرم افزار تولید کرد.
نمونه ای از دیتاست
به عنوان یک نمونه دیتاست مورداستفاده مجموعه داده بیماران سرطان سینه موجود در مخزن دادهی یادگیری ماشین دانشگاه ارواین، ایالت کالیفرنیا آمریکا (University of California at Irvine) است مثال زده می شود. در این دیتاست ویژگی ها شامل ریسک فاکتورهای ضخامت انبوه، یکنواختی اندازه سلول، یکنواختی شکل سلول، چسبندگی لبهها، حجم سلول بافت اپیتلیال، هستههای عریان، کروماتین بلاند، هسته عادی و تقسیم هسته سلول به دو قسمت میباشد که در ایالت ویسکانسین ایالاتمتحده جمعآوریشده است. جدول زیر نشاندهنده این مجموعه از داده است.
Domain | Attribute | # |
id number | code number | 1 |
1 – 10 | Clump Thickness | 2 |
1 – 10 | Uniformity of Cell Size | 3 |
1 – 10 | Uniformity of Cell Shape | 4 |
1 – 10 | Marginal Adhesion | 5 |
1 – 10 | Single Epithelial Cell Size | 6 |
1 – 10 | Bare Nuclei | 7 |
1 – 10 | Bland Chromatin | 8 |
1 – 10 | Normal Nucleoli | 9 |
1 – 10 | Mitoses | 10 |
2 for benign, 4 for malignant | Class | 11 |
معرفی چند پایگاه دیتاستها
- UCI
- Amazon
- WorldBankData
- UNData
- DataHub
- GitHub
- DataVancouver
استفاده از دیتاست
اهداف زیادی از دیتاست ها وجود دارد یکی از اهداف استفاده از دیتاست ها استفاده از آنها برای مدل و تشخیص است که با روش های دسته بندی و الگوریتم های یادگیری انجام می شود. هدف از دستهبندی دادهها تشخیص داده ها در دسته درست مجموعه دادههای هست و بهمنظور دستهبندی آنها تعدادی از دادهها را بهعنوان نمونههای آموزشی و تعدادی از دادهها را بهعنوان نمونههای تستی در نظر میگیرند. منظور از نمونههای آموزشی این است که بخشی از نمونهها را جدا کنیم و به آنها برچسب نمونه آموزشی بزنیم. منظور از نمونههای تستی یعنی یکسری از نمونههایی که برای آزمایش استفاده میشوند. این نمونههای تستی از روی نمونههای آموزشی بر اساس الگوریتمهایی، قوانینی را یاد میگیرند و سپس دادههای خود را با نمونههای آموزشی مقایسه میکنند و به دادهی خود برچسب موفقیت یا شکست میزنند و آن را به دسته مربوطه ارسال میکنند.
دستهبندی از نمونههای آموزشی استفاده میکند تا چگونگی تشخیص در یک مجموعه را یاد بگیرد. مکانیزیمهای یادگیری ممکن است بهصورت آماری، هندسی، مبتنی بر قواعد یا چیزهای دیگری باشد. از دستهبندی آموزشی برای پیشبینی در مجموعه تستی استفاده میشود. زمانی که تشخیص درست شناسایی شدند دستهبندی میتواند مثلاً بر اساس معیار دقت یا معیارهای دیگر مرتب شود و این بهعنوان مشکل یادگیری با ناظر مطرح میشود. زمانی که میزان موفق بودن یک الگوریتم در مشکل یادگیری با ناظر ارزیابی میشود حتماً باید به این نکته توجه کرد که نمونههای آموزشی و تستی باهم همپوشانی نداشته باشند؛ بنابراین بسیاری از تکنیکهای یادگیری ماشین تمایل دارند تا مجموعه آموزشی را overfitting کنند به این معنی که اگر آنها خیلی به جزییات دادهها در نمونههای آموزشی دقیق شوند آنگاه بهخوبی نمیتوانند اسناد جدیدی که تا حالا آنها را ندیدهاند دستهبندی کنند
پس بهطور خلاصه میتوان گفت نمونههای آموزشی برای آموزش سیستم بهمنظور شناخت الگوهای مختلف و نمونههای آزمایشی برای ارزیابی سیستم استفاده میشوند. روشهای زیادی برای دستهبندی وجود دارد ازجملهی این روشها میتوان به درخت تصمیم، الگوریتم k همسایه نزدیک، الگوریتم نیوبیزین، بردار ماشین پشتیبان و شبکههای عصبی است.
درباره امین جلیل زاده رزین
پایه گذار و موسس وب سایت آموزشی پی استور، مدرس دانشگاه فنی و حرفه ای، برنامه نویس و تحلیل گر سیستم، پژوهشگر در حوزه الگوریتم های ابتکاری، فرا ابتکاری، یادگیری ماشین، شبکه و پایگاه داده. ایشان در زبان های برنامه نویسی متعدد، نظیر ++C، سی شارپ، PHP ،Java، متلب MATLAB و Python تسلط و سابقه تدریس فعال دارند.
[…] این مثال ما از یک دیتاست آب و هوا استفاده می […]
[…] این مثال ما از یک دیتاست آب و هوا استفاده می […]
نظرات و دیدگاه های خود را برای هرچه بهتر قرار دادن مطالب با ما در میان بگذارید.