اعتبارسنجی ضربدری Cross Validation

اعتبار سنجی ضربدری ، که گاهی تخمین گردشی نیز نامیده می شود، یک روش ارزیابی است که نتایج یک تحلیل آماری بر روی یک مجموعه ی داده تا چه اندازه قابل تعمیم و مستقل از داده های آموزشی است. این تکنیک به طور ویژه در کاربرد های پیش بینی مورد استفاده قرار می گیرد تا مشخص شود مدل مورد نظر تا چه اندازه در عمل مفید خواهد بود. به طور کلی یک دور از اعتبارسنجی ضربدری شامل افراز داده ها به دو زیر مجموعه مکمل، انجام تحلیل بر روی یکی از آن زیر مجموعه ها (داده های آموزشی) و اعتبار سنجی تحلیل با استفاده از داده های مجموعه ی دیگر است (داده های اعتبار سنجی یا تست).اعتبار ستجی ضربدری یا متقابل ( cross validation ) انواع مختلفی دارد که در ادامه سه نوع از معروفترین و پر کاربردترین انواع آن معرفی می شود: 

k-Fold

در این نوع اعتبار سنجی داده ها به k زیر مجموعه افراز می شوند. از این k زیر مجموعه، هر بار یکی برای اعتبارسنجی و k-1 دیگر برای آموزش بکار می روند. این روال k بار تکرار می شود و همه داده ها  دقیقا یکبار برای آموزش و  یک بار برای اعتبار سنجی بکار می روند. در نهایت میانگین نتیجه این k بار اعتبار سنجی به عنوان یک تخمین نهایی برگزیده می شود. البته می توان از روش های دیگر برای ترکیب نتایج استفاده کرد. در این روش که از دسته روش های فراگیر است اطمینان حاصل می شود همه نمونه ها حداقل یکبار در مجموعه تست قرار گرفته و جز مجموعه آموزش نبوده اند.

در روش k-Fold طبقه ای سعی می شود نسبت داده های هر کلاس در هر زیر مجموعه و در مجموعه اصلی یکسان باشد.

نمونه گیری چندباره  تصادفی random variation

در این نوع اعتبار سنجی مجموعه داده ها به دو زیر مجموعه داده ها به دو زیر مجموعه ی آموزش و تست تقسیم می شود. سپس مدل مورد نظر با استفاده از داده های آموزشی آموزش داده می شود و نتیجه با استفاده از داده های تست اعتبار سنجی می شود. این روال چندین بار تکرار می شود و میانگین نتایج به عنوان تخمین نهایی در نظر گرفته می شود. مزیت این روش آن است که نسبت داده های آموزش و تست  به تعدادتکرارها وابسته نیست بر خلاف روش k-fold  که نعداد تکرارها الزاما ضریبی از  k  می باشد. عیب این روش آن است که بعضی داده ها ممکن است هرگز برای اعتبار سنجی استفاده نشوند و برخی دیگر ممکن است چند بار مورد استفاده قرار گیرند. به عبارت دیگر زیر مجموعه ها می توانند با هم هم پوشانی داشته باشند. این روش در واقع از آزمایشات مونته کارلو می باشد. 

یکی-بیرون  leave one out

همان طور که از اسم این روش پیداست در هر مرحله یکی از داده ها برای اعتبار سنجی بیرون گذاشته می شود و بقیه داده ها برای آموزش استفاده می شوند. این روش در واقع همان روش k-Fold است که در آن k برابر تعداد داده ها در نظر گرفته شده است. این روش از نظر محاسباتی بسیار پر هزینه است زیرا فرآیند آموزش و اعتبارسنجی به تعداد بسیار زیادی تکرار می شود.

https://www.porseshkadeh.com/Question/42019/cross-validation-%DA%86%DB%8C%D8%B3%D8%AA

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.