نوشته‌ها

تنظیم مدل (Regularization)

پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدلهای خطی مانند رگرسیون خطی یارگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای و هستند. در روش ضریبی از نُرمِ به تابع هزینه اضافه می‌شود و در روش ضریبی از نُرمِ  که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش  تابع هزینه را به این شکل تغییر می‌دهیم:

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.

در تنظیم مدل به روش  تابع هزینه را به این شکل تغییر می‌دهیم:

در روش تنظیم از طریق سعی می‌شود طول اقلیدسی بردار کوتاه نگه داشته شود. در روش و یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدرکوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی پرداخت می‌کنیم. مقدار ایدئال  از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.

تفسیر احتمالی تنظیم مدل

اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید. اگر مجموعه داده را با نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با ، احتمال پسین ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی و احتمال پیشین یعنی :

ازین رو

معادله خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس در نظر بگیریم به معادله پایین می‌رسیم:

با ساده کردن این معادله به این جواب می‌رسیم، در اینجا برابر است با :

همان‌طور که دیدیم جواب همان تنظیم مدل با نرم است.

حال اگر احتمال پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم  خواهیم رسید.

منبع


استفاده از داده‌ها به منظور کشف رابطه بین آن‌ها اساس داده‌کاوی است. یکی از ابزار سنجش رابطه و مدل‌سازی استفاده از ابزار آماری رگرسیون است. امروزه به منظور تحلیل و کشف مدل روی «مه داده» (کلان‌داده | Big Data)، روش‌های مختلف رگرسیون توسعه یافته است. استفاده از تحلیل گرسیونی در علوم مختلف داده‌کاوی، بخصوص مبحث «آموزش ماشین» (Machine Learning)، فیزیک، شیمی و علوم زیستی کاربرد بسیاری دارد.

 

تعریف رگرسیون خطی (Linear Regression) قسمت ۱
تعریف رگرسیون خطی (Linear Regression) قسمت ۲
تعریف رگرسیون خطی (Linear Regression) قسمت ۳
تعریف رگرسیون خطی (Linear Regression) قسمت ۴
تعریف رگرسیون خطی (Linear Regression) قسمت ۵
تعریف رگرسیون خطی (Linear Regression) قسمت ۶
تعریف رگرسیون خطی (Linear Regression) قسمت ۷

رگرسیون خطی یا تنازل خطی یا وایازی خطی (Linear regression) یکی از روشهای تحلیل رگرسیون است. در رگرسیون خطی، متغیّر وابسته  ترکیب خطی‌ای از ورودی یا متغیرهای مستقل است. البته ضرورتاً متغیر وابسته لازم نیست که نسبت به متغیرهای مستقل، خطی باشد.

رگرسیون خطی با یک متغیر مستقل

رگرسیون خطی با یک متغیر مستقل

تخمین پارامترها برای مسائل تک متغیره

رگرسیون میزان اثر دو یا چند متغیر بر متغیر وابسته را می‌سنجد و همبستگی رابطه بین دو یا چند متغیر را مورد سنجش قرار می‌دهد.

مثلاً تحلیل رگرسیونی سادهٔ زیر با  نقطه، متغیر مستقل و ضرایب و  خطی است:

خط راست:

در هر دو حالت، مقدار خطاست و پانویس شمارهٔ هر مشاهده (هر جفت و ) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

عبارت مانده نام دارد: . روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن تابع زیر به دست می‌آورند:

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

که در آن و میانگین و  هستند.

تفاوت رگرسیون و همبستگی بر اساس هدف:

هدف مدل‌های همبستگی بررسی میزان رابطه دو یا چند متغیر است در حالیکه رگرسیون به دنبال پیش‌بینی یک یا چند متغیر براساس یک یا چند متغیر دیگر است. از آنجا که رگرسیون برپایه داده‌های گذشته انجام می‌شود به آن عنوان Regression یعنی بازگشت به گذشته داده‌اند؛ بنابراین از نظر هدف همبستگی میزان و شدت رابطه متغیرها را نشان می‌دهد اما رگرسیون معادله ای را برای پیش‌بینی متغیرها ارائه می‌کند.

تفاوت رگرسیون و همبستگی براساس روش:

آنچه در خروجی نتایج رگرسیون و همبستگی باعث ایجاد تفاوت می‌شود آن است که در همبستگی همیشه اثرات متغیرها به صورت دو به دو مورد سنجش قرار می‌گیرد اما در یک مدل رگرسیون اثرات متغیرها به صورت همزمان بررسی می‌شود. یعنی در همبستگی رابطه متغیر X با متغیر Y به وجود یا عدم وجود متغیر Z ارتباطی ندارد اما اما در رگرسیون تأثیر متغیر X بر متغیر Y به وجود یا عدم وجود متغیر Z بستگی دارد.

تعریف رگرسیون خطی (Linear Regression) قسمت ۱
تعریف رگرسیون خطی (Linear Regression) قسمت ۲
تعریف رگرسیون خطی (Linear Regression) قسمت ۳
تعریف رگرسیون خطی (Linear Regression) قسمت ۴
تعریف رگرسیون خطی (Linear Regression) قسمت ۵
تعریف رگرسیون خطی (Linear Regression) قسمت ۶
تعریف رگرسیون خطی (Linear Regression) قسمت ۷