بایگانی‌های jtsdv hpjlhgd jkzdl lng

تنظیم مدل (Regularization)

پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدلهای خطی مانند رگرسیون خطی یارگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای $L_{1}$ و $L_{2}$ هستند. در روش $L_{1}$ ضریبی از نُرمِ $L_{1}$ به تابع هزینه اضافه می‌شود و در روش $L_{2}$ ضریبی از نُرمِ $L_{2}$ که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش $L_{1}$ تابع هزینه را به این شکل تغییر می‌دهیم:

$L_{r}(D,{\vec {\beta }})=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{1}=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}|\beta _{k}|$

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.

در تنظیم مدل به روش $L_{2}$ تابع هزینه را به این شکل تغییر می‌دهیم:

$L_{r}(D,{\vec {\beta }})=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{2}^{2}=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}\beta _{k}^{2}$

در روش تنظیم از طریق $L_{2}$ سعی می‌شود طول اقلیدسی بردار ${\vec {\beta }}$ کوتاه نگه داشته شود. $\lambda$ در روش $L_{1}$ و $L_{2}$ یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدر $\lambda$ کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی ${\vec {\beta }}$ پرداخت می‌کنیم. مقدار ایدئال $\lambda$ از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.

تفسیر احتمالی تنظیم مدل

اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید. اگر مجموعه داده را با $D$ نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با ${\vec {\beta }}$ ، احتمال پسین $Pr\left({\vec {\beta }}\,|\,D\right)$ ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی $Pr\left(D\,|\,{\vec {\beta }}\right)$ و احتمال پیشین یعنی $Pr\left({\vec {\beta }}\right)$ :

$Pr\left({\vec {\beta }}\,|\,D\right)={\frac {Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)}{Pr\left(D\right)}}$

ازین رو

$argmax_{\vec {\beta }}Pr\left({\vec {\beta }}\,|\,D\right)=argmax_{\vec {\beta }}{\frac {Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)}{Pr\left(D\right)}}=argmax_{\vec {\beta }}Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)$

معادله خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس $\tau ^{2}I$ در نظر بگیریم به معادله پایین می‌رسیم:

$argmax_{\vec {\beta }}\,\,\log Pr\left(D\,|\,{\vec {\beta }}\right)=argmax_{\vec {\beta }}\,\,\log \prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )Pr\left({\vec {\beta }}\right)=argmax_{\vec {\beta }}\,\,\log \prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}exp\left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right){\frac {1}{{\sqrt {2\pi }}\tau }}exp\left(-{\frac {||{\vec {\beta }}||^{2}}{2\tau ^{2}}}\right)$

با ساده کردن این معادله به این جواب می‌رسیم، در اینجا $\lambda$ برابر است با ${\frac {\sigma ^{2}}{\tau ^{2}}}$ : $argmax_{\vec {\beta }}\,\,Pr\left(D\,|\,{\vec {\beta }}\right)=argmax_{\vec {\beta }}\left(n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}+\log {\frac {1}{{\sqrt {2\pi }}\tau }}-{\frac {1}{2\tau ^{2}}}||{\vec {\beta }}||^{2}\right)=argmin_{\vec {\beta }}\left(\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}+\lambda ||{\vec {\beta }}||^{2}\right)$

همان‌طور که دیدیم جواب همان تنظیم مدل با نرم $L_{2}$ است.

حال اگر احتمال پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم $L_{1}$ خواهیم رسید.

منبع

استفاده از داده‌ها به منظور کشف رابطه بین آن‌ها اساس داده‌کاوی است. یکی از ابزار سنجش رابطه و مدل‌سازی استفاده از ابزار آماری رگرسیون است. امروزه به منظور تحلیل و کشف مدل روی «مه داده» (کلان‌داده | Big Data)، روش‌های مختلف رگرسیون توسعه یافته است. استفاده از تحلیل گرسیونی در علوم مختلف داده‌کاوی، بخصوص مبحث «آموزش ماشین» (Machine Learning)، فیزیک، شیمی و علوم زیستی کاربرد بسیاری دارد.

تعریف رگرسیون خطی (Linear Regression) قسمت 1
تعریف رگرسیون خطی (Linear Regression) قسمت 2
تعریف رگرسیون خطی (Linear Regression) قسمت 3
تعریف رگرسیون خطی (Linear Regression) قسمت 4
تعریف رگرسیون خطی (Linear Regression) قسمت 5
تعریف رگرسیون خطی (Linear Regression) قسمت 6
تعریف رگرسیون خطی (Linear Regression) قسمت 7

بایگانی برچسب برای: jtsdv hpjlhgd jkzdl lng

تعریف رگرسیون خطی (Linear Regression) قسمت 3

تنظیم مدل (Regularization)

تفسیر احتمالی تنظیم مدل

تلفن های تماس:

ساعات کاری

پیوند ها :

محصولات :