رگرسیون خطی (Linear Regression)

رگرسیون خطی یا تنازل خطی یا وایازی خطی (Linear regression) یکی از روشهای تحلیل رگرسیون است. در رگرسیون خطی، متغیّر وابسته  ترکیب خطی‌ای از ورودی یا متغیرهای مستقل است. البته ضرورتاً متغیر وابسته لازم نیست که نسبت به متغیرهای مستقل، خطی باشد.

رگرسیون خطی با یک متغیر مستقل

رگرسیون خطی با یک متغیر مستقل

تخمین پارامترها برای مسائل تک متغیره

رگرسیون میزان اثر دو یا چند متغیر بر متغیر وابسته را می‌سنجد و همبستگی رابطه بین دو یا چند متغیر را مورد سنجش قرار می‌دهد.

مثلاً تحلیل رگرسیونی سادهٔ زیر با  نقطه، متغیر مستقل و ضرایب و  خطی است:

خط راست:

در هر دو حالت، مقدار خطاست و پانویس شمارهٔ هر مشاهده (هر جفت و ) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

عبارت مانده نام دارد: . روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن تابع زیر به دست می‌آورند:

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

که در آن و میانگین و  هستند.

تفاوت رگرسیون و همبستگی بر اساس هدف:

هدف مدل‌های همبستگی بررسی میزان رابطه دو یا چند متغیر است در حالیکه رگرسیون به دنبال پیش‌بینی یک یا چند متغیر براساس یک یا چند متغیر دیگر است. از آنجا که رگرسیون برپایه داده‌های گذشته انجام می‌شود به آن عنوان Regression یعنی بازگشت به گذشته داده‌اند؛ بنابراین از نظر هدف همبستگی میزان و شدت رابطه متغیرها را نشان می‌دهد اما رگرسیون معادله ای را برای پیش‌بینی متغیرها ارائه می‌کند.

تفاوت رگرسیون و همبستگی براساس روش:

آنچه در خروجی نتایج رگرسیون و همبستگی باعث ایجاد تفاوت می‌شود آن است که در همبستگی همیشه اثرات متغیرها به صورت دو به دو مورد سنجش قرار می‌گیرد اما در یک مدل رگرسیون اثرات متغیرها به صورت همزمان بررسی می‌شود. یعنی در همبستگی رابطه متغیر X با متغیر Y به وجود یا عدم وجود متغیر Z ارتباطی ندارد اما اما در رگرسیون تأثیر متغیر X بر متغیر Y به وجود یا عدم وجود متغیر Z بستگی دارد.

تخمین پارامترها برای مسائل چند متغیره

صورت مسئله

در بسیاری از مسائل رایج رگرسیون ورودی چند متغیره هست. به عنوان مثال اگر فرض کنیم متغیر ما بُعد دارد، یعنی ، مسئله رگرسیون به یک مسئله بهینه‌سازی برای پیدا کردن پارامتر تبدیل می‌شود. به این معنی که ما یک پارامتر چند متغیره به اسم داریم و سعی می‌کنیم که متغیر وابسته که همان است را با ترکیبی خطی از بردارد ورودیِ ، تخمین بزنیم یعنی . حال اگر یک بعد دیگر به متغیر اضافه کنیم و مقدارش را همیشه عدد ثابت در نظر بگیریم () و را به صورتِ تغییر دهیم، تخمینی که از داریم در واقع ضرب نقطه ای بردار ورودی و بردار پارامترهای ماست یعنی . حال فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم است و این مثالها را به این شکل نمایش دهیم . پارامتر بهینه پارامتری است که یک تابع هزینه را به حداقل برساند و تخمینهایی ما را به متغیر وابسته بسیار نزدیک کند. تابع هزینه را با جمع مربع تفاضل تخمینها با متغیر وابسته تعریف می‌کنیم، به این شکل که ، با این حساب پارامتر بهینه می‌شود:

تخمین پارامتر بهینه از روش کمترین مربعات

در این روش برای بدست آوردن یا همان پارامتر بهینه، از تابع نسبت به گرادیان می‌گیریم و گرادیان را برابر صفر قرار می‌دهیم و پارامتر بهینه را بدست می‌آوریم. از آنجا که تابع نسبت به تابعی کاملاً محدب است، در نقطه مینیمم گرادیان ما صفر خواهد بود و این روش پارامتر بهینه را بدست می‌دهد. برای تسهیل کار شکل تابع را با بکارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داردیم ماتریس و ماتریس . ماتریس ماتریس ورودهای چندمتغیره ماست. هر سطر معادل یک نمونه از داده ماست، سطر ام برابر است با امین نمونه ورودی ما یعنی بردار ، از اینرو یک ماتریس خواهد بود. ماتریس از طرف دیگر برابر است با مجموعه متغیرهای وابسته داده ما. سطر ام این ماتریس برابر است با متغیر وابسته برای }امین نمونه داده ما یا همان . ماتریس یک ماتریس  است. با کمک این دو ماتریس می‌توان تابع هزینه را به شکل ذیل تعریف کرد:

حال گرادیان این تابع را نسبت به  پیدا می‌کنیم که می‌شود:

با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست می‌آید:

پس پارامتر بهینه ما برابر است با:

تخمین پارامتر بهینه از روش گرادیان کاهشی تصادفی (Stochastic Gradient Descent)

روش پارامتر تخمین پارامتر بهینه از طریق کمترین مربعات ممکن است چند اشکال اساسی داشته باشد. یکی آنکه محاسبه ممکن است زمانبر باشد. بُعدِ ماتریس مربعی  برابر است با  و اگر بعد  بالا باشد زمان محاسبه معکوس این ماتریس می‌تواند مسئله ساز شود. مضاف بر این، ماتریس ممکن است معکوس پذیر نباشد. از این رو روشهای کاراتر و سریعتری برای تخمین پارامتر بهینه مورد استفاده قرار می‌گیرد. یکی از این روشها روش گرادیان کاهشی تصادفی است. در این روش هر بار یک مثال را بصورت اتفاقی از نمونه‌های داده انتخاب کرده، گرادیان تابع هزینه را حساب می‌کنیم و کمی در جهت خلاف گرادیان پارامتر را حرکت می‌دهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان می‌دهد، برای بیشترین کاهش موضعی در خلاف جهت گرادیان باید حرکت کرد. اینکار را آنقدر ادامه می‌دهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بجای اینکه داده‌ها را بصورت تصادفی انتخاب کنیم می‌توانیم به ترتیب داده شماره  تا داده شماره  را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را چندین بار تکرار کنیم تا گرادیان تابع به اندازه کافی به صفر نزدیک شود. از لحاظ ریاضی این کار را می‌توان به شکل پایین انجام داد، پارامتر  را در ابتدا بصورت تصادفی مقدار دهی می‌کنیم و بعد برای داده  ام و تمامی ‌ها، یعنی از  تا  تغییر پایین را اعمال می‌کنیم، دراینجا  همان مقداریست که در جهت گرادیان هربار حرکت می‌کنیم و  مشتق جزئی داده ام در بُعد  ام است:

تفسیر احتمالی از طریق درست نمایی بیشینه

برای بدست آوردن پارامتر بهینه  تابع هزینه یعنی  را به حداقل می‌رسانیم. می‌توان به همین پارامتر بهینه از روش درست نمایی بیشینه هم رسید. فرض می‌کنیم که متغیر وابسته یعنی  یک متغیر تصادفی است که مقدارش از یک توزیع طبیعی (توزیع گاوسی) پیروی می‌کند. این توزیع احتمال، واریانس ثابتی به اسم  دارد ولی میانگین آن ترکیبی خطی از متغیرهای مستقل یعنی است. به عبارت دیگر میانگین ما برابر است با . با احتساب میانگین و واریانس توزیع متغیر وابسته ما می‌شود . حال اگر فرض کنیم داده‌های ما نسبت به هم مستقل هستند تابع درست نمایی برای تمام داده‌ها می‌شود:

حال باید به دنبال پارامتری باشیم که این تابع بزرگنمایی را بیشینه کند. از آنجا که تابع لگاریتم مطلقاً صعودیست، بجای بیشینه کردن این تابع لگاریتمش را هم می‌شود بیشنه کرد و پارامتر بهینه را از آن طریق پیدا کرد:

پارامتر بهینه از این طریق برابر است با:

همان‌طور که دیدم پارامتری که را بیشینه می‌کند همان پارامتری است که را به حداقل می‌رساند. این به معنی معادل بودن روش کمترین مربعات با روش درست نمایی بیشنه در رگرسیون خطی است.

تنظیم مدل (Regularization)

پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدلهای خطی مانند رگرسیون خطی یارگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای و هستند. در روش ضریبی از نُرمِ به تابع هزینه اضافه می‌شود و در روش ضریبی از نُرمِ  که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش  تابع هزینه را به این شکل تغییر می‌دهیم:

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.

در تنظیم مدل به روش  تابع هزینه را به این شکل تغییر می‌دهیم:

در روش تنظیم از طریق سعی می‌شود طول اقلیدسی بردار کوتاه نگه داشته شود. در روش و یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدرکوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی پرداخت می‌کنیم. مقدار ایدئال  از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.

تفسیر احتمالی تنظیم مدل

اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید. اگر مجموعه داده را با نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با ، احتمال پسین ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی و احتمال پیشین یعنی :

ازین رو

معادله خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس در نظر بگیریم به معادله پایین می‌رسیم:

با ساده کردن این معادله به این جواب می‌رسیم، در اینجا برابر است با :

همان‌طور که دیدیم جواب همان تنظیم مدل با نرم است.

حال اگر احتمال پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم  خواهیم رسید.

منبع


استفاده از داده‌ها به منظور کشف رابطه بین آن‌ها اساس داده‌کاوی است. یکی از ابزار سنجش رابطه و مدل‌سازی استفاده از ابزار آماری رگرسیون است. امروزه به منظور تحلیل و کشف مدل روی «مه داده» (کلان‌داده | Big Data)، روش‌های مختلف رگرسیون توسعه یافته است. استفاده از تحلیل گرسیونی در علوم مختلف داده‌کاوی، بخصوص مبحث «آموزش ماشین» (Machine Learning)، فیزیک، شیمی و علوم زیستی کاربرد بسیاری دارد.

مفهوم رگرسیون

در آمار، رگرسیون خطی یک روریکرد مدل خطی بین متغیر «پاسخ» (Response) با یک یا چند متغیر «توصیفی» (Explanatory) است. اغلب برای کشف مدل رابطه‌ی خطی بین متغیرها از رگرسیون (Regression) استفاده می‌شود. در این حالت فرض بر این است که یک یا چند متغیر توصیفی که مقدار آن‌ها مستقل از بقیه متغیرها یا تحت کنترل محقق است، می‌تواند در پیش‌بینی متغیر پاسخ که مقدارش وابسته به متغیرهای توصیفی و تحت کنترل محقق نیست، موثر باشد. هدف از انجام تحلیل رگرسیون شناسایی مدل خطی این رابطه‌ است.

در ادامه از  متغیر وابسته به جای متغیر پاسخ و متغیر مستقل به جای متغیر توصیفی استفاده می‌کنیم.

از آنجایی که ممکن است علاوه بر متغیرهای مستقل، عوامل زیاد و ناشناخته‌ دیگری نیز در تعیین مقدار متغیر وابسته نقش داشته باشند، مدل رگرسیونی را با مناسب‌ترین تعداد متغیر مستقل در نظر گرفته و میزان خطا را به عنوان نماینده عوامل تصادفی دیگری که قابل شناسایی نبودند در نظر می‌گیریم که انتظار است کمتر در تغییرات متغیر وابسته نقش داشته باشند.

تاریخچه رگرسیون

واژه رگرسیون برای اولین بار در مقاله‌ معروف فرانسیس گالتون دیده شد که در مورد قد فرزندان و والدینشان بود. این واژه به معنی بازگشت است. او در مقاله خود در سال ۱۸۷۷ اشاره می‌کند که قد فرزندان قد بلند به میانگین قد جامعه میل می‌کند. او این رابطه را «بازگشت» (Regress) نامید.

هر چند واژه رگرسیون در شاخه علوم زیستی معرفی شد ولی آنچه امروزه به نام رگرسیون می‌شناسیم،‌ روشی است که توسط «گاوس» (Gauss) در سال ۱۸۰۹ معرفی شد تا به کمک آن پارامترهای مجهول رابطه بین مدار سیاره‌های منظومه شمسی را برآورد کند.

بعدها روش گاوس توسط پیرسون (Pearson) توسعه یافت و با مفاهیم آماری آمیخته شد. همچنین پیرسون توزیع توام متغیر وابسته و مستقل را توزیع گاوسی در نظر گرفت. بعدها «فیشر» (R. A. Fisher) توزیع متغیر وابسته به شرط متغیر مستقل را توزیع گاوسی محسوب کرد.

مدل رگرسیون خطی ساده

اگر برای شناسایی و پیش‌بینی متغیر وابسته فقط از یک متغیر مستقل استفاده شود، مدل را «رگرسیون خطی ساده» (Simple Linear Regression) می‌گویند. فرم مدل رگرسیون خطی ساده به صورت زیر است:

Y=β۰+β۱X+ϵ

همانطور که دیده می‌شود این رابطه، معادله یک خط است که جمله خطا یا همان ϵ‌ به آن اضافه شده. پارامترهای این مدل خطی عرض از مبدا (β۰) و شیب خط (β۱) است. شیب خط در حالت رگرسیون خطی ساده، نشان می‌دهد که میزان حساسیت متغیر وابسته به متغیر مستقل چقدر است. به این معنی که با افزایش یک واحد به مقدار متغیر مستقل چه میزان متغیر وابسته تغییر خواهد کرد. عرض از مبدا نیز بیانگر مقداری از متغیر وابسته است که به ازاء مقدار متغیر مستقل برابر با صفر محاسبه می‌شود. به شکل دیگر می‌توان مقدار ثابت یا عرض از مبدا را مقدار متوسط متغیر وابسته به ازاء حذف متغیر مستقل در نظر گرفت.

برای مثال فرض کنید کارخانه‌ای می‌خواهد میزان هزینه‌هایش را براساس ساعت کار برآورد کند. شیب خط حاصل از برآورد نشان می‌دهد به ازای یک ساعت افزایش ساعت کاری چه میزان بر هزینه‌هایش افزوده خواهد شد. از طرفی عرض از مبدا خط رگرسیون نیز هزینه ثابت کارخانه حتی زمانی که ساعت کاری نیست نشان می‌دهد. این هزینه را می‌توان هزینه‌های ثابت مانند دستمزد نگهبانان و هزینه روشنایی فضای کارخانه فرض کرد.

گاهی مدل رگرسیونی را بدون عرض از مبدا در نظر می‌گیرند و  β۰=۰ محسوب می‌کنند. این کار به این معنی است که با صفر شدن مقدار متغیر مستقل، مقدار متغیر وابسته نیز باید صفر در نظر گرفته شود. زمانی که محقق مطمئن باشد که که خط رگرسیون باید از مبدا مختصات عبور کند، این گونه مدل در نظر گرفته می‌شود. فرم مدل رگرسیونی در این حالت به صورت زیر است:

Y=β۱X+ϵ

از آنجایی که پیش‌بینی رابطه بین متغیر وابسته و مستقل به شکل دقیق نیست، جمله خطا را یک «متغیر تصادفی» (Random Variable) با میانگین صفر در نظر می‌گیرند تا این رابطه دارای اریبی نباشد.

باید توجه داشت که منظور از رابطه خطی در مدل رگرسیون، وجود رابطه خطی بین ضرایب است نه بین متغیرهای مستقل. برای مثال این مدل y=β۰+β۱×۲+ϵ را نیز می‌توان مدل خطی در نظر گرفت در حالیکه مدل y=β۰xβ۱+ϵ دیگر خطی نیست و به مدل نمایی شهرت دارد.

همچنین در فرضیات این مدل، خطا یک جمله تصادفی است و تغییرات آن مستقل از متغیر X‌ است. به این ترتیب مقدار خطا وابسته به مقدار متغیر مستقل نیست.

در رگرسیون خطی سعی می‌شود، به کمک معادله خطی که توسط روش رگرسیون معرفی می‌شود، برآورد مقدار متغیر وابسته به ازای مقدارهای مختلف متغیر مستقل توسط خط رگرسیون بدست آید. به منظور برآورد پارامترهای مناسب برای مدل، کوشش می‌شود براساس داده‌های موجود، مدلی انتخاب می‌شود که کمترین خطا را داشته باشد.

روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون خطی ساده به کار می‌رود، کمینه کردن مجموع مربعات خطا است. از آنجایی که میانگین مقدارهای خطا صفر در نظر گرفته شده است، می‌دانیم زمانی مجموع مربعات خطا، حداقل ممکن را خواهد داشت که توزیع داده‌ها نرمال باشند. در نتیجه، نرمال بودن داده‌های متغییر وابسته یا باقی‌مانده‌ها یکی از فرضیات مهم برای مدل رگرسیونی خطی ساده است.

شکل زیر به منظور توضیح نرمال بودن مقدار خطا ترسیم شده است. در هر مقدار از متغیر مستقل ممکن است بیش از یک مقدار برای متغیر وابسته مشاهده شود. مقدار پیش‌بینی شده برای هر یک از این مقدارها ثابت است که توسط معادله خط رگرسیون برآورد می‌شود.

برای مثال تعدادی مقدار برای متغیر وابسته براساس مقدار x=65 وجود دارد که شکل توزیع فراوانی آن‌ها به صورت نرمال با میانگین β۰+β۱×۶۵ است. همچنین برای نقطه ۹۰ نیز مقدار پیش‌بینی یا برآورد برای متغیر وابسته به صورت β۰+β۱×۹۰ خواهد بود. در هر دو حالت واریانس خطا یا واریانس مقدارهای پیش‌بینی‌شده (پهنای منحنی زنگی شکل)  ثابت است.

در تصویر زیر چهار نقطه از مشاهدات (x,y) به همراه خط رگرسیون دیده می‌شوند که در آن خط رگرسیون با رنگ آبی، نقطه‌های مربوط به مشاهدات با رنگ قرمز و فاصله هر نقطه از خط رگرسیون (خطای برآورد) با رنگ سبز نشان داده شده است.

 

Linear_least_squares
نمودار نقطه‌ای متغیر مستقل و وابسته،‌ میزان خطا و خط رگرسیون

برای برآورد کردن پارامترهای مدل رگرسیونی باید معادله خطی یافت شود که از بین همه خطوط دیگر دارای کمترین مجموع توان دوم خطا باشد. یعنی ∑ϵ۲ برای آن از بقیه خطوط کمتر باشد.

points_for_linear_regression
خطوط مناسب برای بیان رابطه بین متغیر مستقل و وابسته

به نظر شما در تصویر بالا،‌ کدام خط دارای مجموع مربعات خطای کمتری است؟ امکان تشخیص بهترین خط بدون استفاده از ابزارهای محاسباتی امکان‌پذیر نیست.

برآورد پارامترهای رگرسیون خطی ساده

به منظور برآورد پارامترهای رگرسیون خطی ساده، کافی است تابع مجموع مربعات خطا را کمینه کرد. برای این کار مراحل زیر باید طی شوند:

  • محاسبه مجموع توان دوم خطا

∑(yi−(β^۰+β^۱xi))2

  • مشتق مجموع مربعات خطا برحسب پارامتر β^۰

∑(−yi+β^۰+β^۱xi)

  • برابر قرار دادن مشتق با صفر به منظور پیدا کردن نقاط کمینه

∑(−yi+β^۰+β^۱xi)=0

  • پیدا کردن ریشه برای معادله حاصل برحسب β^۰

β^۰=y¯−β^۱x¯

  • مشتق مجموع مربعات خطا بر حسب پارامتر  β^۱

∑(−۲xiyi+2β^۰xi+2β^۱xi2)

  • جایگذاری β^۰ و پیدا کردن ریشه برای معادله حاصل برحسب β^۱

−∑(xiyi+(y¯−β^۱x¯)∑xi+β^۱∑xi2)=0

β۱^=∑(xi−x¯)(yi−y¯)∑(xi−x¯)۲

به این ترتیب برآورد پارامترهای مدل خطی به صورت زیر خواهند بود.

β۱^=∑(xi−x¯)(yi−y¯)∑(xi−x¯)۲

β۰^=y¯−β۱^x¯

که در آن   و  میانگین x و y هستند.

برای راحتی محاسبات، می‌توان برآورد β۱ را به فرم دیگری نیز نوشت:

β۱^=n(xy¯−x¯y¯))(n−۱)σx2

که منظور از xy¯ میانگین حاصلضرب x و y بوده و σx2 نیز بیانگر واریانس مقدارهای x است.

اگر y^ مقدار برآورد برای متغیر وابسته باشد، می‌توانیم آن را میانگین مشاهدات برای متغیر وابسته به ازای مقدار ثابت متغیر مستقل در نظر گرفت. پس با فرض اینکه میانگین جمله خطا نیز صفر است، خواهیم داشت:

y^=E(Y|X=x)=β۰^+β۱^x

که در آن E(Y|X=x) نشان‌دهنده امید ریاضی (متوسط) شرطی است و همچنین  β۰^ و β^۱ برآوردهای مربوط به هر یک از پارامترها هستند.

نکته: به راحتی دیده می‌شود که میانگین مربوط به متغیر مستقل و وابسته روی خط رگرسیون قرار دارند. یعنی این نقطه در معادله خط رگرسیون صدق می‌کند. زیرا با توجه به محاسبه β۰ داریم:

β۰^=y¯−β۱^x¯→Y¯=β^۰+β^۱X¯

مثال

اطلاعات مربوط به ۵۰ خانه شامل قیمت (به میلیون ریال) و متراژ (متر مربع) در شهر تهران جمع‌آوری شده است. این اطلاعات را می‌توانید با قالب اکسل از اینجا دریافت کنید.

با توجه به ضریب همبستگی بین این دو متغیر که برابر با ۰٫۹۸۹۱ است،‌ مشخص است که رابطه خطی شدیدی بینشان برقرار است. اگر فرض کنیم قیمت خانه متغیری وابسته به متراژ است، محاسبات اولیه برای برآورد پارامترهای مدل رگرسیونی در جدول زیر قرار گرفته.

XY¯ σX2
۸۴٫۹ ۴۵۱٫۱۳۶ ۴۰۳۵۰٫۶ ۴۱۱٫۷۲۴

بر این اساس برآورد پارامترهای مدل خطی به صورت β^۰=۱۹٫۹۶۵ و β^۱=۵٫۰۷۸  خواهد بود. در نتیجه می‌توان معادله مربوط برآورد مقدار متغیر وابسته را به صورت زیر نوشت:

yi^=19.965+5.078xi

پس اگر لازم باشد که ارزش خانه‌ای با متراژ ۶۱ متر محاسبه شود، کافی است در معادله بالا برای xi‌ مقدار ۶۱ را جایگزین کرده،‌ مقدار y^i را بدست آوریم که برابر با ۳۲۹٫۷۵۸ میلیون ریال است. در تصویر زیر نمودار مربوط به داده‌ها و خط رگرسیون دیده می‌شود.

yi^=19.965+5.078(61)=329.758

آزمون مربوط به مدل و پارامترهای آن

بعد از انجام مراحل رگرسیون، با استفاده از جدول «تحلیل واریانس» (Analysis of Variance) می‌توان صحت مدل ایجاد شده و کارایی آن را سنجید. اساس کار در تحلیل واریانس، تجزیه واریانس متغیر وابسته به دو بخش است، بخشی از تغییرات یا پراکندگی که توسط مدل رگرسیونی قابل نمایش است و بخشی که توسط جمله خطا تعیین می‌شود. پس می‌توان رابطه زیر را بر این اساس نوشت.

SST= SSR+SSE

که هر کدام به صورت زیر تعریف شده‌اند:

SST=∑(yi−y¯)۲

مقدار SST را می‌توان مجموع مربعات تفاضل مشاهدات متغیر وابسته با میانگینشان در نظر گرفت که در حقیقت صورت کسر واریانس متغیر وابسته است. این کمیت می‌تواند به دو بخش زیر تفکیک شود.

SSE=∑(yi−y^i)2

شایان ذکر است به مقدار SSE مجموع مربعات خطا نیز گفته می‌شود که در مدل رگرسیون با توجه به کمینه کردن آن پارامترهای مدل بدست آمد. همچنین بخش بعدی با SSR‌ نشان داده می‌شود:

SSR=∑(y^i−y¯)۲

که می‌تواند به عنوان مجموع مربعات تفاضل مقدارهای پیش‌بینی‌شده از میانگینشان نام‌گذاری شود.

در صورتی که مدل رگرسیون مناسب باشد،‌ انتظار داریم سهم SSR از SST زیاد باشد، بطوری که بیشتر تغییرات متغیر وابسته توسط مدل رگرسیون توصیف شود. برای محاسبه واریانس از روی هر یک از مجموع مربعات کافی است حاصل را بر تعداد اعضایشان تقسیم کنیم. به این ترتیب مقدارهای جدیدی به نام «میانگین مربعات خطا» (MSE)،‌ «میانگین مربعات رگرسیون» (MSR) بوجود می‌آیند. به جدول زیر که به جدول تحلیل واریانس معروف است، توجه کنید.

منشاء تغییرات درجه آزادی مجموع مربعات  میانگین مربعات آماره F
رگرسیون k-1 SSR MSR=SSRk−۱ F=MSRMSE
خطا n-k SSE MSE=SSEn−k
کل n-1 SST

درجه آزادی برای رگرسیون که با k-1 نشان داده شده است، یکی کمتر از تعداد پارامترهای مدل (k) است که در رگرسیون خطی ساده برابر با ۱-۲=۱ خواهد بود زیرا پارامترهای مدل در این حالت β۰ و β۱ هستند. تعداد مشاهدات نیز با n نشان داده شده است.

اگر محاسبات مربوط به جدول تحلیل واریانس را برای مثال ذکر شده، انجام دهیم نتیجه مطابق جدول زیر خواهد بود.

منشاء تغییرات درجه آزادی مجموع مربعات  میانگین مربعات آماره F
رگرسیون ۱ ۵۲۰۳۳۸٫۱۷۵۵ ۵۲۰۳۳۸٫۱۷۵۵ F=MSRMSE=520338.1755239.91=2168.89
خطا ۴۸ ۱۱۵۱۵٫۷۱۸۷ ۲۳۹٫۹۱
کل ۴۹ ۵۳۱۸۵۳٫۸۹۴۲

از آنجایی که نسبت میانگین مربعات دارای توزیع آماری F است با مراجعه به جدول این توزیع متوجه می‌شویم که مقدار محاسبه شده برای F بزرگتر از مقدار جدول توزیع F با k−۱‌ و n−k درجه آزادی است، پس مدل رگرسیون توانسته است بیشتر تغییرات متغیر وابسته را در خود جای دهد در نتیجه مدل مناسبی توسط روش رگرسیونی ارائه شده.

گاهی از «ضریب تعیین» (Coefficient of Determination) برای نمایش درصدی از تغییرات که توسط مدل رگرسیونی بیان شده، استفاده می‌شود. ضریب تعیین را با علامت R2 نشان می‌دهند. هر چه ضریب تعیین بزرگتر باشد، نشان‌دهنده موفقیت مدل در پیش‌بینی متغیر وابسته است. در رگرسیون خطی ساده مربع ضریب همبستگی خطی همان ضریب تعیین خواهد بود.

در مثال قبل ضریب تعیین برای مدل رگرسیونی برابر با ۰٫۹۷۸۳‌ است. بنابراین به نظر می‌رسد که مدل رگرسیونی در پیش‌بینی ارزش خانه برحسب متراژ موفق عمل کرده.

نکاتی در مورد رگرسیون خطی ساده

قبل از اتمام کار با مدل رگرسیون نکاتی باید در نظر گرفته شوند. با توجه به تعریف فیشر برای رگرسیون، جمله‌ خطا باید یک متغیر تصادفی با توزیع نرمال باشد. از آنجایی که در انجام محاسبات این فرضیه چک نشده است، باید بعد از محاسبات مربوط به مدل رگرسیون خطی، مقدارهای خطا محاسبه شده و تصادفی بودن و وجود توزیع نرمال برای آن‌ها چک شود.

تصادفی بودن باقی‌مانده‌ها

یک راه ساده، برای چک کردن تصادفی بودن مقدارهای خطا می‌تواند رسم آن‌ها و مقدار پیش‌بینی شده y^ روی یک نمودار باشد، بطوری که مقدارهای پیش‌بینی در محور افقی و مقدارهای خطا در محور عمودی ظاهر شوند. اگر در این نمودار، الگوی خاصی مشاهده نشود می‌توان رای به تصادفی بودن باقی‌مانده داد. منظور از الگوی غیرتصادفی، افزایش یا کاهش مقدار خطا با افزایش یا کاهش مقدارهای پیش‌بینی‌ شده است.

در تصویر زیر این نمودار برای مثال قبلی ترسیم شده است. محور افقی در این نمودار مقدار قیمت خانه و محور عمودی نیز باقی‌مانده‌ها است. همانطور که دیده می‌شود، الگوی خاصی وجود ندارد.

randomness
نمودار نقطه‌ای برای نمایش رابطه بین مقدارهای پیش‌بینی شده و باقی‌مانده‌ها

نرمال بودن باقی‌مانده‌ها

به منظور سنجش نرمال بودن باقی‌مانده‌ها، ترسیم بافت‌نگار می‌تواند ساده‌ترین راه باشد. در تصویر زیر بافت‌نگار مربوط به باقی‌مانده‌های مثال قبل ترسیم شده است. شکل بدست آمده شبیه توزیع نرمال است و به صورت زنگی شکل درآمده.

residuals and normal

البته روش‌ دقیق‌تر، ترسیم نمودار «چندک-چندک» (Q-Q Plot) برای باقی‌مانده‌ها یا مشاهدات y و داده‌های توزیع نرمال است. در زیر نمودار چندک-چندک برای داده‌های مربوط به مثال قبل ترسیم شده است.

qq-plot
نمودار چندک-چندک Q-Q Plot

انتظار داریم در این نمودار، اگر داده‌های مربوط به متغیر وابسته دارای توزیع نرمال باشند، صدک‌های مربوط به آن با صدک‌های تولید شده از توزیع نرمال تقریبا یکسان باشند. اگر این اتفاق بیافتد باید نقاط روی نمودار که نشان‌دهنده زوج‌ صدک‌های تولید شده هستند، روی یک خط راست قرار گیرند. این کار را با مقدارهای خطا نیز می‌توان انجام داد زیرا متغیر وابسته با مقدارهای خطا رابطه خطی دارد. به این منظور چندک‌های توزیع نرمال را با چندک‌های توزیع تجربی باقی‌مانده‌ها مقایسه می‌کنیم. انتظار داریم که نمودار، نشان دهنده یک رابطه مستقیم خطی باشد. در نتیجه می‌توان فرض کرد که باقی‌مانده‌ها دارای توزیع نرمال هستند.

ثابت بودن واریانس

از طرفی واریانس جمله‌ خطا نیز طبق فرضیه‌های اولیه برای مدل رگرسیونی، باید ثابت و برابر با σ۲ باشد. برآورد واریانس برای جمله‌های خطا نیز به صورت زیر است:

σ۲=∑(yi−y^i)2n−۲

مشخص است که مقدار yi بیانگر مقدار مشاهده شده و y^i مقدار پیش‌بینی برای مشاهده iام است. از آنجایی که در برآورد واریانس احتیاج به دو پارامتر مدل رگرسیونی است، دو درجه آزادی از تعداد مشاهدات کم شده است و در مخرج کسر n-2‌ قرار گرفته است.

برای آنکه نشان دهیم واریانس نیز ثابت است از نمودار نقطه‌ای استفاده می‌کنیم که در محور افقی مقدارهای پیش‌بینی‌شده و در محور عمودی نیز مقدار باقی‌مانده‌ها قرار دارد. این نمودار نباید به صورت الگوی افزایشی یا کاهشی باشد. قبلا از این نمودار به منظور چک کردن تصادفی بودن باقی‌مانده‌ها بهره بردیم.

تصویر زیر حالتی را نشان می‌دهد که واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی حالت افزایشی دارد و ثابت نیست.

unequal-residual-variance
افزایشی بودن واریانس باقی‌مانده‌ها

همچنین کاهشی بودن واریانس باقی‌مانده‌ها نسبت به مقدار پیش‌بینی در تصویر زیر دیده می‌شود.

not-equal-variance-type2
نزولی بودن واریانس باقی‌مانده با افزایش مقدار پیش‌بینی

اگر در مدل رگرسیونی باقی‌مانده‌ها نسبت به مقدار پیش‌بینی به طور تصادفی حول نقطه صفر تغییر کند، ثابت بودن واریانس قابل شناسایی است. این حالت در تصویر زیر دیده می‌شود.

equal-variance
ثابت بودن واریانس باقی‌مانده‌ها
منبع

 

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *