برآورد پارامترهای رگرسیون خطی ساده
به منظور برآورد پارامترهای رگرسیون خطی ساده، کافی است تابع مجموع مربعات خطا را کمینه کرد. برای این کار مراحل زیر باید طی شوند:
- محاسبه مجموع توان دوم خطا
∑(yi−(β^0+β^1xi))2
- مشتق مجموع مربعات خطا برحسب پارامتر β^0
∑(−yi+β^0+β^1xi)
- برابر قرار دادن مشتق با صفر به منظور پیدا کردن نقاط کمینه
∑(−yi+β^0+β^1xi)=0
- پیدا کردن ریشه برای معادله حاصل برحسب β^0
β^0=y¯−β^1x¯
- مشتق مجموع مربعات خطا بر حسب پارامتر β^1
∑(−2xiyi+2β^0xi+2β^1xi2)
- جایگذاری β^0 و پیدا کردن ریشه برای معادله حاصل برحسب β^1
−∑(xiyi+(y¯−β^1x¯)∑xi+β^1∑xi2)=0
β1^=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2
به این ترتیب برآورد پارامترهای مدل خطی به صورت زیر خواهند بود.
β1^=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2
β0^=y¯−β1^x¯
که در آن x¯ و y¯ میانگین x و y هستند.
برای راحتی محاسبات، میتوان برآورد β1 را به فرم دیگری نیز نوشت:
β1^=n(xy¯−x¯y¯))(n−1)σx2
که منظور از xy¯ میانگین حاصلضرب x و y بوده و σx2 نیز بیانگر واریانس مقدارهای x است.
اگر y^ مقدار برآورد برای متغیر وابسته باشد، میتوانیم آن را میانگین مشاهدات برای متغیر وابسته به ازای مقدار ثابت متغیر مستقل در نظر گرفت. پس با فرض اینکه میانگین جمله خطا نیز صفر است، خواهیم داشت:
y^=E(Y|X=x)=β0^+β1^x
که در آن E(Y|X=x) نشاندهنده امید ریاضی (متوسط) شرطی است و همچنین β0^ و β^1 برآوردهای مربوط به هر یک از پارامترها هستند.
نکته: به راحتی دیده میشود که میانگین مربوط به متغیر مستقل و وابسته روی خط رگرسیون قرار دارند. یعنی این نقطه در معادله خط رگرسیون صدق میکند. زیرا با توجه به محاسبه β0 داریم:
β0^=y¯−β1^x¯→Y¯=β^0+β^1X¯
مثال
اطلاعات مربوط به ۵۰ خانه شامل قیمت (به میلیون ریال) و متراژ (متر مربع) در شهر تهران جمعآوری شده است. این اطلاعات را میتوانید با قالب اکسل از اینجا دریافت کنید.
با توجه به ضریب همبستگی بین این دو متغیر که برابر با 0.9891 است، مشخص است که رابطه خطی شدیدی بینشان برقرار است. اگر فرض کنیم قیمت خانه متغیری وابسته به متراژ است، محاسبات اولیه برای برآورد پارامترهای مدل رگرسیونی در جدول زیر قرار گرفته.
X¯ | Y¯ | XY¯ | σX2 |
84.9 | 451.136 | 40350.6 | 411.724 |
بر این اساس برآورد پارامترهای مدل خطی به صورت β^0=19.965 و β^1=5.078 خواهد بود. در نتیجه میتوان معادله مربوط برآورد مقدار متغیر وابسته را به صورت زیر نوشت:
yi^=19.965+5.078xi
پس اگر لازم باشد که ارزش خانهای با متراژ 61 متر محاسبه شود، کافی است در معادله بالا برای xi مقدار 61 را جایگزین کرده، مقدار y^i را بدست آوریم که برابر با 329.758 میلیون ریال است. در تصویر زیر نمودار مربوط به دادهها و خط رگرسیون دیده میشود.
yi^=19.965+5.078(61)=329.758
تعریف رگرسیون خطی (Linear Regression) قسمت 1
تعریف رگرسیون خطی (Linear Regression) قسمت 2
تعریف رگرسیون خطی (Linear Regression) قسمت 3
تعریف رگرسیون خطی (Linear Regression) قسمت 4
تعریف رگرسیون خطی (Linear Regression) قسمت 5
تعریف رگرسیون خطی (Linear Regression) قسمت 6
تعریف رگرسیون خطی (Linear Regression) قسمت 7