تحلیل رگرسیون
تحلیل رگرسیون داده روشی برای مدلسازی و تحلیل دادههای عددی است. دادهها شامل مقدارهایی برای متغیر وابسته و یک یا چند متغیر مستقل هستند. هدف از تحلیل رگرسیون، بیان متغیر وابسته به شکل تابعی از متغیر(های) مستقل، ضرایب، و مقدارهای خطا است. مقدارهای خطا متغیرهای تصادفیای هستند که تغییرات توضیحدادهنشده در مقدار متغیرهای مستقل را نشان میدهند.

در این روش، ضرایب به گونهای تعیین میشوند که بهترین برازش (fit) را به دادهها داشته باشند. معمولاً بهترین برازش را با روش کمترین مربعات مییابند، هرچند که روشهای دیگری هم وجود دارد.

تحلیل رگرسیون برای پیشبینی مقادیر آیندهٔ متغیر وابسته، آزمودن نظریهها، و تحلیل پدیدهشناختی پدیدهها به کار میرود. این تحلیل تنها وقتی معتبر است که پیشفرضهایش برآورده شوند. از تحلیل رگرسیون به خاطر استفادههای نابهجایی که به خاطر برآوردهنشدن این پیشفرضها از آن شده است، انتقاد کردهاند.

یک انتقاد مهم به این روش این است که با آن به آسانی میتوان دادهها را به یک مدل برازش کرد، ولی بهچالش کشیدن مدل با این روش کار آسانی نیست.


رگرسیون خطی

در رگرسیون خطی، متغیر وابسته yi ترکیب خطیای خطی از ضرایب (پارامترها) است (لازم نیست که نسبت به متغیرهای مستقل خطی باشد). مثلاً تحلیل رگرسیونی سادهٔ زیر با N نقطه، متغیر مستقل xi و ضرایب β0 و β1 خطی است:

خط راست:

در رگرسیون چندگانه، بیش از یک متغیر مستقل وجود دارد:


سهمی:


این همچنان رگرسیون خطی است، زیرا yi همچنان ترکیب خطی پارامترها (β0 و β1) است، هرچند که نسبت به متغیر مستقل (xi) خطی نیست.


در هر دو حالت، εi مقدار خطاست و پانویس i شمارهٔ هر مشاهده (هر جفت xi و yi) را نشان میدهد. با داشتن مجموعهای از این نقطهها میتوان مدل را به دست آورد:




عبارت ei مانده نام دارد:
. روش رایج برای بهدستآوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینهکردن تابع زیر به دست میآورند:



در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:




که در آن
و میانگین x و y هستند.