تعیین وجود چند خطی. تعریف چند خطی مفاهیم نظری چند خطی بودن به صورت کلی

هنگام ساخت یک معادله رگرسیون چندگانه، ممکن است مشکل چند خطی بودن عوامل ایجاد شود. چند خطییک رابطه خطی بین دو یا چند متغیر توضیحی است که می تواند خود را به صورت عملکردی (صریح) یا تصادفی (مخفی) نشان دهد.
شناسایی رابطه بین ویژگی های انتخاب شده و ارزیابی کمی نزدیکی اتصال با استفاده از روش های تحلیل همبستگی انجام می شود. برای حل این مسائل، ابتدا تخمین زده می شود، سپس بر اساس آن، همبستگی جزئی و چندگانه و ضرایب تعیین تعیین و اهمیت آنها بررسی می شود. هدف نهایی تجزیه و تحلیل همبستگی، انتخاب ویژگی های عاملی x 1، x 2، ...، x m برای ساخت بیشتر معادله رگرسیون است.

اگر متغیرهای عامل با یک وابستگی عملکردی شدید به هم متصل شوند، ما از آن صحبت می کنیم چند خطی کامل. در این حالت، در میان ستون های ماتریس متغیرهای عامل ایکسستون‌های وابسته خطی وجود دارد، و با خاصیت تعیین‌کننده‌های ماتریس، det(X T X) = 0، یعنی ماتریس (X T X) منفرد است، به این معنی که ماتریس معکوس وجود ندارد. ماتریس (X T X) -1 در ساخت تخمین OLS استفاده می شود. بنابراین، چند خطی کامل به ما اجازه نمی دهد که پارامترهای مدل رگرسیون اصلی را به طور واضح تخمین بزنیم.

چند خطی بودن عوامل موجود در مدل منجر به چه مشکلاتی می شود و چگونه می توان آنها را حل کرد؟

چند خطی می تواند منجر به پیامدهای نامطلوب شود:

  1. تخمین پارامترها غیر قابل اعتماد می شوند. آنها خطاهای استاندارد بزرگی را پیدا می کنند. با تغییر حجم مشاهدات، تخمین‌ها (نه تنها از نظر بزرگی، بلکه در علامت) تغییر می‌کنند که مدل را برای تحلیل و پیش‌بینی نامناسب می‌کند.
  2. تفسیر پارامترهای رگرسیون چندگانه به عنوان ویژگی های عملکرد عوامل به شکل "خالص" دشوار می شود، زیرا عوامل همبستگی دارند. پارامترهای رگرسیون خطی معنای اقتصادی خود را از دست می دهند.
  3. تعیین تأثیر مجزای عوامل بر یک شاخص عملکرد غیرممکن می شود.

نوع چند خطی بودن که در آن متغیرهای عامل با مقداری وابستگی تصادفی به هم مرتبط می شوند، نامیده می شود. جزئي.اگر درجه بالایی از همبستگی بین متغیرهای عامل وجود داشته باشد، ماتریس (X T X) نزدیک به انحطاط است، یعنی det (X T X) ≈ 0.
ماتریس (X T X) -1 دارای شرایط نامناسب خواهد بود، که منجر به بی ثباتی تخمین OLS می شود. چند خطی جزئی منجر به پیامدهای زیر می شود:

  • افزایش واریانس تخمین پارامترها تخمین فاصله را گسترش می دهد و دقت آنها را بدتر می کند.
  • نزول کردن تی-آمار ضرایب منجر به نتیجه گیری نادرست در مورد اهمیت عوامل می شود.
  • بی ثباتی تخمین OLS و واریانس آنها

هیچ معیار کمی دقیقی برای تشخیص چند خطی جزئی وجود ندارد. وجود چند خطی را می توان با نزدیکی عامل تعیین کننده ماتریس (X T X) به صفر نشان داد. مقادیر ضرایب همبستگی زوجی نیز مورد بررسی قرار می گیرد. اگر تعیین کننده ماتریس همبستگی بین فاکتور نزدیک به یک باشد، آنگاه چند خطی وجود ندارد.

رویکردهای مختلفی برای غلبه بر همبستگی بین فاکتور قوی وجود دارد. ساده ترین آنها حذف عامل (یا عوامل) که بیشترین نقش را در چند خطی بودن دارند از مدل است، مشروط بر اینکه کیفیت مدل به طور ناچیز آسیب ببیند (یعنی ضریب تئوری تعیین -R 2 y(x1...xm ) به طور ناچیز کاهش می یابد) .

چه معیاری را نمی توان برای حذف چند خطی استفاده کرد؟
الف) افزایش حجم نمونه؛
ب) به استثنای متغیرهایی که همبستگی بالایی با سایر متغیرها دارند.
ج) تغییر در مشخصات مدل؛
د) تبدیل مولفه تصادفی.

ضرایب همبستگی جفتی (خطی) و جزئی

نزدیکی اتصال، به عنوان مثال، بین متغیرهای x و y برای نمونه ای از مقادیر (x i, y i), i=1,n, (1)
که در آن x و y مقادیر متوسط ​​هستند، S x و S y انحرافات استاندارد نمونه های مربوطه هستند.

ضریب همبستگی زوجی از 1- تا 1+ متغیر است. هر چه قدر مطلق به وحدت نزدیکتر باشد، رابطه آماری بین x و y به یک تابعی خطی نزدیکتر است. مقدار مثبت ضریب نشان می دهد که رابطه بین ویژگی ها مستقیم است (با افزایش x، مقدار y افزایش می یابد)، مقدار منفی نشان می دهد که رابطه معکوس است (هر چه x افزایش می یابد، مقدار y کاهش می یابد).
ما می توانیم تفسیر کیفی زیر را از مقادیر ممکن ضریب همبستگی ارائه دهیم: اگر |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
برای ارزیابی چند خطی بودن عوامل، از ماتریس ضرایب همبستگی زوجی از مشخصه وابسته (نتیجه ای) y با ویژگی های عاملی x 1، x 2، ...، x m استفاده کنید، که به شما امکان می دهد میزان تأثیر هر شاخص عامل x j را بر روی آن ارزیابی کنید. متغیر وابسته y و همچنین نزدیکی روابط بین عوامل. ماتریس همبستگی در حالت کلی شکل دارد
.
ماتریس متقارن است؛ مواردی در مورب آن وجود دارد. اگر ماتریس دارای ضریب همبستگی بین فاکتور r xjxi > 0.7 باشد، در این مدل رگرسیون چندگانه چند خطی وجود دارد.
از آنجایی که داده‌های منبعی که از آن رابطه ویژگی‌ها برقرار می‌شود، نمونه‌ای از یک جامعه عمومی خاص است، ضرایب همبستگی محاسبه‌شده از این داده‌ها انتخابی خواهند بود، یعنی فقط رابطه را تخمین می‌زنند. یک آزمون معناداری مورد نیاز است که به این سؤال پاسخ می دهد: آیا نتایج محاسبات به دست آمده تصادفی هستند یا خیر؟
اهمیت ضرایب همبستگی زوجیبررسی کنید t-آزمون تی دانشجویی فرضیه ای مطرح می شود که ضریب همبستگی کلی برابر با صفر است: H 0: ρ = 0. سپس پارامترها تنظیم می شوند: سطح معناداری α و تعداد درجات آزادی v = n-2. با استفاده از این پارامترها، tcr از جدول نقاط بحرانی توزیع Student پیدا شده و از داده های موجود محاسبه می شود. مقدار معیار مشاهده شده:
, (2)
جایی که r ضریب همبستگی زوجی است که از داده های انتخاب شده برای مطالعه محاسبه می شود. ضریب همبستگی زوجی معنی دار در نظر گرفته می شود (فرضیه ضریب برابر با صفر رد می شود) با احتمال اطمینان γ = 1- α، اگر مدول t Obs بزرگتر از t crit باشد.
اگر متغیرها با یکدیگر همبستگی داشته باشند، مقدار ضریب همبستگی تا حدی تحت تأثیر سایر متغیرها قرار می گیرد.

ضریب همبستگی جزئینزدیکی رابطه خطی بین نتیجه و عامل مربوطه را هنگام از بین بردن تأثیر عوامل دیگر مشخص می کند. ضریب همبستگی جزئی نزدیکی رابطه بین دو متغیر را با مقدار ثابتی از عوامل دیگر ارزیابی می کند. اگر محاسبه شود مثلا r yx 1| x2 (ضریب همبستگی جزئی بین y و x 1 با تأثیر ثابت x 2)، به این معنی است که یک معیار کمی از رابطه خطی بین y و x 1 تعیین می شود که اگر تأثیر x 2 بر این ویژگی ها باشد، رخ می دهد. حذف شده است. اگر تأثیر تنها یک عامل حذف شود، دریافت می کنیم ضریب همبستگی مرتبه اول جزئی.
مقایسه مقادیر ضرایب همبستگی جفتی و جزئی جهت تأثیر عامل ثابت را نشان می دهد. اگر ضریب همبستگی جزئی r yx 1| x2 کمتر از ضریب جفت مربوطه r yx 1 خواهد بود، به این معنی که رابطه بین ویژگی های y و x 1 تا حدی با تأثیر متغیر ثابت x 2 بر روی آنها تعیین می شود. برعکس، مقدار بزرگتر ضریب جزئی در مقایسه با ضریب جفت نشان می دهد که متغیر ثابت x 2 با تأثیر خود رابطه بین y و x 1 را ضعیف می کند.
ضریب همبستگی جزئی بین دو متغیر (y و x 2) هنگام حذف تأثیر یک عامل (x1) را می توان با استفاده از فرمول زیر محاسبه کرد:
. (3)
برای سایر متغیرها، فرمول ها به روشی مشابه ساخته می شوند. در x2 ثابت
;
در x 3 ثابت
.
اهمیت ضرایب همبستگی جزئی به طور مشابه در مورد ضرایب همبستگی جفت بررسی می شود. تنها تفاوت در تعداد درجات آزادی است که باید برابر با v = n – l -2 در نظر گرفته شود که l تعداد فاکتورهای ثابت است.

رگرسیون گام به گام

انتخاب عوامل x 1 , x 2 , …, x m موجود در مدل رگرسیون چندگانه یکی از مهم ترین مراحل مدل سازی اقتصادسنجی است. روش گنجاندن (یا حذف) متوالی (گام به گام) عوامل در مدل به شما این امکان را می دهد که از بین مجموعه ای از متغیرهای ممکن دقیقاً آنهایی را انتخاب کنید که کیفیت مدل را افزایش می دهند.
هنگام اجرای روش، اولین قدم محاسبه ماتریس همبستگی است. بر اساس ضرایب همبستگی زوجی، وجود فاکتورهای خطی آشکار می شود. اگر r xjxi > 0.7 باشد، فاکتورهای x i و x j به صورت خطی در نظر گرفته می شوند. تنها یکی از عوامل مرتبط به هم در مدل گنجانده شده است. اگر عوامل هم خطی در بین عوامل وجود نداشته باشد، هر عاملی که تأثیر قابل توجهی بر آن دارد y.

در مرحله دوم، یک معادله رگرسیون با یک متغیر ساخته می‌شود که حداکثر مقدار مطلق ضریب همبستگی زوجی با ویژگی حاصل را دارد.

در مرحله سوم، یک متغیر جدید به مدل معرفی می‌شود که دارای بیشترین مقدار مطلق ضریب همبستگی جزئی با متغیر وابسته با تأثیر ثابت متغیر معرفی‌شده قبلی است.
هنگامی که یک عامل اضافی به مدل وارد می شود، ضریب تعیین باید افزایش یابد و واریانس باقیمانده باید کاهش یابد. اگر این اتفاق نیفتد، یعنی ضریب تعیین چندگانه اندکی افزایش یابد، آنگاه معرفی یک عامل جدید نامناسب تلقی می شود.

مثال شماره 1. برای 20 شرکت در منطقه، وابستگی تولید به ازای هر کارمند y (هزار روبل) به سهم کارگران بسیار ماهر در تعداد کل کارگران x1 (٪ از ارزش دارایی ها در پایان سال) و به راه اندازی دارایی های ثابت جدید x2 (%) مورد مطالعه قرار گرفته است.

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

ضروری:

  1. یک میدان همبستگی بین تولید به ازای هر کارگر و سهم کارگران بسیار واجد شرایط ایجاد کنید. فرضیه ای در مورد نزدیکی و نوع رابطه بین شاخص های X1 و Y مطرح کنید.
  2. نزدیکی رابطه خطی بین تولید به ازای هر کارگر و نسبت کارگران بسیار واجد شرایط را با قابلیت اطمینان 0.9 ارزیابی کنید.
  3. ضرایب معادله رگرسیون خطی برای وابستگی تولید به ازای هر کارگر به سهم کارگران بسیار واجد شرایط را محاسبه کنید.
  4. اهمیت آماری پارامترهای معادله رگرسیون را با پایایی 9/0 بررسی کنید و برای آنها فواصل اطمینان بسازید.
  5. ضریب تعیین را محاسبه کنید. با استفاده از آزمون F فیشر، اهمیت آماری معادله رگرسیون را با پایایی 9/0 ارزیابی کنید.
  6. برای شرکتی که 24 درصد کارگران آن واجد شرایط هستند، یک پیش‌بینی نقطه و فاصله با قابلیت اطمینان 0.9 خروجی به ازای هر کارمند ارائه دهید.
  7. ضرایب معادله رگرسیون چندگانه خطی را محاسبه کرده و معنای اقتصادی پارامترهای آن را توضیح دهید.
  8. اهمیت آماری ضرایب معادله چندگانه با پایایی 0.9 را تجزیه و تحلیل کنید و فواصل اطمینان را برای آنها بسازید.
  9. ضرایب همبستگی جفت و جزئی را پیدا کنید. آنها را تحلیل کنید.
  10. ضریب تعدیل تعین چندگانه را بیابید. آن را با ضریب تعیین تعدیل نشده (کلی) مقایسه کنید.
  11. با استفاده از آزمون F فیشر، کفایت معادله رگرسیون را با پایایی 9/0 ارزیابی کنید.
  12. برای شرکتی که 24 درصد از کارگران آن واجد شرایط عالی هستند و راه اندازی دارایی های ثابت جدید 5 درصد است، یک پیش بینی نقطه و فاصله با قابلیت اطمینان 0.9 خروجی به ازای هر کارمند ارائه دهید.
  13. معادله ساخته شده را برای وجود چند خطی بودن با استفاده از: آزمون دانشجویی بررسی کنید. تست χ2. نتایج را مقایسه کنید.

راه حلما این کار را با استفاده از ماشین حساب انجام می دهیم. پیشرفت حل بند 13 در زیر آمده است.
ماتریس ضرایب همبستگی جفتی R:

- yx 1x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

در حضور چند خطی، تعیین کننده ماتریس همبستگی نزدیک به صفر است. برای مثال ما: det = 0.00081158، که نشان دهنده وجود چند خطی قوی است.
برای انتخاب مهم ترین عوامل x i، شرایط زیر در نظر گرفته می شود:
- ارتباط بین مشخصه حاصل و عامل یک باید بالاتر از اتصال بین فاکتور باشد.
- رابطه بین عوامل نباید بیشتر از 0.7 باشد. اگر ماتریس دارای ضریب همبستگی رابط r xjxi > 0.7 باشد، در این مدل رگرسیون چندگانه چند خطی وجود دارد.
- با اتصال بین فاکتوری بالای یک مشخصه، عواملی با ضریب همبستگی کمتر بین آنها انتخاب می شوند.
در مورد ما، r x 1 x 2 دارای |r|> 0.7 است که نشان دهنده چند خطی بودن عوامل و نیاز به حذف یکی از آنها از تجزیه و تحلیل بیشتر است.
تجزیه و تحلیل ردیف اول این ماتریس امکان انتخاب ویژگی های عاملی را فراهم می کند که می تواند در مدل همبستگی چندگانه گنجانده شود. ویژگی های عاملی که |r yxi | 0.3 - عملا هیچ ارتباطی وجود ندارد. 0.3 ≤ |r| ≤ 0.7 - اتصال متوسط؛ 0.7 ≤ |r| ≤ 0.9 - اتصال قوی؛ |r| > 0.9 - اتصال بسیار قوی است.
بیایید اهمیت ضرایب همبستگی زوجی به دست آمده را با استفاده از آزمون t-استودنت بررسی کنیم. ضرایبی که مقادیر مدول آمار t برای آنها بیشتر از مقدار بحرانی یافت شده است، معنی دار در نظر گرفته می شوند.
اجازه دهید مقادیر مشاهده شده آماره t را برای r yx 1 با استفاده از فرمول محاسبه کنیم:

که m = 1 تعداد عوامل موجود در معادله رگرسیون است.

با استفاده از جدول Student، Ttable را پیدا می کنیم
t crit (n-m-1;α/2) = (18;0.025) = 2.101
از آنجایی که t obs > t crit، این فرضیه که ضریب همبستگی برابر با 0 است را رد می کنیم. به عبارت دیگر ضریب همبستگی از نظر آماری معنادار است
بیایید مقادیر مشاهده شده آماره t را برای r yx 2 با استفاده از فرمول محاسبه کنیم:

از آنجایی که t obs > t crit، این فرضیه که ضریب همبستگی برابر با 0 است را رد می کنیم. به عبارت دیگر ضریب همبستگی از نظر آماری معنادار است
بنابراین، رابطه بین (y و x x 1)، (y و x x 2) معنادار است.
ضریب x2 (r = 0.99) بیشترین تأثیر را بر ویژگی مؤثر دارد، به این معنی که هنگام ساخت مدل، اولین کسی است که وارد معادله رگرسیون می شود.
آزمایش و حذف چند خطی.
کاملترین الگوریتم برای مطالعه چند خطی الگوریتم فارار-گلوبر است. سه نوع چند خطی را آزمایش می کند:
1. همه عوامل (χ 2 - chi-square).
2. هر عامل با دیگران (معیار فیشر).
3. هر جفت عامل (تست دانشجویی).
بیایید متغیرها را برای چند خطی بودن با استفاده از روش فارار-گلوبر با استفاده از معیارهای آماری نوع اول (آزمون کای اسکوئر) بررسی کنیم.
فرمول محاسبه مقدار آماره Farrar-Glouber به صورت زیر است:
χ 2 = -ln(det[R])
که در آن m = 2 تعداد عوامل، n = 20 تعداد مشاهدات، det[R] تعیین کننده ماتریس ضرایب همبستگی زوجی R است.
ما آن را با مقدار جدول در v = m/2 (m-1) = 1 درجه آزادی و سطح اهمیت α مقایسه می کنیم. اگر χ 2 > χ جدول 2 باشد، در بردار عوامل چند خطی وجود دارد.
χ جدول 2 (1; 0.05) = 3.84146
بیایید متغیرها را برای چند خطی بودن با استفاده از معیارهای آماری نوع دوم (آزمون فیشر) بررسی کنیم.

بیایید با استفاده از معیارهای آماری نوع سوم (آزمون دانشجویی) متغیرها را برای چند خطی بودن بررسی کنیم. برای انجام این کار، ضرایب همبستگی جزئی را خواهیم یافت.
ضرایب همبستگی جزئی.
ضریب همبستگی جزئی با ضریب همبستگی جفت خطی ساده تفاوت دارد زیرا همبستگی زوجی مشخصه های مربوطه (y و x i) را اندازه می گیرد، مشروط بر اینکه تأثیر عوامل دیگر (xj) بر آنها حذف شود.
بر اساس ضرایب جزئی می توان نتیجه گرفت که گنجاندن متغیرها در مدل رگرسیونی موجه است. اگر مقدار ضریب کوچک یا ناچیز باشد، به این معنی است که رابطه بین این عامل و متغیر نتیجه یا بسیار ضعیف است یا به طور کامل وجود ندارد، بنابراین می توان آن عامل را از مدل حذف کرد.


تراکم ارتباط کم است.
اجازه دهید اهمیت ضریب همبستگی r yx 1 / x 2 را تعیین کنیم. همانطور که می بینیم، ارتباط بین y و x 2، به شرط اینکه x 1 در مدل گنجانده شود، کاهش یافته است. از این می توان نتیجه گرفت که وارد کردن x 2 در معادله رگرسیون نامناسب باقی می ماند.
می توان نتیجه گرفت که هنگام ساخت یک معادله رگرسیون، عوامل x 1، x 2 باید انتخاب شوند.

مثال شماره 2. برای 30 مشاهده، ماتریس ضرایب همبستگی زوجی به شرح زیر است:

yx 1x 2x 3
y1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
چند خطی بودن عوامل را ارزیابی کنید. یک معادله رگرسیون در مقیاس استاندارد بسازید و نتیجه بگیرید.
  • 4. برآورد آماری پارامترهای PLR با استفاده از روش حداقل مربعات. خواص برآورد حداقل مربعات
  • خواص تخمین حداقل مربعات:
  • 5. بررسی کیفیت رگرسیون خطی چندگانه: اهمیت پارامترها، فواصل اطمینان، کفایت مدل. پیش بینی.
  • 6. رگرسیون خطی چندگانه (MLR). مفروضات کلاسیک تخمین OLS پارامترهای مدل.
  • 7. خواص تخمین OLS رگرسیون خطی چندگانه. قضیه گاوس مارکوف.
  • 8. بررسی کیفیت رگرسیون خطی چندگانه: اهمیت پارامترها، فواصل اطمینان، کفایت مدل. پیش بینی.
  • 5. ضریب تعیین ها
  • پیش بینی با استفاده از مدل رگرسیون خطی چندگانه
  • 9. مشخصات یک مدل اقتصادسنجی: روش ها و تشخیص برای انتخاب متغیرهای برون زا. تست رمزی و آمیمیا
  • معیار رمزی:
  • 10. مشخصات مدل اقتصادسنجی: انتخاب شکل وابستگی مدل غیرخطی
  • اصول مشخصات
  • 11. مشکل چند خطی. پیامدهای وجود و تشخیص چند خطی.
  • روش های تشخیص چند خطی:
  • 12. روش های حذف چند خطی. روش جزء اصلی رگرسیون ریج.
  • 13. مشکلات هتروسکداستیکی مدل. معیارهای تشخیص آن.
  • 1. معیار پارک.
  • 2. معیار گلدفلد-کوانت.
  • 3. معیار بروش-پگان.
  • 4. معیار سفید.
  • 14. حداقل مربعات تعمیم یافته (oms). ویژگی های برآوردهای mlr برای omnk. روش حداقل مربعات وزنی در مسئله تخمین پارامترهای مدل. ویژگی های تخمین ها با استفاده از حداقل مربعات وزنی.
  • سوال 15. مشکل خودهمبستگی باقیمانده های مدل. پیامدهای خودهمبستگی هنگام استفاده از مدل.
  • دلایل خودهمبستگی باقیمانده ها
  • پیامدهای خودهمبستگی:
  • 16. معیار تشخیصی خودهمبستگی دوربین واتسون
  • 17. روشهای حذف خودهمبستگی. روش های امتیازدهی کاکرین-اورکات و هیلدرث-لو
  • 18. مدل‌های با تأخیرهای توزیع‌شده: ساختار تأخیر طبق Koik: موارد خاص (مدل با تعدیل ناقص و انتظارات تطبیقی)
  • 19 مدل با تأخیرهای توزیع شده: ساختار خطی - حسابی تأخیرها و ساختار چند جمله ای تأخیرها بر اساس آلمون
  • 20. آزمون h-Durbin و آزمون لاگرانژ چندگانه برای بررسی خودهمبستگی در مدل های تاخیر.
  • 21. مفهوم سری زمانی (زمان). مدل VR، وظایف اصلی تجزیه و تحلیل VR. روش های هموارسازی زمانی (میانگین متحرک، هموارسازی نمایی، تفاوت های ترتیبی)
  • 22 ایستایی سری زمانی (زمان). ویژگی های همبستگی سطوح دمایی.
  • 23 مدل سری زمانی ثابت: خودرگرسیون، میانگین متحرک، arsc
  • 24. مدل غیر ساکن ariss. تخمین پارامترهای مدل
  • 28. پیش بینی سری های زمانی. شاخص های صحت پیش بینی
  • 30. آزمون چاو برای تشخیص گنجاندن متغیرهای ساختگی در یک مدل اقتصادسنجی.
  • 32. سیستم معادلات اقتصاد سنجی همزمان (SOE). شکل ساختاری و کاهش یافته سیستم (نمایش گرافیکی و ماتریسی).
  • 33. مسائل شناسایی سیستم های معادلات همزمان (SOE). شناسایی معادلات سویا (معیارهای ترتیبی و رتبه ای)
  • 34. روش های تخمین سیستم های معادلات همزمان: روش حداقل مربعات غیر مستقیم، روش حداقل مربعات دو مرحله ای. کاربرد و ویژگی های ارزیابی ها
  • 35. وضعیت فعلی اقتصاد سنجی. نمونه هایی از مدل های اقتصاد سنجی بزرگ
  • 11. مشکل چند خطی. پیامدهای وجود و تشخیص چند خطی.

    در صورت موجود بودن رابطه خطی متغیرهای برونزا به عنوان مثال، تخمین OLS وجود نخواهد داشت، زیرا هیچ معکوس ماتریسی وجود ندارد که منفرد باشد. به این وضعیت در اقتصاد سنجی مسئله می گویند چند خطی بودن

    دلایل چند خطی بودن:

    مشخصات مدل نادرست

    جمع آوری بی دقتی داده های آماری (استفاده از مشاهدات مکرر).

    تمیز دادن صریح و ضمنی چند خطی بودن

    صریح - شناخته شده رابطه خطی دقیقبین متغیرهای مدل

    به عنوان مثال، اگر مدل فرآیند سرمایه گذاری شامل نرخ بهره اسمی و واقعی باشد، به عنوان مثال.

    که در آن رابطه بین نرخ واقعی و اسمی و نرخ تورم مشخص است

    سپس چند خطی آشکار وجود دارد.

    ضمنی زمانی رخ می دهد که وجود داشته باشد وابستگی خطی تصادفی (نامشخص، تصادفی). بین متغیرهای برونزا

    ضمنی غالب است، حضور آن مشخص می شود6 نشانه :

    1. تخمین OLS از پارامترهای مدل خواص جابجا نشده خود را از دست بدهند .

    2. واریانس تخمین OLS افزایش:

    با توجه به این که، ضریب همبستگی، پس، که مستلزم

    3. کاهش وجود دارد تی- آماری که نشانگر اهمیت پارامترها است:

    4. ضریب تعیین دیگر معیاری برای کفایت مدل نیست، زیرا مقادیر کم تی-آماردانان منجر به بی اعتمادی به مدل وابستگی انتخاب شده می شوند.

    5. تخمین پارامترها برای متغیرهای خارجی غیر خطی نسبت به تغییرات داده ها بسیار حساس می شود.

    6. تخمین پارامترها برای متغیرهای برون زا غیر خطی ناچیز می شود.

    روش های تشخیص چند خطی:

    مرحله 1.در مدل رگرسیون خطی چندگانه (اولیه)، تمام زیرمدل‌هایی را بررسی می‌کنیم که در آنها هر متغیر برون‌زا درون‌زا می‌شود، یعنی.

    گام 2.ما ضرایب تعیین تمام مدل های حاصل را محاسبه می کنیم که بر اساس آن عوامل به اصطلاح تورم را محاسبه می کنیم:

    اگر، پس نتیجه می گیرند که چند خطی وجود دارد.

    الف) هیچ ساختاری را در مدل تغییر نمی‌دهند، اما با استفاده از حداقل مربعات کامپیوتری، وجود مسئله چند خطی را با استفاده از روش‌های بصری تحلیل می‌کنند.

    ب) مشخصات مدل را با حذف متغیرهای خارجی خطی از مدل اصلی بهبود بخشد.

    ج) افزایش حجم داده های آماری.

    د) متغیرهای خطی را ترکیب کرده و یک متغیر برونزای مشترک را در مدل بگنجانید.

    12. روش های حذف چند خطی. روش جزء اصلی رگرسیون ریج.

    اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (≥ 0.9)، وجود چند خطی اغلب بر کیفیت های پیش بینی مدل تأثیر نمی گذارد.

    اگر هدف از مطالعه تعیین میزان تأثیر هر یک از متغیرهای توضیحی بر متغیر وابسته باشد، وجود چند خطی، روابط واقعی بین متغیرها را مخدوش می‌کند. در این وضعیت، چند خطی بودن یک مشکل جدی به نظر می رسد.

    توجه داشته باشید که هیچ روش واحدی برای حذف چند خطی وجود ندارد که در هر صورت مناسب باشد. دلیل آن این است که علل و پیامدهای چند خطی بودن مبهم است و تا حد زیادی به نتایج نمونه بستگی دارد.

    مواد و روش ها:

    حذف متغیر(ها) از مدل

    به عنوان مثال، هنگام مطالعه تقاضا برای یک کالای خاص، قیمت این کالا و قیمت های جایگزین برای این کالا، که اغلب با یکدیگر همبستگی دارند، می توانند به عنوان متغیرهای توضیحی مورد استفاده قرار گیرند. با حذف قیمت جایگزین ها از مدل، احتمالاً خطای مشخصات را معرفی می کنیم. در نتیجه، می توان به برآوردهای مغرضانه و نتیجه گیری های بی اساس دست یافت. در مدل‌های اقتصادسنجی کاربردی، تا زمانی که همخطی بودن به یک مشکل جدی تبدیل نشود، مطلوب است که متغیرهای توضیحی حذف نشوند.

    دریافت داده های بیشتر یا نمونه جدید

    گاهی اوقات افزایش حجم نمونه کافی است. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیونی و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا با هزینه های جدی همراه است. علاوه بر این، این رویکرد می تواند خودهمبستگی را تقویت کند. این مشکلات توانایی استفاده را محدود می کند این روش.

    تغییر مشخصات مدل

    در برخی موارد، مشکل چند خطی بودن را می توان با تغییر مشخصات مدل حل کرد: یا با تغییر شکل مدل، یا با افزودن متغیرهای توضیحی که در مدل اصلی در نظر گرفته نشده اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می گذارند. .

    استفاده از اطلاعات قبلی در مورد برخی از پارامترها

    گاهی اوقات، هنگام ساخت یک مدل رگرسیون چندگانه، می توانید از برخی اطلاعات اولیه، به ویژه مقادیر شناخته شده برخی از ضرایب رگرسیون استفاده کنید. این احتمال وجود دارد که مقادیر ضرایب به‌دست‌آمده برای برخی از مدل‌های اولیه (معمولاً ساده‌تر) یا برای یک مدل مشابه بر اساس نمونه‌ای که قبلاً به‌دست‌آمده است، برای مدلی که در حال توسعه است استفاده شود. این لحظهمدل ها.

    برای روشن شدن موضوع مثال زیر را بیان می کنیم. رگرسیون ساخته شده است. بیایید فرض کنیم که متغیرهای X1 و X2 همبستگی دارند. برای مدل رگرسیون زوجی که قبلاً ساخته شده بود Y = γ0 + γ1X1 + υ، یک ضریب آماری معنی‌دار γ1 تعیین شد (برای قطعیت، اجازه دهید γ1 = 0.8)، Y را به X1 متصل می‌کند. اگر دلیلی وجود داشته باشد که فکر کنیم رابطه بین Y و X1 بدون تغییر باقی می ماند، می توانیم γ1 = β1 = 0.8 را تنظیم کنیم. سپس:

    Y = β0 + 0.8X1 + β2X2 + ε. ⇒ Y – 0.8X1 = β0 + β2X2 + ε.

    معادله در واقع یک معادله رگرسیون زوجی است که مشکل چند خطی بودن برای آن وجود ندارد.

    محدودیت های استفاده از این روش به دلایل زیر است:

      به دست آوردن اطلاعات اولیه اغلب دشوار است،

      احتمال یکسان بودن ضریب رگرسیون تخصیص یافته برای مدل های مختلف، بالا نیست.

    تبدیل متغیرها

    در برخی موارد، مشکل چند خطی را می توان با تبدیل متغیرها به حداقل رساند یا حتی از بین برد.

    برای مثال، اجازه دهید معادله رگرسیون تجربی Y = b0 + b1X1 + b2X2 باشد.

    که در آن X1 و X2 متغیرهای همبسته هستند. در این شرایط، می توانید سعی کنید وابستگی های رگرسیونی مقادیر نسبی را تعیین کنید. این احتمال وجود دارد که در مدل های مشابه، مشکل چند خطی بودن وجود نداشته باشد.

    روش جزء اصلی یکی از روش های اصلی حذف متغیرها از مدل رگرسیون چندگانه است.

    این روش برای حذف یا کاهش چند خطی متغیرهای عامل در یک مدل رگرسیونی استفاده می شود. ماهیت روش : کاهش تعداد متغیرهای عامل به مهم ترین عوامل تأثیرگذار . این امر با تبدیل خطی همه متغیرهای عامل xi (i=0,...,n) به متغیرهای جدیدی به نام مؤلفه های اصلی به دست می آید. یک انتقال از ماتریس متغیرهای عامل X به ماتریس اجزای اصلی F انجام می شود. در این حالت، این شرط مطرح می شود که انتخاب مولفه اصلی اول با حداکثر واریانس کل همه متغیرهای عامل xi (i=0,...,n) مطابقت داشته باشد، مولفه دوم مطابق با حداکثر باشد. واریانس باقی مانده، پس از حذف تأثیر اولین مؤلفه اصلی و غیره.

    اگر هیچ یک از متغیرهای عاملی موجود در مدل رگرسیون چندگانه را نتوان حذف کرد، یکی از روش‌های مغرضانه اصلی برای تخمین ضرایب مدل رگرسیون استفاده می‌شود. رگرسیون یا برآمدگی. هنگام استفاده از روش رگرسیون رج تعداد کمی به تمام عناصر مورب ماتریس اضافه می شود (XTX) τ: 10-6 ‹ τ ‹ 0.1. تخمین پارامترهای مجهول یک مدل رگرسیون چندگانه با استفاده از فرمول انجام می شود:

    که در آن ln ماتریس هویت است.

    مقررات اساسی

    اگر رگرسیورها در مدل با یک وابستگی عملکردی شدید به هم متصل شوند، پس چند خطی کامل (کامل).. این نوعچند خطی می تواند ایجاد شود، به عنوان مثال، در یک مسئله رگرسیون خطی که با روش حداقل مربعات حل می شود، اگر تعیین کننده ماتریس برابر با صفر باشد. چند خطی بودن کامل به ما اجازه نمی دهد که پارامترهای مدل اصلی را به طور واضح تخمین بزنیم و سهم رگرسیون ها را در متغیر خروجی بر اساس نتایج مشاهدات جدا کنیم.

    در مسائل مربوط به داده های واقعی، مورد چند خطی کامل بسیار نادر است. در عوض، در حوزه برنامه اغلب باید با آن سر و کار داشته باشیم چند خطی جزئیکه با ضرایب همبستگی زوجی بین رگرسیون ها مشخص می شود. در مورد چند خطی جزئی، ماتریس دارای رتبه کامل است، اما تعیین کننده آن نزدیک به صفر خواهد بود. در این حالت، تخمین پارامترهای مدل و شاخص‌های دقت آنها به طور رسمی امکان پذیر است، اما همه آنها ناپایدار خواهند بود.

    از جمله پیامدهای چند خطی جزئی می توان به موارد زیر اشاره کرد:

    • افزایش واریانس تخمین پارامترها
    • کاهش مقادیر آماره t برای پارامترها، که منجر به نتیجه گیری نادرست در مورد اهمیت آماری آنها می شود.
    • به دست آوردن برآوردهای ناپایدار از پارامترهای مدل و واریانس آنها
    • امکان به دست آوردن یک علامت نادرست از نقطه نظر نظری برآورد پارامتر

    هیچ معیار کمی دقیقی برای تشخیص چند خطی جزئی وجود ندارد. موارد زیر اغلب به عنوان نشانه های حضور آن استفاده می شود:

    روش های حذف چند خطی

    دو رویکرد اصلی برای حل این مشکل وجود دارد.

    صرف نظر از نحوه انتخاب عوامل، کاهش تعداد آنها منجر به بهبود شرطی بودن ماتریس و در نتیجه افزایش کیفیت برآورد پارامترهای مدل می شود.

    علاوه بر روش های ذکر شده، روش ساده تر دیگری وجود دارد که نتایج نسبتاً خوبی به دست می دهد - این است روش پیش مرکزی. ماهیت روش این است که قبل از یافتن پارامترها مدل ریاضیداده‌های منبع در مرکز قرار می‌گیرند: میانگین سری از هر مقدار در سری داده‌ها کم می‌شود: . این روش به ما این امکان را می دهد که ابرصفحه های شرایط LSM را طوری جدا کنیم که زوایای بین آنها عمود باشد. در نتیجه، تخمین مدل پایدار می‌شود (ساخت مدل‌های چند عاملی تحت شرایط چند خطی).

    آژانس فدرال آموزش و علم فدراسیون روسیه

    دانشگاه فناوری دولتی کوستروما

    گروه ریاضیات عالی

    در اقتصاد سنجی با موضوع:

    چند خطی

    انجام

    دانشجوی سال 1

    دانشکده مکاتبات

    خواب "حسابداری"

    تجزیه و تحلیل و حسابرسی."

    من بررسی کردم

    Katerzhina S.F.

    کوستروما 2008


    چند خطی

    چند خطی به همبستگی متقابل بالای متغیرهای توضیحی اشاره دارد. چند خطی می تواند خود را در اشکال عملکردی (صریح) و تصادفی (پنهان) نشان دهد.

    در شکل عملکردی چند خطی با توجه به حداقلیکی از روابط زوجی بین متغیرهای توضیحی، رابطه تابعی خطی است. در این مورد، ماتریس X`X ویژه است، زیرا حاوی بردارهای ستونی وابسته به خط است و تعیین کننده آن برابر با صفر است، یعنی. فرض تجزیه و تحلیل رگرسیون نقض می شود، این منجر به عدم امکان حل سیستم متناظر معادلات نرمال و به دست آوردن تخمین پارامترهای مدل رگرسیونی می شود.

    با این حال، در تحقیقات اقتصادی، چند خطی اغلب خود را به شکل تصادفی نشان می دهد، زمانی که یک همبستگی نزدیک بین حداقل دو متغیر توضیحی وجود دارد. ماتریس X`X در این مورد غیر مفرد است، اما تعیین کننده آن بسیار کوچک است.

    در عین حال، بردار تخمین b و ماتریس کوواریانس آن ∑ b متناسب هستند. ماتریس معکوس(X`X) -1، به این معنی که عناصر آنها با مقدار تعیین کننده |X`X| نسبت معکوس دارند. در نتیجه انحراف معیار قابل توجهی (خطای استاندارد) ضرایب رگرسیون b 0 , b 1 , ..., b p به دست می آید و ارزیابی معنی داری آنها با استفاده از آزمون t منطقی نیست، اگرچه به طور کلی مدل رگرسیون ممکن است تبدیل شود. با استفاده از آزمون F قابل توجه است.

    برآوردها نسبت به تغییرات کوچک در مشاهدات و اندازه نمونه بسیار حساس می شوند. معادلات رگرسیون در این مورد، به عنوان یک قاعده، معنای واقعی ندارند، زیرا برخی از ضرایب آن ممکن است دارای علائم نادرست از نظر تئوری اقتصادی و مقادیر غیر منطقی بزرگ باشند.

    هیچ معیار کمی دقیقی برای تعیین وجود یا عدم وجود چند خطی وجود ندارد. با این حال، برخی از رویکردهای اکتشافی برای شناسایی آن وجود دارد.

    یکی از این رویکردها، تجزیه و تحلیل ماتریس همبستگی بین متغیرهای توضیحی X 1، X 2، ...، X p و شناسایی جفت متغیرهایی است که همبستگی متغیر بالایی دارند (معمولاً بیشتر از 0.8). اگر چنین متغیرهایی وجود داشته باشند، گفته می شود که دارای چند خطی هستند. همچنین یافتن ضرایب تعیین چندگانه بین یکی از متغیرهای توضیحی و گروهی از آنها مفید است. وجود ضریب تعیین چندگانه بالا (معمولاً بیشتر از 0.6) نشان دهنده چند خطی بودن است.

    روش دیگر بررسی ماتریس X`X است. اگر تعیین کننده ماتریس X`X یا حداقل مقدار ویژه آن λ min نزدیک به صفر باشد (به عنوان مثال، از همان ترتیب با انباشته شدن خطاهای محاسباتی)، این نشان دهنده وجود چند خطی بودن است. همین امر ممکن است با انحراف قابل توجهی از حداکثر مقدار ویژه λmax ماتریس X`X از حداقل مقدار ویژه آن λ min نشان داده شود.

    تعدادی از روش ها برای حذف یا کاهش چند خطی استفاده می شود. ساده ترین آنها (اما همیشه ممکن نیست) این است که از بین دو متغیر توضیحی که ضریب همبستگی بالایی دارند (بیش از 0.8)، یک متغیر از بررسی حذف می شود. در عین حال، اینکه کدام متغیر باید حفظ شود و کدام یک از تجزیه و تحلیل حذف شود، اساساً بر اساس ملاحظات اقتصادی تصمیم گیری می شود. اگر از منظر اقتصادی، هیچ یک از متغیرها در اولویت قرار نگیرند، یکی از دو متغیری که ضریب همبستگی بالاتری با متغیر وابسته دارد، حفظ می‌شود.

    روش دیگر برای حذف یا کاهش چند خطی، حرکت از تخمین‌های بی‌طرف تعیین‌شده با روش حداقل مربعات به تخمین‌های مغرضانه است، که، با این حال، پراکندگی کمتری نسبت به پارامتر برآورد شده دارند، یعنی. انتظار ریاضی کوچکتر از انحراف مجذور تخمین bj از پارامتر β j یا M (bj - β j) 2.

    تخمین‌هایی که توسط یک بردار تعیین می‌شوند، مطابق با قضیه گاوس-مارکف، حداقل واریانس‌ها را در کلاس همه برآوردگرهای خطی بی‌طرف دارند، اما در صورت وجود چند خطی، این واریانس‌ها ممکن است خیلی بزرگ باشند، و روی آوردن به برآوردگرهای بایاس مربوطه می‌تواند بهبود دقت تخمین پارامترهای رگرسیون. شکل موردی را نشان می دهد که در آن تخمین بایاس β j ^، توزیع نمونه برداری آن با چگالی φ (βj ^) داده می شود.

    در واقع، اجازه دهید حداکثر فاصله اطمینان مجاز برای پارامتر تخمینی β j باشد (β j -Δ، β j +Δ). سپس احتمال اطمینان، یا قابلیت اطمینان تخمین، تعیین شده توسط مساحت زیر منحنی توزیع در بازه (β j -Δ، β j + Δ)، همانطور که از شکل به راحتی قابل مشاهده است، در این مورد بیشتر خواهد بود. برای تخمین β j در مقایسه با b j (در شکل این مناطق سایه دار هستند). بر این اساس، میانگین مجذور انحراف برآورد از پارامتر تخمین زده شده برای یک تخمین مغرضانه کمتر خواهد بود، به عنوان مثال:

    M (β j ^ - β j) 2< M (b j - β j) 2

    هنگام استفاده از "رگرسیون خط الراس" (یا "رگرسیون خط الراس")، به جای تخمین های بی طرفانه، تخمین های بایاس مشخص شده توسط بردار را در نظر می گیریم.

    β τ ^ =(X`X+τ E p +1) -1 X`Y،

    جایی که τ – یک عدد مثبت به نام "رج" یا "رج"

    E p +1 – ماتریس واحد (p+1) از مرتبه –ام.

    اضافه τ به عناصر مورب ماتریس X`X برآورد پارامترهای مدل را تغییر می دهد، اما در همان زمان تعیین کننده ماتریس سیستم معادلات نرمال افزایش می یابد - به جای (X`X) از برابر خواهد بود با

    |X`X+τ E p +1 |

    بنابراین، در مواردی که تعیین کننده |X`X| نزدیک به صفر

    برای حذف چند خطی، می توان از انتقال از متغیرهای توضیحی اصلی X 1 , X 2 ,..., X n , که با همبستگی نسبتاً نزدیک به یکدیگر مرتبط هستند به متغیرهای جدیدی که ترکیبات خطی اصلی را نشان می دهد استفاده کرد. در این حالت متغیرهای جدید باید دارای همبستگی ضعیف یا کاملاً ناهمبسته باشند. به عنوان چنین متغیرهایی، برای مثال، اجزای به اصطلاح اصلی بردار متغیرهای توضیحی اولیه را که در تحلیل مؤلفه مورد مطالعه قرار می‌گیرند، در نظر می‌گیریم و رگرسیون را روی مؤلفه‌های اصلی در نظر می‌گیریم که در آن مؤلفه‌های دوم به عنوان متغیرهای توضیحی تعمیم یافته عمل می‌کنند. تفسیر معنادار (اقتصادی).

    متعامد بودن اجزای اصلی از اثر چند خطی جلوگیری می کند. علاوه بر این، روش مورد استفاده به ما اجازه می دهد تا خود را به تعداد کمی از اجزای اصلی با تعداد نسبتاً زیادی از متغیرهای توضیحی اولیه محدود کنیم.

    چند خطی -مفهومی است که برای توصیف مسئله ای استفاده می شود که در آن یک رابطه خطی سست بین متغیرهای توضیحی منجر به تخمین رگرسیون غیرقابل اعتماد می شود. البته چنین وابستگی لزوماً منجر به ارزیابی های نامطلوب نمی شود. اگر همه شرایط دیگر مساعد باشد، یعنی اگر تعداد مشاهدات و واریانس های نمونه متغیرهای توضیحی زیاد باشد و واریانس عبارت تصادفی کم باشد، در نهایت می توانید تخمین های بسیار خوبی به دست آورید.

    بنابراین، چند خطی بودن باید ناشی از ترکیبی از یک رابطه ضعیف و یک (یا چند) شرایط نامطلوب باشد، و این سؤال است.

    درجه تجلی پدیده و نه نوع آن. برآورد هر رگرسیون تا حدی از آن رنج می‌برد مگر اینکه همه متغیرهای مستقل کاملاً نامرتبط باشند. در نظر گرفتن این مشکل تنها زمانی شروع می شود که به طور جدی بر نتایج تخمین رگرسیون تأثیر بگذارد.

    این مشکل در رگرسیون های سری زمانی رایج است، یعنی زمانی که داده ها از تعدادی مشاهدات در یک دوره زمانی تشکیل شده است. اگر دو یا چند متغیر مستقل روند زمانی قوی داشته باشند، همبستگی بالایی خواهند داشت و این می تواند منجر به چند خطی شدن شود.


    در این صورت چه کاری می توان انجام داد؟

    تکنیک‌های مختلفی که می‌توانند برای کاهش همخطی چندگانه استفاده شوند به دو دسته تقسیم می‌شوند: دسته اول شامل تلاش‌هایی برای بهبود درجه برآورده شدن چهار شرط برای قابلیت اطمینان تخمین‌های رگرسیون است. دسته دوم شامل استفاده است اطلاعات خارجی. اگر ابتدا از داده های ممکن به طور مستقیم به دست آمده استفاده کنیم، بدیهی است که افزایش تعداد مشاهدات مفید خواهد بود.

    اگر از داده های سری زمانی استفاده می کنید، این کار را می توان با کوتاه کردن مدت زمان هر دوره انجام داد. به عنوان مثال، هنگام تخمین معادلات تابع تقاضا در تمرینات 5.3 و 5.6، می توانید از استفاده از داده های سالانه به داده های فصلی تغییر دهید.

    پس از این، به جای 25 مشاهده، 100 مشاهده خواهد شد. انجام این کار به قدری واضح و آسان است که اکثر محققانی که از سری های زمانی استفاده می کنند تقریباً به طور خودکار از داده های فصلی، در صورت موجود بودن، به جای داده های سالانه استفاده می کنند، حتی اگر چند خطی بودن موضوعی مطرح نباشد. فقط برای استدلال حداقل واریانس نظری ضرایب رگرسیون. با این حال، مشکلات احتمالی با این رویکرد وجود دارد. خودهمبستگی را می توان معرفی یا تقویت کرد، اما می توان آن را خنثی کرد. علاوه بر این، اگر داده‌های فصلی با دقت کمتری نسبت به داده‌های سالانه مربوطه اندازه‌گیری شوند، سوگیری ناشی از خطاهای اندازه‌گیری را می‌توان معرفی کرد (یا تقویت کرد). حل این مشکل آسان نیست، اما ممکن است مهم نباشد.

    چند خطی همبستگی دو یا چند متغیر توضیحی در یک معادله رگرسیونی است. می تواند کاربردی (صریح) و تصادفی (پنهان) باشد. با چند خطی عملکردی، ماتریس XTX منحط است و (XTX)-1 وجود ندارد، بنابراین تعیین آن غیرممکن است. اغلب، چند خطی بودن خود را به شکل تصادفی نشان می دهد، در حالی که تخمین های OLS به طور رسمی وجود دارد، اما دارای تعدادی معایب است:

    • 1) یک تغییر کوچک در داده های اولیه منجر به تغییر قابل توجهی در برآورد رگرسیون می شود.
    • 2) برآوردها دارای خطاهای استاندارد بزرگ و اهمیت کم هستند، در حالی که مدل به طور کلی قابل توجه است (مقدار R2 بالا).
    • 3) تخمین فاصله ضرایب گسترش می یابد و دقت آنها را بدتر می کند.
    • 4) امکان به دست آوردن علامت اشتباه برای ضریب رگرسیون وجود دارد.

    تشخیص

    چندین نشانه وجود دارد که توسط آنها می توان وجود چند خطی را تعیین کرد.

    اول، تجزیه و تحلیل ماتریس همبستگی ضرایب همبستگی زوجی:

    • - اگر جفت متغیرهایی وجود داشته باشند که ضرایب همبستگی بالایی دارند (> 0.75 - 0.8)، آنها از چند خطی بودن بین آنها صحبت می کنند.
    • - اگر فاکتورها همبستگی نداشته باشند، det Q = 1، اگر همبستگی کامل وجود دارد، det Q = 0.

    می توانید H0 را بررسی کنید: det Q = 1; با استفاده از آزمون آماری

    که در آن n تعداد مشاهدات است، m = p+1.

    اگر، H0 رد می شود و چند خطی بودن ثابت می شود.

    ثانیاً ضرایب چندگانه تعیین یکی از متغیرهای توضیحی و گروهی از متغیرهای دیگر تعیین می شود. وجود R2 بالا (> 0.6) نشان دهنده چند خطی بودن است.

    ثالثاً، نزدیکی به صفر حداقل مقدار ویژه ماتریس XTX (یعنی حل معادله) نشان می دهد که det (XTX) نیز نزدیک به صفر است و بنابراین، چند خطی است.

    چهارم، ضرایب همبستگی جزئی بالا.

    اضافات جبری عناصر ماتریس ضرایب همبستگی نمونه کجاست. ضرایب همبستگی جزئی مرتبه های بالاتر را می توان از طریق ضرایب همبستگی جزئی مرتبه های پایین تر با استفاده از فرمول تکرارشونده تعیین کرد:

    پنجم، برخی از افراد در مورد وجود چند خطی صحبت می کنند نشانه های بیرونیمدل ساخته شده که پیامدهای آن است. این موارد باید شامل موارد زیر باشد:

    • · برخی از برآوردها از نقطه نظر تئوری اقتصادی دارای علائم نادرست یا مقادیر مطلق بزرگ غیر منطقی هستند.
    • · یک تغییر کوچک در داده های آماری اولیه (اضافه کردن یا حذف برخی از مشاهدات) منجر به تغییر قابل توجهی در برآورد ضرایب مدل، حتی تغییر علائم آنها می شود.
    • · اکثر یا حتی تمام تخمین‌های ضرایب رگرسیون طبق آزمون t از نظر آماری بی‌اهمیت هستند، در حالی که مدل به طور کلی طبق آزمون F معنی‌دار است.

    تعدادی روش دیگر برای تعیین چند خطی وجود دارد.

    اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (> 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگر همین روابط بین متغیرهای همبسته در آینده باقی بماند، این عبارت توجیه خواهد شد.

    اگر هدف مطالعه تعیین میزان تأثیر هر یک از متغیرهای توضیحی بر متغیر وابسته باشد، وجود چند خطی منجر به افزایش می شود. خطاهای استانداردبه احتمال زیاد، روابط واقعی بین متغیرها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.