Stanovenie prítomnosti multikolinearity. Definícia multikolinearity Teoretické dôsledky multikolinearity vo všeobecných podmienkach

Pri konštrukcii viacnásobnej regresnej rovnice môže vzniknúť problém multikolinearity faktorov. Multikolinearita je lineárny vzťah medzi dvoma alebo viacerými vysvetľujúcimi premennými, ktorý sa môže prejaviť vo funkčnej (explicitnej) alebo stochastickej (latentnej) forme.
Identifikácia vzťahu medzi vybranými charakteristikami a kvantitatívne hodnotenie tesnej súvislosti sa vykonáva pomocou metód korelačnej analýzy. Na vyriešenie týchto problémov sa najprv odhadne , potom sa na jeho základe určia parciálne a viacnásobné korelačné a determinačné koeficienty a skontroluje sa ich významnosť. Konečným cieľom korelačnej analýzy je výber faktorových charakteristík x 1, x 2,…, x m pre ďalšiu konštrukciu regresnej rovnice.

Ak sú faktorové premenné spojené striktnou funkčnou závislosťou, potom hovoríme o plná multikolinearita. V tomto prípade medzi stĺpce matice faktorových premenných X existujú lineárne závislé stĺpce a podľa vlastnosti determinantov matice je det(X T X) = 0, t. j. matica (X T X) je singulárna, čo znamená, že neexistuje inverzná matica. Matica (X T X) -1 sa používa pri konštrukcii odhadov OLS. Úplná multikolinearita nám teda neumožňuje jednoznačne odhadnúť parametre pôvodného regresného modelu.

K akým ťažkostiam vedie multikolinearita faktorov zahrnutých v modeli a ako ich možno vyriešiť?

Multikolinearita môže viesť k nežiaducim následkom:

  1. odhady parametrov sa stanú nespoľahlivými. Nachádzajú veľké štandardné chyby. So zmenou objemu pozorovaní sa menia aj odhady (nielen v magnitúde, ale aj v znamienkach), čo robí model nevhodným na analýzu a prognózovanie.
  2. je ťažké interpretovať viacnásobné regresné parametre ako charakteristiky pôsobenia faktorov v „čistej“ forme, pretože faktory sú korelované; parametre lineárnej regresie strácajú ekonomický význam;
  3. Stáva sa nemožným určiť izolovaný vplyv faktorov na ukazovateľ výkonnosti.

Typ multikolinearity, v ktorom sú faktorové premenné spojené určitou stochastickou závislosťou, sa nazýva čiastočné. Ak existuje vysoký stupeň korelácie medzi faktorovými premennými, potom je matica (X T X) takmer degenerovaná, t. j. det (X T X) ≈ 0.
Matica (X T X) -1 bude zle podmienená, čo vedie k nestabilite odhadov OLS. Čiastočná multikolinearita vedie k nasledujúcim dôsledkom:

  • zvýšenie rozptylov odhadov parametrov rozširuje intervalové odhady a zhoršuje ich presnosť;
  • znížiť t-štatistika koeficientov vedie k nesprávnym záverom o významnosti faktorov;
  • nestability odhadov OLS a ich rozptylov.

Neexistujú žiadne presné kvantitatívne kritériá na detekciu čiastočnej multikolinearity. Prítomnosť multikolinearity môže byť indikovaná blízkosťou determinantu matice (X T X) k nule. Skúmajú sa aj hodnoty párových korelačných koeficientov. Ak je determinant medzifaktorovej korelačnej matice blízky jednej, potom neexistuje multikolinearita.

Existujú rôzne prístupy na prekonanie silnej medzifaktorovej korelácie. Najjednoduchším z nich je vylúčenie z modelu faktora (alebo faktorov), ktorý je najviac zodpovedný za multikolinearitu, za predpokladu, že kvalita modelu nevýznamne utrpí (konkrétne teoretický koeficient determinácie -R 2 y(x1...xm) ) sa nevýznamne zníži).

Aké opatrenie nemožno použiť na odstránenie multikolinearity?
a) zvýšenie veľkosti vzorky;
b) vylúčenie premenných, ktoré vysoko korelujú s inými;
c) zmena špecifikácie modelu;
d) transformácia náhodnej zložky.

Párové (lineárne) a parciálne korelačné koeficienty

Blízkosť spojenia, napríklad medzi premennými x a y pre vzorku hodnôt (x i, y i), i=1,n, (1)
kde x a y sú priemerné hodnoty, S x a S y sú štandardné odchýlky zodpovedajúcich vzoriek.

Koeficient párovej korelácie sa pohybuje od –1 do +1. Čím je v absolútnej hodnote bližšie k jednotke, tým bližšie je štatistický vzťah medzi x a y k lineárnemu funkčnému. Kladná hodnota koeficientu naznačuje, že vzťah medzi charakteristikami je priamy (so zvyšovaním x sa zvyšuje hodnota y), záporná hodnota naznačuje, že vzťah je inverzný (so zvyšovaním x klesá hodnota y).
Môžeme poskytnúť nasledujúcu kvalitatívnu interpretáciu možných hodnôt korelačného koeficientu: ak |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Na posúdenie multikolinearity faktorov použite maticu párových korelačných koeficientov závislej (výslednej) charakteristiky y s faktorovými charakteristikami x 1, x 2,…, x m, ktorá umožňuje posúdiť mieru vplyvu jednotlivých faktorových ukazovateľov x j na závislá premenná y, ako aj tesnosť vzťahov medzi faktormi . Korelačná matica má vo všeobecnom prípade tvar
.
Matica je symetrická, na jej uhlopriečke sú jedničky. Ak má matica medzifaktorový korelačný koeficient r xjxi > 0,7, potom v tomto viacnásobnom regresnom modeli existuje multikolinearita.
Keďže zdrojové údaje, z ktorých sa stanovuje vzťah charakteristík, sú vzorkou z určitej všeobecnej populácie, korelačné koeficienty vypočítané z týchto údajov budú selektívne, teda vzťah iba odhadujú. Je potrebný test významnosti, ktorý odpovedá na otázku: sú získané výsledky výpočtov náhodné alebo nie?
Význam párových korelačných koeficientov skontrolovať podľa t-Študentov t test. Predkladá sa hypotéza, že všeobecný korelačný koeficient sa rovná nule: H 0: ρ = 0. Potom sa nastavia parametre: hladina významnosti α a počet stupňov voľnosti v = n-2. Pomocou týchto parametrov sa tcr zistí z tabuľky kritických bodov Studentovho rozdelenia az dostupných údajov sa vypočíta hodnota sledovaného kritéria:
, (2)
kde r je párový korelačný koeficient vypočítaný z údajov vybraných pre štúdiu. Párový korelačný koeficient sa považuje za významný (hypotéza, že koeficient sa rovná nule je zamietnutá) s pravdepodobnosťou spoľahlivosti γ = 1- α, ak t Obs modulo je väčšie ako t krit.
Ak sú premenné navzájom korelované, potom je hodnota korelačného koeficientu čiastočne ovplyvnená vplyvom iných premenných.

Parciálny korelačný koeficient charakterizuje tesnosť lineárneho vzťahu medzi výsledkom a zodpovedajúcim faktorom pri eliminácii vplyvu iných faktorov. Parciálny korelačný koeficient hodnotí tesnosť vzťahu dvoch premenných s pevnou hodnotou ostatných faktorov. Ak sa vypočíta napríklad r yx 1| x2 (parciálny korelačný koeficient medzi y a x 1 s pevným vplyvom x 2), to znamená, že sa určí kvantitatívna miera lineárneho vzťahu medzi y a x 1, ktorá nastane, ak bude vplyv x 2 na tieto charakteristiky eliminované. Ak sa vylúči vplyv len jedného faktora, dostaneme parciálny korelačný koeficient prvého rádu.
Porovnanie hodnôt párových a parciálnych korelačných koeficientov ukazuje smer vplyvu fixného faktora. Ak parciálny korelačný koeficient r yx 1| x2 bude menší ako zodpovedajúci párový koeficient r yx 1, čo znamená, že vzťah medzi charakteristikami y a x 1 je do určitej miery určený vplyvom fixnej ​​premennej x 2 na ne. Naopak, väčšia hodnota parciálneho koeficientu v porovnaní s párovým koeficientom naznačuje, že fixná premenná x 2 svojim vplyvom oslabuje vzťah medzi y a x 1.
Čiastočný korelačný koeficient medzi dvoma premennými (y a x 2) pri vylúčení vplyvu jedného faktora (x 1) možno vypočítať pomocou tohto vzorca:
. (3)
Pre ostatné premenné sú vzorce konštruované podobným spôsobom. Pevne x 2
;
pri pevnom x 3
.
Významnosť parciálnych korelačných koeficientov sa kontroluje podobne ako v prípade párových korelačných koeficientov. Jediný rozdiel je v počte stupňov voľnosti, ktorý treba brať ako v = n – l -2, kde l je počet pevných faktorov.

Postupná regresia

Výber faktorov x 1 , x 2 , …, x m zahrnutých do viacnásobného regresného modelu je jednou z najdôležitejších etáp ekonometrického modelovania. Metóda postupného (krokového) začleňovania (alebo vylučovania) faktorov do modelu umožňuje vybrať z možnej množiny premenných práve tie, ktoré zvýšia kvalitu modelu.
Pri implementácii metódy je prvým krokom výpočet korelačnej matice. Na základe párových korelačných koeficientov je odhalená prítomnosť kolineárnych faktorov. Faktory x i a x j sa považujú za kolineárne, ak r xjxi >0,7. V modeli je zahrnutý iba jeden zo vzájomne súvisiacich faktorov. Ak medzi faktormi nie sú žiadne kolineárne faktory, potom akékoľvek faktory, ktoré majú významný vplyv na r.

V druhom kroku sa zostrojí regresná rovnica s jednou premennou, ktorá má maximálnu absolútnu hodnotu koeficientu párovej korelácie s výsledným atribútom.

V treťom kroku sa do modelu zavedie nová premenná, ktorá má najväčšiu absolútnu hodnotu koeficientu parciálnej korelácie so závislou premennou s pevným vplyvom predtým zavedenej premennej.
Keď sa do modelu zavedie ďalší faktor, koeficient determinácie by sa mal zvýšiť a zvyškový rozptyl by sa mal znížiť. Ak sa tak nestane, t. j. koeficient viacnásobného určenia sa mierne zvýši, potom sa zavedenie nového faktora považuje za nevhodné.

Príklad č.1. Pre 20 podnikov v regióne závislosť výkonu na zamestnanca y (tis. rubľov) od podielu vysokokvalifikovaných pracovníkov na celkovom počte pracovníkov x1 (% z hodnoty majetku na konci roka) a od uvedenia do prevádzky nových fixných aktív x2 (%) sa skúma.

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Požadovaný:

  1. Zostrojte korelačné pole medzi výstupom na pracovníka a podielom vysokokvalifikovaných pracovníkov. Predložte hypotézu o blízkosti a type vzťahu medzi indikátormi X1 a Y.
  2. Posúďte blízkosť lineárneho vzťahu medzi výkonom na pracovníka a podielom vysokokvalifikovaných pracovníkov so spoľahlivosťou 0,9.
  3. Vypočítajte koeficienty lineárnej regresnej rovnice pre závislosť výkonu na pracovníka od podielu vysokokvalifikovaných pracovníkov.
  4. Skontrolujte štatistickú významnosť parametrov regresnej rovnice so spoľahlivosťou 0,9 a zostrojte pre ne intervaly spoľahlivosti.
  5. Vypočítajte koeficient determinácie. Pomocou Fisherovho F testu vyhodnoťte štatistickú významnosť regresnej rovnice so spoľahlivosťou 0,9.
  6. Uveďte bodovú a intervalovú predpoveď so spoľahlivosťou 0,9 výkonu na zamestnanca pre podnik, kde je 24 % pracovníkov vysoko kvalifikovaných.
  7. Vypočítajte koeficienty lineárnej viacnásobnej regresnej rovnice a vysvetlite ekonomický význam jej parametrov.
  8. Analyzujte štatistickú významnosť koeficientov viacerých rovníc so spoľahlivosťou 0,9 a vytvorte pre ne intervaly spoľahlivosti.
  9. Nájdite párový a parciálny korelačný koeficient. Analyzujte ich.
  10. Nájdite upravený koeficient viacnásobného určenia. Porovnajte ho s neupraveným (celkovým) koeficientom determinácie.
  11. Pomocou Fisherovho F testu vyhodnoťte primeranosť regresnej rovnice so spoľahlivosťou 0,9.
  12. Uveďte bodovú a intervalovú predpoveď so spoľahlivosťou 0,9 výkonu na zamestnanca pre podnik, v ktorom je 24 % pracovníkov vysoko kvalifikovaných a uvádzanie nových fixných aktív do prevádzky je 5 %.
  13. Skontrolujte zostrojenú rovnicu na prítomnosť multikolinearity pomocou: Studentovho testu; χ2 test. Porovnajte výsledky.

Riešenie Robíme to pomocou kalkulačky. Nasleduje postup riešenia bodu 13.
Matica párových korelačných koeficientov R:

- rx 1x 2
r 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

V prítomnosti multikolinearity je determinant korelačnej matice takmer nulový. Pre náš príklad: det = 0,00081158, čo naznačuje prítomnosť silnej multikolinearity.
Pri výbere najvýznamnejších faktorov x i sa berú do úvahy tieto podmienky:
- spojenie medzi výslednou charakteristikou a faktorom jedna musí byť vyššie ako medzifaktorové spojenie;
- vzťah medzi faktormi by nemal byť väčší ako 0,7. Ak má matica medzifaktorový korelačný koeficient r xjxi > 0,7, potom v tomto viacnásobnom regresnom modeli existuje multikolinearita.;
- pri vysokom medzifaktorovom spojení charakteristiky sa vyberajú faktory s nižším korelačným koeficientom medzi nimi.
V našom prípade má r x 1 x 2 |r|>0,7, čo naznačuje multikolinearitu faktorov a potrebu vylúčiť jeden z nich z ďalšej analýzy.
Analýza prvého riadku tejto matice umožňuje výber faktorových charakteristík, ktoré možno zahrnúť do modelu viacnásobnej korelácie. Charakteristiky faktorov, pre ktoré |r yxi | 0,3 – prakticky neexistuje spojenie; 0,3 ≤ |r| ≤ 0,7 - priemerné pripojenie; 0,7 ≤ |r| ≤ 0,9 – silné spojenie; |r| > 0,9 – spojenie je veľmi silné.
Overme si významnosť získaných párových korelačných koeficientov pomocou Studentovho t-testu. Za významné sa považujú koeficienty, pre ktoré sú hodnoty t-statistics modulo väčšie ako zistená kritická hodnota.
Vypočítajme pozorované hodnoty t-štatistiky pre r yx 1 pomocou vzorca:

kde m = 1 je počet faktorov v regresnej rovnici.

Pomocou Študentovej tabuľky nájdeme Ttable
t krit (n-m-1;α/2) = (18;0,025) = 2,101
Keďže t obs > t crit, odmietame hypotézu, že korelačný koeficient sa rovná 0. Inými slovami, korelačný koeficient je štatisticky významný
Vypočítajme pozorované hodnoty t-štatistiky pre r yx 2 pomocou vzorca:

Keďže t obs > t crit, odmietame hypotézu, že korelačný koeficient sa rovná 0. Inými slovami, korelačný koeficient je štatisticky významný
Vzťah medzi (y a x x 1), (y a x x 2) je teda významný.
Najväčší vplyv na efektívny atribút má faktor x2 (r = 0,99), čo znamená, že pri konštrukcii modelu bude ako prvý vstupovať do regresnej rovnice.
Testovanie a eliminácia multikolinearity.
Najkompletnejším algoritmom na štúdium multikolinearity je Farrar-Globerov algoritmus. Testuje tri typy multikolinearity:
1. Všetky faktory (χ 2 - chí-kvadrát).
2. Každý faktor s ostatnými (Fisherovo kritérium).
3. Každá dvojica faktorov (Studentov t-test).
Skontrolujme premenné na multikolinearitu pomocou Farrar-Glouberovej metódy s použitím prvého typu štatistických kritérií (chí-kvadrát test).
Vzorec na výpočet hodnoty Farrar-Glouberovej štatistiky je:
χ 2 = -ln(det[R])
kde m = 2 je počet faktorov, n = 20 je počet pozorovaní, det[R] je determinant matice párových korelačných koeficientov R.
Porovnávame ju s tabuľkovou hodnotou pri v = m/2(m-1) = 1 stupeň voľnosti a hladine významnosti α. Ak χ 2 > χ tabuľka 2, potom je vo vektore faktorov multikolinearita.
χ tabuľka 2 (1;0,05) = 3,84146
Skontrolujme premenné na multikolinearitu pomocou druhého typu štatistických kritérií (Fisherovo kritérium).

Skontrolujme premenné na multikolinearitu pomocou tretieho typu štatistických kritérií (Studentov test). K tomu nájdeme parciálne korelačné koeficienty.
Parciálne korelačné koeficienty.
Parciálny korelačný koeficient sa od jednoduchého lineárneho párového korelačného koeficientu líši tým, že meria párovú koreláciu zodpovedajúcich charakteristík (y a x i) za predpokladu, že je eliminovaný vplyv iných faktorov (x j) na ne.
Na základe parciálnych koeficientov môžeme konštatovať, že zahrnutie premenných do regresného modelu je opodstatnené. Ak je hodnota koeficientu malá alebo nevýznamná, znamená to, že vzťah medzi týmto faktorom a výslednou premennou je buď veľmi slabý, alebo úplne chýba, takže faktor možno z modelu vylúčiť.


Hustota komunikácie je nízka.
Stanovme význam korelačného koeficientu r yx 1 / x 2. Ako vidíme, súvislosť medzi y a x 2, za predpokladu, že je x 1 zahrnuté v modeli, sa znížila. Z toho môžeme usúdiť, že zadávanie x 2 do regresnej rovnice zostáva nevhodné.
Môžeme konštatovať, že pri konštrukcii regresnej rovnice by sa mali zvoliť faktory x 1, x 2.

Príklad č.2. Pre 30 pozorovaní sa ukázalo, že matica párových korelačných koeficientov je takáto:

rx 1x 2x 3
r1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
Posúdiť multikolinearitu faktorov. Zostavte regresnú rovnicu na štandardnej škále a vyvodte závery.
  • 4. Štatistický odhad parametrov PLR pomocou metódy najmenších štvorcov. Vlastnosti odhadov najmenších štvorcov
  • Vlastnosti odhadov najmenších štvorcov:
  • 5. Kontrola kvality viacnásobnej lineárnej regresie: významnosť parametrov, intervaly spoľahlivosti, primeranosť modelu. Predpovedanie.
  • 6. Viacnásobná lineárna regresia (MLR). Klasické predpoklady. OLS odhad parametrov modelu.
  • 7. Vlastnosti OLS odhadov viacnásobnej lineárnej regresie. Gauss-Markovova veta.
  • 8. Kontrola kvality viacnásobnej lineárnej regresie: významnosť parametrov, intervaly spoľahlivosti, primeranosť modelu. Predpovedanie.
  • 5. Koeficient Stanovenia
  • Predpovedanie pomocou viacnásobného lineárneho regresného modelu
  • 9. Špecifikácia ekonometrického modelu: metódy a diagnostika výberu exogénnych premenných. Testy Ramsey a Amemya.
  • Ramseyho kritérium:
  • 10. Špecifikácia ekonometrického modelu: výber formy závislosti nelineárneho modelu
  • Zásady špecifikácie
  • 11. Problém multikolinearity. Dôsledky prítomnosti a diagnostiky multikolinearity.
  • Metódy diagnostiky multikolinearity:
  • 12. Metódy eliminácie multikolinearity. Metóda hlavnej zložky. Ridge regresia.
  • 13. Problémy heteroskedasticity modelu. Kritériá jeho diagnostiky.
  • 1. Kritérium parkovania.
  • 2. Goldfeld-Quandtovo kritérium.
  • 3. Breusch-Paganské kritérium.
  • 4. Biele kritérium.
  • 14. Zovšeobecnené najmenšie štvorce (oms). Vlastnosti odhadov mlr pre omnk. Metóda vážených najmenších štvorcov v probléme odhadu parametrov modelu. Vlastnosti odhadov pomocou vážených najmenších štvorcov.
  • Otázka 15. Problém autokorelácie rezíduí modelu. Dôsledky autokorelácie pri použití modelu.
  • Dôvody autokorelácie zvyškov
  • Dôsledky autokorelácie:
  • 16. Durbin-Watsonovo autokorelačné diagnostické kritérium
  • 17. Metódy eliminácie autokorelácie. Postupy bodovania Cochrane-Orcutt a Hildreth-Lou
  • 18. Modely s distribuovanými oneskoreniami: štruktúra oneskorenia podľa Koika: Špeciálne prípady (model s neúplnou úpravou a adaptívnymi očakávaniami)
  • 19 Modely s distribuovanými oneskoreniami: lineárno-aritmetická štruktúra oneskorení a polynomická štruktúra oneskorení podľa Almona
  • 20. h-Durbinov test a viacnásobný Lagrangeov test na kontrolu autokorelácie v modeloch oneskorenia
  • 21. Pojem časového radu (čas). Model VR, hlavné úlohy analýzy VR. Metódy vyhladzovania času (klouzavý priemer, exponenciálne vyhladzovanie, sekvenčné rozdiely)
  • 22 Stacionarita časového radu (času). Charakteristika korelácie teplôt.
  • 23 Modely stacionárnych časových radov: autoregresia, kĺzavý priemer, arc
  • 24. Nestacionárny model ariss. Odhad parametrov modelu.
  • 28. Prognóza časových radov. Ukazovatele presnosti predpovedí.
  • 30. Chowov test na diagnostiku zahrnutia fiktívnych premenných do ekonometrického modelu.
  • 32. Systémy simultánnych ekonometrických rovníc (SOE). Štrukturálna a redukovaná forma systému (grafické a maticové znázornenie).
  • 33. Problémy identifikácie sústav simultánnych rovníc (SOE). Identifikovateľnosť rovníc sója (poradové a poradové kritérium)
  • 34. Metódy odhadu sústav simultánnych rovníc: nepriama metóda najmenších štvorcov, dvojkroková metóda najmenších štvorcov. Použiteľnosť a vlastnosti posudkov
  • 35. Súčasný stav ekonometrie. Príklady veľkých ekonometrických modelov
  • 11. Problém multikolinearity. Dôsledky prítomnosti a diagnostiky multikolinearity.

    Ak je k dispozícii lineárny vzťah exogénnych premenných , potom napríklad odhady OLS nebudú existovať, pretože neexistuje inverzná matica, ktorá bude jednotná. Táto situácia v ekonometrii sa nazýva problém multikolinearita.

    Dôvody multikolinearity:

    nesprávna špecifikácia modelu

    nedbalý zber štatistických údajov (použitie opakovaných pozorovaní).

    Rozlišovať explicitné A implicitné multikolinearita.

    Explicitné - známy presný lineárny vzťah medzi premennými modelu.

    Napríklad, ak model investičného procesu zahŕňa nominálne a reálne úrokové miery, t.j.

    kde je známy vzťah medzi reálnymi a nominálnymi sadzbami a mierou inflácie

    potom je zjavná multikolinearita.

    Implicitné nastáva vtedy, keď existuje stochastická (neistá, náhodná) lineárna závislosť medzi exogénnymi premennými.

    prevláda implicitný, jeho prítomnosť je charakteristická6 znakov :

    1. OLS odhady parametrov modelu strácajú svoje nenahraditeľné vlastnosti .

    2. Rozptyl odhadov OLS zvyšuje:

    Vzhľadom na to, že korelačný koeficient teda, ktorý obnáša

    3. Dochádza k poklesu t- štatistiky, ktoré sú ukazovateľmi významnosti parametrov:

    4. Koeficient determinácie už nie je meradlom primeranosti modelu, keďže ide o nízke hodnoty t-štatistikov vedú k nedôvere k vybranému modelu závislosti.

    5. Odhady parametrov pre nekolineárne exogénne premenné sú veľmi citlivé na zmeny v údajoch.

    6. Odhady parametrov pre nekolineárne exogénne premenné sa stávajú nevýznamnými.

    Metódy diagnostiky multikolinearity:

    Krok 1. V (počiatočnom) modeli viacnásobnej lineárnej regresie prejdeme všetky podmodely, v ktorých sa akákoľvek exogénna premenná stáva endogénnou, t.j.

    Krok 2. Vypočítame koeficienty determinácie všetkých výsledných modelov, na základe ktorých vypočítame takzvané inflačné faktory:

    Ak , potom dospejú k záveru, že existuje multikolinearita.

    a) nemenia žiadnu štruktúru v modeli, ale pomocou počítačových najmenších štvorcov analyzujú prítomnosť problému multikolinearity pomocou vizuálnych metód.

    b) zlepšiť špecifikáciu modelu odstránením kolineárnych exogénnych premenných z pôvodného modelu.

    c) zvýšiť objem štatistických údajov.

    d) kombinovať kolineárne premenné a zahrnúť do modelu spoločnú exogénnu premennú.

    12. Metódy eliminácie multikolinearity. Metóda hlavnej zložky. Ridge regresia.

    Ak je hlavnou úlohou modelu predpovedať budúce hodnoty závislej premennej, potom pri dostatočne veľkom koeficiente determinácie R2 (≥ 0,9) prítomnosť multikolinearity často neovplyvňuje prediktívne vlastnosti modelu.

    Ak je účelom štúdie určiť stupeň vplyvu každej z vysvetľujúcich premenných na závislú premennú, potom prítomnosť multikolinearity skreslí skutočné vzťahy medzi premennými. V tejto situácii sa multikolinearita javí ako vážny problém.

    Všimnite si, že neexistuje jediná metóda na odstránenie multikolinearity, ktorá by bola v každom prípade vhodná. Príčiny a dôsledky multikolinearity sú totiž nejednoznačné a vo veľkej miere závisia od výsledkov vzorky.

    METÓDY:

    Vylúčenie premennej (premenných) z modelu

    Napríklad pri skúmaní dopytu po určitom tovare možno ako vysvetľujúce premenné použiť cenu tohto tovaru a ceny substitútov za tento tovar, ktoré často navzájom korelujú. Vylúčením cien náhrad z modelu pravdepodobne zavedieme chybu v špecifikácii. V dôsledku toho je možné získať skreslené odhady a vyvodiť nepodložené závery. V aplikovaných ekonometrických modeloch je žiaduce nevylučovať vysvetľujúce premenné, kým sa kolinearita nestane vážnym problémom.

    Získanie ďalších údajov alebo novej vzorky

    Niekedy stačí zväčšiť veľkosť vzorky. Ak napríklad používate ročné údaje, môžete prejsť na štvrťročné údaje. Zvýšenie množstva údajov znižuje rozptyl regresných koeficientov a tým zvyšuje ich štatistickú významnosť. Získanie novej vzorky alebo rozšírenie starej však nie je vždy možné alebo je spojené s vážnymi nákladmi. Okrem toho tento prístup môže posilniť autokoreláciu. Tieto problémy obmedzujú schopnosť používať túto metódu.

    Zmena špecifikácie modelu

    V niektorých prípadoch je možné problém multikolinearity vyriešiť zmenou špecifikácie modelu: buď zmenou formy modelu, alebo pridaním vysvetľujúcich premenných, ktoré nie sú v pôvodnom modeli zohľadnené, ale významne ovplyvňujú závislú premennú. .

    Použitie predbežných informácií o niektorých parametroch

    Niekedy pri vytváraní viacnásobného regresného modelu môžete použiť niektoré predbežné informácie, najmä známe hodnoty niektorých regresných koeficientov. Je pravdepodobné, že hodnoty koeficientov získané pre niektoré predbežné (zvyčajne jednoduchšie) modely alebo pre podobný model založený na predtým získanej vzorke možno použiť pre model vyvíjaný v r. tento moment modelov.

    Pre ilustráciu uvádzame nasledujúci príklad. Regresia je postavená. Predpokladajme, že premenné X1 a X2 sú korelované. Pre predtým vytvorený párový regresný model Y = γ0 + γ1X1+υ bol stanovený štatisticky významný koeficient γ1 (pre jednoznačnosť nech γ1 = 0,8), spájajúci Y s X1. Ak existuje dôvod domnievať sa, že vzťah medzi Y a X1 zostane nezmenený, potom môžeme nastaviť γ1 = β1 = 0,8. potom:

    Y = β0 + 0,8X1 + P2X2 + ε. ⇒ Y – 0,8X1 = β0 + β2X2 + ε.

    Rovnica je vlastne párová regresná rovnica, pre ktorú problém multikolinearity neexistuje.

    Obmedzenia použitia tejto metódy sú spôsobené:

      Získanie predbežných informácií je často ťažké,

      pravdepodobnosť, že pridelený regresný koeficient bude rovnaký pre rôzne modely, nie vysoká.

    Konverzia premenných

    V niektorých prípadoch môže byť problém multikolinearity minimalizovaný alebo dokonca eliminovaný transformáciou premenných.

    Nech je napríklad empirická regresná rovnica Y = b0 + b1X1 + b2X2

    kde X1 a X2 sú korelované premenné. V tejto situácii sa môžete pokúsiť určiť regresné závislosti relatívnych hodnôt. Je pravdepodobné, že v podobných modeloch nebude problém multikolinearity prítomný.

    Metóda hlavnej zložky je jednou z hlavných metód eliminácie premenných z viacnásobného regresného modelu.

    Táto metóda sa používa na odstránenie alebo zníženie multikolinearity faktorových premenných v regresnom modeli. Podstata metódy : zníženie počtu faktorových premenných na faktory, ktoré ho najviac ovplyvňujú . To sa dosiahne lineárnou transformáciou všetkých faktorových premenných xi (i=0,...,n) na nové premenné nazývané hlavné zložky, t.j. z matice faktorových premenných X sa prechádza do matice hlavných komponentov F. V tomto prípade je predložená požiadavka, aby výber prvej hlavnej zložky zodpovedal maximu z celkového rozptylu všetkých faktorových premenných xi (i=0,...,n), druhá zložka zodpovedala maximu zostávajúci rozptyl, po odstránení vplyvu prvej hlavnej zložky atď.

    Ak nemožno vylúčiť žiadnu z faktorových premenných zahrnutých vo viacnásobnom regresnom modeli, potom sa použije jedna z hlavných neobjektívnych metód na odhad koeficientov regresného modelu - ridge regresia alebo ridge. Pri použití metódy hrebeňovej regresie malé číslo sa pridá ku všetkým diagonálnym prvkom matice (XTX) τ: 10-6 ‹ τ ‹ 0,1. Odhad neznámych parametrov viacnásobného regresného modelu sa vykonáva pomocou vzorca:

    kde ln je matica identity.

    Základné ustanovenia

    Ak sú regresory v modeli spojené striktnou funkčnou závislosťou, potom úplná (dokonalá) multikolinearita. Tento typ multikolinearita môže vzniknúť napríklad v úlohe lineárnej regresie riešenej metódou najmenších štvorcov, ak sa determinant matice rovná nule. Úplná multikolinearita nám neumožňuje jednoznačne odhadnúť parametre pôvodného modelu a oddeliť príspevky regresorov k výstupnej premennej na základe výsledkov pozorovaní.

    Pri problémoch s reálnymi údajmi je prípad úplnej multikolinearity extrémne zriedkavý. Namiesto toho sa v doméne aplikácií často musíme zaoberať čiastočná multikolinearita, ktorý je charakterizovaný párovými korelačnými koeficientmi medzi regresormi. V prípade čiastočnej multikolinearity bude mať matica plnú hodnotu, ale jej determinant bude blízky nule. V tomto prípade je formálne možné získať odhady parametrov modelu a ich ukazovateľov presnosti, ale všetky budú nestabilné.

    Medzi dôsledky čiastočnej multikolinearity patria:

    • zvýšenie rozptylov odhadov parametrov
    • pokles t-štatistických hodnôt parametrov, čo vedie k nesprávnemu záveru o ich štatistickej významnosti
    • získanie nestabilných odhadov parametrov modelu a ich rozptylov
    • možnosť získania nesprávneho znamienka z teoretického hľadiska odhadu parametra

    Neexistujú žiadne presné kvantitatívne kritériá na detekciu čiastočnej multikolinearity. Ako príznaky jeho prítomnosti sa najčastejšie používajú:

    Metódy na elimináciu multikolinearity

    Existujú dva hlavné prístupy k riešeniu tohto problému.

    Bez ohľadu na to, ako sa výber faktorov vykonáva, zníženie ich počtu vedie k zlepšeniu podmienenosti matice a následne k zvýšeniu kvality odhadov parametrov modelu.

    Okrem uvedených metód existuje ešte jedna, jednoduchšia, ktorá poskytuje pomerne dobré výsledky - to je metóda predcentrovania. Podstatou metódy je, že pred nájdením parametrov matematický model Zdrojové údaje sú vycentrované: od každej hodnoty v rade údajov sa odpočíta priemer série: . Tento postup nám umožňuje oddeliť nadroviny podmienok LSM tak, aby uhly medzi nimi boli kolmé. V dôsledku toho sa odhady modelu stanú stabilnými (Konštrukcia multifaktorových modelov v podmienkach multikolinearity).

    Federálna agentúra pre vzdelávanie a vedu Ruskej federácie

    Štátna technologická univerzita Kostroma.

    Katedra vyššej matematiky

    v ekonometrii na tému:

    Multikolinearita

    Vykonané

    študent 1. ročníka

    korešpondenčnej fakulte

    spánok "účtovníctvo"

    analýza a audit“.

    skontroloval som

    Katerzhina S.F.

    Kostroma 2008


    Multikolinearita

    Multikolinearita označuje vysokú vzájomnú koreláciu vysvetľujúcich premenných. Multikolinearita sa môže prejaviť vo funkčných (explicitných) a stochastických (skrytých) formách.

    Vo funkčnej forme multikolinearity podľa najmenej jeden z párových vzťahov medzi vysvetľujúcimi premennými je lineárny funkčný vzťah. V tomto prípade je matica X`X špeciálna, keďže obsahuje lineárne závislé stĺpcové vektory a jej determinant je rovný nule, t.j. je porušený predpoklad regresnej analýzy, čo vedie k nemožnosti vyriešiť príslušný systém normálnych rovníc a získať odhady parametrov regresného modelu.

    V ekonomickom výskume sa však multikolinearita častejšie prejavuje v stochastickej podobe, keď existuje úzka korelácia aspoň medzi dvoma vysvetľujúcimi premennými. Matica X`X je v tomto prípade nesingulárna, ale jej determinant je veľmi malý.

    Vektor odhadov b a jeho kovariančná matica ∑ b sú zároveň proporcionálne inverzná matica(X`X) -1 , čo znamená, že ich prvky sú nepriamo úmerné hodnote determinantu |X`X|. V dôsledku toho sa získajú významné smerodajné odchýlky (štandardné chyby) regresných koeficientov b 0, b 1, ..., b p a hodnotenie ich významnosti pomocou t-testu nemá zmysel, aj keď vo všeobecnosti sa regresný model môže obrátiť ako významné pomocou F-testu.

    Odhady sú veľmi citlivé na malé zmeny v pozorovaniach a veľkosti vzorky. Regresné rovnice v tomto prípade spravidla nemajú skutočný význam, pretože niektoré z ich koeficientov môžu mať z hľadiska ekonomickej teórie nesprávne znamienka a neprimerane veľké hodnoty.

    Neexistujú žiadne presné kvantitatívne kritériá na určenie prítomnosti alebo neprítomnosti multikolinearity. Existuje však niekoľko heuristických prístupov na jeho identifikáciu.

    Jedným z takýchto prístupov je analýza korelačnej matice medzi vysvetľujúcimi premennými X1, X2, ..., Xp a identifikácia párov premenných, ktoré majú vysoké premenné korelácie (zvyčajne väčšie ako 0,8). Ak takéto premenné existujú, hovorí sa, že majú multikolinearitu. Je tiež užitočné nájsť viacero koeficientov determinácie medzi jednou z vysvetľujúcich premenných a niektorou z nich. Prítomnosť vysokého viacnásobného koeficientu determinácie (zvyčajne väčšieho ako 0,6) indikuje multikolinearitu.

    Ďalším prístupom je skúmanie matice X`X. Ak je determinant matice X`X alebo jej minimálna vlastná hodnota λ min blízka nule (napríklad rovnakého rádu s hromadiacimi sa chybami výpočtu), potom to indikuje prítomnosť multikolinearity. to isté možno naznačiť výraznou odchýlkou ​​maximálnej vlastnej hodnoty λ max matice X`X od jej minimálnej vlastnej hodnoty λ min .

    Na odstránenie alebo zníženie multikolinearity sa používa množstvo metód. Najjednoduchšia z nich (ale nie vždy možná) je tá, že z dvoch vysvetľujúcich premenných, ktoré majú vysoký korelačný koeficient (viac ako 0,8), je jedna premenná z úvahy vylúčená. O tom, ktorú premennú ponechať a ktorú z analýzy odstrániť, sa zároveň rozhoduje predovšetkým na základe ekonomických úvah. Ak z ekonomického hľadiska nemožno uprednostniť žiadnu z premenných, potom sa zachová tá z dvoch premenných, ktorá má vyšší korelačný koeficient so závislou premennou.

    Ďalšou metódou na odstránenie alebo zníženie multikolinearity je prechod od neskreslených odhadov určených metódou najmenších štvorcov k skresleným odhadom, ktoré však majú menší rozptyl v porovnaní s odhadovaným parametrom, t.j. menšie matematické očakávanie druhej mocniny odchýlky odhadu bj od parametra β j alebo M (b j - β j) 2.

    Odhady určené vektorom majú v súlade s Gauss-Markovovou vetou minimálne odchýlky v triede všetkých lineárnych nezaujatých odhadov, ale v prítomnosti multikolinearity môžu byť tieto odchýlky príliš veľké a prechod na zodpovedajúce skreslené odhady môže zlepšiť presnosť odhadu regresných parametrov. Na obrázku je znázornený prípad, kedy je vychýlený odhad β j ^, ktorého vzorkovacie rozdelenie je dané hustotou φ (β j ^).

    Nech je skutočne maximálny povolený interval spoľahlivosti pre odhadovaný parameter βj (βj -Δ, βj +Δ). Potom bude pravdepodobnosť spoľahlivosti alebo spoľahlivosť odhadu, určená plochou pod distribučnou krivkou na intervale (β j -Δ, β j +Δ), ako je ľahko vidieť z obrázku, v tomto prípade väčšia. pre odhad β j v porovnaní s b j (na obrázku sú tieto oblasti vytieňované). V súlade s tým bude priemerná štvorcová odchýlka odhadu od odhadovaného parametra menšia pre skreslený odhad, t. j.:

    M (pj^ - pj) 2< M (b j - β j) 2

    Pri použití „hrebeňovej regresie“ (alebo „hrebeňovej regresie“) namiesto nezaujatých odhadov berieme do úvahy skreslené odhady špecifikované vektorom

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    Kde τ – nejaké kladné číslo nazývané „hrebeň“ alebo „hrebeň“

    E p +1 – jednotková matica (p+1) –-tého rádu.

    Doplnenie τ k diagonálnym prvkom matice X`X robí odhady parametrov modelu posunuté, no zároveň sa zvyšuje determinant matice sústavy normálnych rovníc - namiesto (X`X) od sa bude rovnať

    |X`X+τ E p +1 |

    Takto je možné vylúčiť multikolinearitu v prípade, že determinant |X`X| blízko nule.

    Na odstránenie multikolinearity možno použiť prechod z pôvodných vysvetľujúcich premenných X 1 , X 2 ,…, X n , prepojených pomerne úzkou koreláciou, k novým premenným reprezentujúcim lineárne kombinácie pôvodných. V tomto prípade musia byť nové premenné slabo korelované alebo úplne nekorelované. Ako také premenné berieme napríklad takzvané hlavné komponenty vektora počiatočných vysvetľujúcich premenných, ktoré sa skúmajú v analýze komponentov, a uvažujeme o regresii hlavných komponentov, v ktorých tieto hlavné komponenty pôsobia ako zovšeobecnené vysvetľujúce premenné, podliehajúce ďalším zmysluplný (ekonomický) výklad.

    Ortogonalita hlavných komponentov zabraňuje efektu multikolinearity. Použitá metóda nám navyše umožňuje obmedziť sa na malý počet hlavných komponentov s relatívne veľkým počtom počiatočných vysvetľujúcich premenných.

    Multikolinearita - je koncept, ktorý sa používa na opis problému, kde voľný lineárny vzťah medzi vysvetľujúcimi premennými vedie k nespoľahlivým regresným odhadom. Takáto závislosť samozrejme nemusí nevyhnutne viesť k neuspokojivým hodnoteniam. Ak sú všetky ostatné podmienky priaznivé, teda ak je počet pozorovaní a výberové rozptyly vysvetľujúcich premenných veľké a rozptyl náhodného výrazu malý, potom môžete v konečnom dôsledku získať celkom dobré odhady.

    Takže multikolinearita musí byť spôsobená kombináciou slabého vzťahu a jednej (alebo viacerých) nepriaznivých podmienok, a to je otázka

    stupeň prejavu javu, a nie jeho typ. Odhad akejkoľvek regresie tým do určitej miery utrpí, pokiaľ sa neukáže, že všetky nezávislé premenné sú úplne nekorelované. Zvažovanie tohto problému sa začína až vtedy, keď vážne ovplyvní výsledky regresného odhadu.

    Tento problém je bežný pri regresiách časových radov, to znamená, keď údaje pozostávajú z množstva pozorovaní za určité časové obdobie. Ak majú dve alebo viac nezávislých premenných silný časový trend, budú vysoko korelované, čo môže viesť k multikolinearite.


    Čo sa dá v tomto prípade urobiť?

    Rôzne techniky, ktoré možno použiť na zmiernenie multikolinearity, spadajú do dvoch kategórií: prvá kategória zahŕňa pokusy o zlepšenie miery, do akej sú splnené štyri podmienky spoľahlivosti regresných odhadov; druhá kategória zahŕňa použitie externé informácie. Ak najprv použijeme možné priamo získané údaje, potom by bolo zrejme užitočné zvýšiť počet pozorovaní.

    Ak používate údaje časových radov, môžete to urobiť skrátením trvania každého časového obdobia. Napríklad pri odhadovaní rovníc funkcie dopytu v cvičeniach 5.3 a 5.6 môžete prejsť z používania ročných údajov na štvrťročné údaje.

    Potom namiesto 25 pozorovaní bude 100. Je to také zrejmé a také jednoduché, že väčšina výskumníkov používajúcich časové rady takmer automaticky používa štvrťročné údaje, ak sú k dispozícii, namiesto ročných údajov, aj keď multikolinearita nie je problémom, len pre argumentáciu.minimálne teoretické rozptyly regresných koeficientov. S týmto prístupom však existujú potenciálne problémy. Autokorelácia môže byť zavedená alebo posilnená, ale môže byť neutralizovaná. Okrem toho sa môže zaviesť (alebo zosilniť) odchýlka v dôsledku chýb merania, ak sa štvrťročné údaje merajú s menšou presnosťou ako zodpovedajúce ročné údaje. Tento problém nie je ľahké vyriešiť, ale nemusí byť významný.

    Multikolinearita je korelácia dvoch alebo viacerých vysvetľujúcich premenných v regresnej rovnici. Môže byť funkčný (explicitný) a stochastický (skrytý). S funkčnou multikolinearitou je matica XTX degenerovaná a (XTX)-1 neexistuje, preto ju nie je možné určiť. Častejšie sa multikolinearita prejavuje v stochastickej forme, zatiaľ čo odhady OLS formálne existujú, ale majú množstvo nevýhod:

    • 1) malá zmena v počiatočných údajoch vedie k významnej zmene v regresných odhadoch;
    • 2) odhady majú veľké štandardné chyby a nízku významnosť, zatiaľ čo model ako celok je významný (vysoká hodnota R2);
    • 3) intervalové odhady koeficientov sa rozširujú, čím sa zhoršuje ich presnosť;
    • 4) je možné získať nesprávne znamienko pre regresný koeficient.

    Detekcia

    Existuje niekoľko znakov, podľa ktorých možno určiť prítomnosť multikolinearity.

    Najprv analýza korelačnej matice párových korelačných koeficientov:

    • - ak existujú dvojice premenných, ktoré majú vysoké korelačné koeficienty (> 0,75 - 0,8), hovoria o multikolinearite medzi nimi;
    • - ak sú faktory nekorelované, potom det Q = 1, ak existuje úplná korelácia, potom det Q = 0.

    Môžete skontrolovať H0: det Q = 1; pomocou štatistického testu

    kde n je počet pozorovaní, m = p+1.

    Ak, potom sa H0 zamietne a potvrdí sa multikolinearita.

    Po druhé, sú určené viacnásobné koeficienty determinácie jednej z vysvetľujúcich premenných a niektorej skupiny ďalších. Prítomnosť vysokého R2 (> 0,6) indikuje multikolinearitu.

    Po tretie, blízkosť minimálnej vlastnej hodnoty matice XTX k nule (t. j. riešenie rovnice) naznačuje, že det (XTX) je tiež blízko nule, a teda multikolinearita.

    Po štvrté, vysoké koeficienty parciálnej korelácie.

    kde sú algebraické súčty prvkov matice výberových korelačných koeficientov. Čiastočné korelačné koeficienty vyšších rádov možno určiť pomocou parciálnych korelačných koeficientov nižších rádov pomocou opakujúceho sa vzorca:

    Po piate, niektorí ľudia hovoria o prítomnosti multikolinearity vonkajšie znaky konštruovaný model, čo sú jeho dôsledky. Mali by zahŕňať nasledovné:

    • · niektoré odhady majú nesprávne znamienka z hľadiska ekonomickej teórie alebo neprimerane veľké absolútne hodnoty;
    • · malá zmena počiatočných štatistických údajov (pridanie alebo odstránenie niektorých pozorovaní) vedie k významnej zmene v odhadoch modelových koeficientov, dokonca aj k zmene ich znamienka;
    • · väčšina alebo dokonca všetky odhady regresných koeficientov sa podľa t-testu ukazujú ako štatisticky nevýznamné, zatiaľ čo model ako celok je podľa F-testu významný.

    Existuje množstvo ďalších metód na určenie multikolinearity.

    Ak je hlavnou úlohou modelu predpovedať budúce hodnoty závislej premennej, potom pri dostatočne veľkom koeficiente determinácie R2 (> 0,9) prítomnosť multikolinearity zvyčajne neovplyvňuje prediktívne vlastnosti modelu. Toto tvrdenie bude opodstatnené, ak rovnaké vzťahy medzi korelovanými premennými zostanú aj v budúcnosti.

    Ak je účelom štúdie určiť stupeň vplyvu každej z vysvetľujúcich premenných na závislú premennú, potom prítomnosť multikolinearity, čo vedie k zvýšeniu štandardné chyby, s najväčšou pravdepodobnosťou skreslí skutočné vzťahy medzi premennými. V tejto situácii je multikolinearita vážnym problémom.