Ugotavljanje prisotnosti multikolinearnosti. Opredelitev multikolinearnosti Teoretične posledice multikolinearnosti na splošno

Pri sestavljanju enačbe multiple regresije se lahko pojavi problem multikolinearnosti faktorjev. Multikolinearnost je linearna povezava med dvema ali več pojasnjevalnimi spremenljivkami, ki se lahko kaže v funkcionalni (eksplicitni) ali stohastični (latentni) obliki.
Identifikacija razmerja med izbranimi značilnostmi in kvantitativna ocena tesnosti povezave potekata z metodami korelacijske analize. Za rešitev teh problemov se najprej oceni , nato pa se na njegovi podlagi določijo parcialni in multipli korelacijski in determinacijski koeficienti ter preveri njihova pomembnost. Končni cilj korelacijske analize je izbor faktorskih karakteristik x 1, x 2,…, x m za nadaljnjo konstrukcijo regresijske enačbe.

Če sta faktorski spremenljivki povezani s strogo funkcionalno odvisnostjo, govorimo o popolna multikolinearnost. V tem primeru med stolpci matrike faktorskih spremenljivk X obstajajo linearno odvisni stolpci in zaradi lastnosti determinant matrike je det(X T X) = 0, tj. matrika (X T X) je singularna, kar pomeni, da inverzne matrike ni. Pri izdelavi ocen OLS se uporablja matrika (X T X) -1. Tako nam popolna multikolinearnost ne omogoča nedvoumne ocene parametrov izvirnega regresijskega modela.

Kakšne težave povzroča multikolinearnost dejavnikov, vključenih v model, in kako jih rešiti?

Multikolinearnost lahko povzroči neželene posledice:

  1. ocene parametrov postanejo nezanesljive. Najdejo velike standardne napake. S spreminjanjem obsega opazovanj se spreminjajo tudi ocene (ne le v velikosti, ampak tudi v predznaku), zaradi česar je model neprimeren za analizo in napovedovanje.
  2. večkratne regresijske parametre postane težko interpretirati kot značilnosti delovanja dejavnikov v »čisti« obliki, ker so dejavniki korelirani; parametri linearne regresije izgubijo ekonomski pomen;
  3. Nemogoče je določiti izoliran vpliv dejavnikov na kazalnik uspešnosti.

Vrsta multikolinearnosti, pri kateri so faktorske spremenljivke povezane z neko stohastično odvisnostjo, se imenuje delno.Če obstaja visoka stopnja korelacije med faktorskimi spremenljivkami, potem je matrika (X T X) blizu degenerirane, tj. det(X T X) ≈ 0.
Matrika (X T X) -1 bo slabo pogojena, kar vodi v nestabilnost ocen OLS. Delna multikolinearnost vodi do naslednjih posledic:

  • povečanje varianc ocen parametrov razširi intervalne ocene in poslabša njihovo natančnost;
  • zmanjšanje t-statistika koeficientov vodi do napačnih sklepov o pomembnosti dejavnikov;
  • nestabilnost ocen OLS in njihovih varianc.

Natančnih kvantitativnih meril za odkrivanje delne multikolinearnosti ni. Prisotnost multikolinearnosti je mogoče nakazati z bližino determinante matrike (X T X) na nič. Preverjene so tudi vrednosti parnih korelacijskih koeficientov. Če je determinanta medfaktorske korelacijske matrike blizu ena, potem ni multikolinearnosti.

Obstajajo različni pristopi za premagovanje močne medfaktorske korelacije. Najenostavnejši med njimi je izključitev faktorja (ali dejavnikov), ki je najbolj odgovoren za multikolinearnost, pod pogojem, da bo kakovost modela neznatno prizadeta (in sicer teoretični koeficient determinacije -R 2 y(x1...xm) ) se bo neznatno zmanjšal).

Katerega ukrepa ni mogoče uporabiti za odpravo multikolinearnosti?
a) povečanje velikosti vzorca;
b) izključitev spremenljivk, ki so močno povezane z drugimi;
c) sprememba specifikacije modela;
d) transformacija naključne komponente.

Parni (linearni) in delni korelacijski koeficienti

Tesnost povezave, na primer, med spremenljivkama x in y za vzorec vrednosti (x i, y i), i=1,n, (1)
kjer sta x in y povprečni vrednosti, sta S x in S y standardna odstopanja ustreznih vzorcev.

Parni korelacijski koeficient se spreminja od –1 do +1. Bližje kot je v absolutni vrednosti enoti, bližje je statistično razmerje med x in y linearnemu funkcionalnemu. Pozitivna vrednost koeficienta kaže, da je povezava med karakteristikama neposredna (ko x narašča, se vrednost y povečuje), negativna vrednost kaže, da je povezava obratna (ko x narašča, se vrednost y zmanjšuje).
Podamo lahko naslednjo kvalitativno interpretacijo možnih vrednosti korelacijskega koeficienta: če |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Za oceno multikolinearnosti faktorjev uporabite matriko seznanjenih korelacijskih koeficientov odvisne (rezultativne) značilnosti y s faktorskimi značilnostmi x 1, x 2,…, x m, ki vam omogoča, da ocenite stopnjo vpliva vsakega kazalnika faktorja x j na odvisna spremenljivka y, kot tudi tesnost odnosov med faktorji. Korelacijska matrika ima v splošnem primeru obliko
.
Matrica je simetrična, na njeni diagonali so ene. Če ima matrika medfaktorski korelacijski koeficient r xjxi >0,7, potem v tem modelu multiple regresije obstaja multikolinearnost.
Ker je izvorni podatek, iz katerega ugotavljamo razmerje lastnosti, vzorec iz določene generalne populacije, bodo korelacijski koeficienti, izračunani iz teh podatkov, selektivni, torej le ocenjujejo razmerje. Potreben je test pomembnosti, ki odgovori na vprašanje: ali so dobljeni rezultati izračuna naključni ali ne?
Pomen parnih korelacijskih koeficientov preverite pri t-Študentov t test. Postavljena je hipoteza, da je splošni korelacijski koeficient enak nič: H 0: ρ = 0. Nato se določijo parametri: stopnja pomembnosti α in število prostostnih stopinj v = n-2. Z uporabo teh parametrov se tcr najde iz tabele kritičnih točk Studentove porazdelitve in se iz razpoložljivih podatkov izračuna opazovana merilna vrednost:
, (2)
kjer je r parni korelacijski koeficient, izračunan iz podatkov, izbranih za študijo. Parni korelacijski koeficient velja za signifikantnega (hipoteza, da je koeficient enak nič, je zavrnjena) z verjetnostjo zaupanja γ = 1- α, če je t Obs modulo večji od t crit.
Če so spremenljivke med seboj korelirane, potem na vrednost korelacijskega koeficienta delno vpliva vpliv drugih spremenljivk.

Parcialni korelacijski koeficient označuje tesnost linearne povezave med rezultatom in ustreznim faktorjem pri izključitvi vpliva drugih dejavnikov. Parcialni korelacijski koeficient ocenjuje tesnost povezave med dvema spremenljivkama s fiksno vrednostjo drugih dejavnikov. Če se izračuna npr. r yx 1| x2 (parcialni korelacijski koeficient med y in x 1 s fiksnim vplivom x 2), to pomeni, da je določena kvantitativna mera linearne povezave med y in x 1, ki se bo zgodila, če je vpliv x 2 na te značilnosti odpraviti. Če izključimo vpliv samo enega dejavnika, dobimo delni korelacijski koeficient prvega reda.
Primerjava vrednosti parnih in delnih korelacijskih koeficientov kaže smer vpliva fiksnega faktorja. Če je delni korelacijski koeficient r yx 1| x2 bo manjši od ustreznega parnega koeficienta r ​​yx 1, kar pomeni, da je odnos med karakteristikama y in x 1 do neke mere določen z vplivom fiksne spremenljivke x 2 nanju. Nasprotno pa večja vrednost parcialnega koeficienta v primerjavi s parnim koeficientom kaže, da fiksna spremenljivka x 2 s svojim vplivom slabi razmerje med y in x 1.
Delni korelacijski koeficient med dvema spremenljivkama (y in x 2) ob izključitvi vpliva enega faktorja (x 1) lahko izračunamo po naslednji formuli:
. (3)
Za druge spremenljivke so formule sestavljene na podoben način. Pri fiksnem x 2
;
pri fiksnem x 3
.
Pomembnost parcialnih korelacijskih koeficientov preverjamo podobno kot pri parnih korelacijskih koeficientih. Edina razlika je število prostostnih stopenj, ki jih je treba vzeti enako v = n – l -2, kjer je l število fiksnih faktorjev.

Postopna regresija

Izbira faktorjev x 1 , x 2 , …, x m, vključenih v multipli regresijski model, je ena najpomembnejših stopenj ekonometričnega modeliranja. Metoda zaporednega (postopnega) vključevanja (ali izključevanja) dejavnikov v model vam omogoča, da iz možnega nabora spremenljivk izberete točno tiste, ki bodo izboljšale kakovost modela.
Pri implementaciji metode je prvi korak izračun korelacijske matrike. Na podlagi parnih korelacijskih koeficientov se razkrije prisotnost kolinearnih faktorjev. Faktorja x i in x j veljata za kolinearna, če je r xjxi >0,7. V model je vključen le eden od medsebojno povezanih dejavnikov. Če med dejavniki ni kolinearnih dejavnikov, potem vsi dejavniki, ki pomembno vplivajo na l.

V drugem koraku se sestavi regresijska enačba z eno spremenljivko, ki ima največjo absolutno vrednost parnega korelacijskega koeficienta z nastalim atributom.

V tretjem koraku se v model vnese nova spremenljivka, ki ima največjo absolutno vrednost parcialnega korelacijskega koeficienta z odvisno spremenljivko s fiksnim vplivom predhodno vnesene spremenljivke.
Ko v model vnesemo dodaten faktor, se mora koeficient determinacije povečati, rezidualna varianca pa zmanjšati. Če se to ne zgodi, tj. koeficient večkratne determinacije se nekoliko poveča, se uvedba novega faktorja šteje za neprimerno.

Primer št. 1. Za 20 podjetij v regiji je odvisnost proizvodnje na zaposlenega y (tisoč rubljev) od deleža visokokvalificiranih delavcev v skupnem številu delavcev x1 (% vrednosti sredstev ob koncu leta) in od zagona novih osnovnih sredstev x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Zahtevano:

  1. Konstruirajte korelacijsko polje med proizvodnjo na delavca in deležem visokokvalificiranih delavcev. Postavite hipotezo o bližini in vrsti razmerja med indikatorjema X1 in Y.
  2. Ocenite tesnost linearne povezave med proizvodnjo na delavca in deležem visokokvalificiranih delavcev z zanesljivostjo 0,9.
  3. Izračunajte koeficiente linearne regresijske enačbe za odvisnost proizvodnje na delavca od deleža visokokvalificiranih delavcev.
  4. Preverite statistično pomembnost parametrov regresijske enačbe z zanesljivostjo 0,9 in zanje zgradite intervale zaupanja.
  5. Izračunajte koeficient determinacije. Z uporabo Fisherjevega F testa ocenite statistično pomembnost regresijske enačbe z zanesljivostjo 0,9.
  6. Navedite točkovno in intervalno napoved z zanesljivostjo 0,9 učinka na zaposlenega za podjetje, kjer je 24 % delavcev visoko kvalificiranih.
  7. Izračunajte koeficiente enačbe linearne multiple regresije in razložite ekonomski pomen njenih parametrov.
  8. Analizirajte statistično pomembnost koeficientov več enačb z zanesljivostjo 0,9 in sestavite intervale zaupanja zanje.
  9. Poiščite parne in delne korelacijske koeficiente. Analiziraj jih.
  10. Poiščite prilagojeni koeficient večkratne determinacije. Primerjajte ga z neprilagojenim (skupnim) koeficientom determinacije.
  11. S Fisherjevim F testom ocenite ustreznost regresijske enačbe z zanesljivostjo 0,9.
  12. Podajte točkovno in intervalno napoved z zanesljivostjo 0,9 proizvodnje na zaposlenega za podjetje, v katerem je 24% delavcev visokokvalificiranih, uvedba novih osnovnih sredstev pa 5%.
  13. Preverite sestavljeno enačbo za prisotnost multikolinearnosti z: Studentovim testom; χ2 test. Primerjajte rezultate.

rešitev To naredimo s pomočjo kalkulatorja. Sledi napredek rešitve za klavzulo 13.
Matrika parnih korelacijskih koeficientov R:

- lx 1x 2
l 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

V prisotnosti multikolinearnosti je determinanta korelacijske matrike blizu ničle. Za naš primer: det = 0,00081158, kar kaže na prisotnost močne multikolinearnosti.
Za izbiro najpomembnejših dejavnikov x i se upoštevajo naslednji pogoji:
- povezava med rezultantno karakteristiko in faktorsko ena mora biti višja od medfaktorske povezave;
- razmerje med faktorji ne sme biti večje od 0,7. Če ima matrika medfaktorski korelacijski koeficient r xjxi > 0,7, potem v tem modelu multiple regresije obstaja multikolinearnost.;
- z visoko medfaktorsko povezanostjo značilnosti se izberejo faktorji z nižjim korelacijskim koeficientom med njimi.
V našem primeru ima r x 1 x 2 |r|>0,7, kar kaže na multikolinearnost faktorjev in potrebo po izključitvi enega izmed njih iz nadaljnje analize.
Analiza prve vrstice te matrike omogoča izbiro faktorskih karakteristik, ki jih je mogoče vključiti v model multiple korelacije. Značilnosti faktorjev, za katere |r yxi | 0,3 – povezave praktično ni; 0,3 ≤ |r| ≤ 0,7 - povprečna povezava; 0,7 ≤ |r| ≤ 0,9 – močna povezava; |r| > 0,9 – povezava je zelo močna.
Preverimo pomembnost dobljenih parnih korelacijskih koeficientov s Studentovim t-testom. Koeficienti, pri katerih so vrednosti modula t-statistike večje od ugotovljene kritične vrednosti, se štejejo za pomembne.
Izračunajmo opažene vrednosti t-statistike za r yx 1 z uporabo formule:

kjer je m = 1 število faktorjev v regresijski enačbi.

S pomočjo študentove tabele najdemo Ttable
t kritič (n-m-1;α/2) = (18;0,025) = 2,101
Ker t obs > t crit, zavračamo hipotezo, da je korelacijski koeficient enak 0. Z drugimi besedami, korelacijski koeficient je statistično pomemben
Izračunajmo opažene vrednosti t-statistike za r yx 2 z uporabo formule:

Ker t obs > t crit, zavračamo hipotezo, da je korelacijski koeficient enak 0. Z drugimi besedami, korelacijski koeficient je statistično pomemben
Tako je razmerje med (y in x x 1), (y in x x 2) pomembno.
Na efektivni atribut ima največji vpliv faktor x2 (r = 0,99), kar pomeni, da bo pri izdelavi modela prvi vstopil v regresijsko enačbo.
Testiranje in odpravljanje multikolinearnosti.
Najbolj popoln algoritem za proučevanje multikolinearnosti je Farrar-Globerjev algoritem. Preizkuša tri vrste multikolinearnosti:
1. Vsi faktorji (χ 2 - hi-kvadrat).
2. Vsak dejavnik z drugimi (Fisherjev kriterij).
3. Vsak par faktorjev (Studentov t-test).
Preverimo multikolinearnost spremenljivk s Farrar-Glouberjevo metodo s prvo vrsto statističnih kriterijev (hi-kvadrat test).
Formula za izračun vrednosti Farrar-Glouberjeve statistike je:
χ 2 = -ln(det[R])
kjer je m = 2 število faktorjev, n = 20 je število opazovanj, det[R] je determinanta matrike parnih korelacijskih koeficientov R.
Primerjamo jo s tabelarnimi vrednostmi pri v = m/2(m-1) = 1 prostostni stopnji in stopnji pomembnosti α. Če je χ 2 > χ tabela 2, potem obstaja multikolinearnost v vektorju faktorjev.
χ tabela 2 (1;0,05) = 3,84146
Preverimo spremenljivke na multikolinearnost z drugo vrsto statističnih kriterijev (Fisherjev test).

Preverimo spremenljivke na multikolinearnost s tretjim tipom statističnih kriterijev (Studentov test). Da bi to naredili, bomo našli delne korelacijske koeficiente.
Parcialni korelacijski koeficienti.
Parcialni korelacijski koeficient se od enostavnega linearnega parnega korelacijskega koeficienta razlikuje po tem, da meri parno korelacijo ustreznih karakteristik (y in x i), če je nanje izločen vpliv drugih dejavnikov (x j).
Na podlagi parcialnih koeficientov lahko sklepamo, da je vključitev spremenljivk v regresijski model upravičena. Če je vrednost koeficienta majhna ali nepomembna, to pomeni, da je povezava med tem faktorjem in spremenljivko izida zelo šibka ali pa je popolnoma odsotna, zato je faktor mogoče izključiti iz modela.


Gostota komunikacije je nizka.
Določimo pomembnost korelacijskega koeficienta r ​​yx 1 / x 2. Kot vidimo, se je povezava med y in x 2, če je v model vključen x 1, zmanjšala. Iz tega lahko sklepamo, da vnos x 2 v regresijsko enačbo ostaja neustrezen.
Sklepamo lahko, da je treba pri sestavljanju regresijske enačbe izbrati faktorja x 1, x 2.

Primer št. 2. Za 30 opazovanj se je izkazalo, da je matrika parnih korelacijskih koeficientov naslednja:

lx 1x 2x 3
l1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
Ocenite multikolinearnost faktorjev. Sestavite regresijsko enačbo na standardni lestvici in naredite zaključke.
  • 4. Statistična ocena parametrov PLR z metodo najmanjših kvadratov. Ocene lastnosti najmanjših kvadratov
  • Lastnosti ocen najmanjših kvadratov:
  • 5. Preverjanje kakovosti multiple linearne regresije: pomembnost parametrov, intervali zaupanja, ustreznost modela. Napovedovanje.
  • 6. Multipla linearna regresija (MLR). Klasične predpostavke. OLS ocena parametrov modela.
  • 7. Lastnosti ocen OLS večkratne linearne regresije. Gauss-Markov izrek.
  • 8. Preverjanje kakovosti multiple linearne regresije: pomembnost parametrov, intervali zaupanja, ustreznost modela. Napovedovanje.
  • 5. Koeficient Odločitve
  • Napovedovanje z uporabo modela večkratne linearne regresije
  • 9. Specifikacija ekonometričnega modela: metode in diagnostika za izbiro eksogenih spremenljivk. Ramsey in Amemya testa.
  • Ramseyev kriterij:
  • 10. Specifikacija ekonometričnega modela: izbira oblike odvisnosti nelinearnega modela
  • Načela specifikacije
  • 11. Problem multikolinearnosti. Posledice prisotnosti in diagnoza multikolinearnosti.
  • Metode za diagnosticiranje multikolinearnosti:
  • 12. Metode za odpravo multikolinearnosti. Metoda glavne komponente. Regresija grebena.
  • 13. Problemi heteroskedastičnosti modela. Merila za njegovo diagnozo.
  • 1. Parkovni kriterij.
  • 2. Goldfeld-Quandtov kriterij.
  • 3. Breusch-Paganov kriterij.
  • 4. Beli kriterij.
  • 14. Posplošeni najmanjši kvadrati (oms). Lastnosti ocen mlr za omnk. Metoda uteženih najmanjših kvadratov v problemu ocenjevanja parametrov modela. Lastnosti ocen z uporabo tehtanih najmanjših kvadratov.
  • Vprašanje 15. Problem avtokorelacije ostankov modela. Posledice avtokorelacije pri uporabi modela.
  • Razlogi za avtokorelacijo ostankov
  • Posledice avtokorelacije:
  • 16. Diagnostični kriterij Durbin-Watsonove avtokorelacije
  • 17. Metode za odpravo avtokorelacije. Postopka točkovanja Cochrane-Orcutt in Hildreth-Lou
  • 18. Modeli s porazdeljenimi zamiki: struktura zamikov po Koiku: Posebni primeri (model z nepopolno prilagoditvijo in prilagodljivimi pričakovanji)
  • 19 Modeli s porazdeljenimi zamiki: linearno-aritmetična struktura zamikov in polinomska struktura zamikov po Almonu
  • 20. h-Durbinov test in večkratni Lagrangeov test za preverjanje avtokorelacije v modelih z zamikom
  • 21. Koncept časovne vrste (čas). VR model, glavne naloge VR analize. Metode časovnega glajenja (drseče povprečje, eksponentno glajenje, zaporedne razlike)
  • 22 Stacionarnost časovne vrste (čas). Značilnosti korelacije stopenj temp.
  • 23 Stacionarni modeli časovnih vrst: avtoregresija, drseče povprečje, arsc
  • 24. Nestacionarni model arisa. Ocena parametrov modela.
  • 28. Napovedovanje časovnih vrst. Indikatorji točnosti napovedi.
  • 30. Chowov test za diagnosticiranje vključitve navideznih spremenljivk v ekonometrični model.
  • 32. Sistemi simultanih ekonometričnih enačb (SOE). Strukturna in pomanjšana oblika sistema (grafični in matrični prikaz).
  • 33. Problemi identifikacije sistemov simultanih enačb (SOE). Identifikabilnost sojinih enačb (ordinalni in rang kriterij)
  • 34. Metode ocenjevanja sistemov simultanih enačb: indirektna metoda najmanjših kvadratov, dvostopenjska metoda najmanjših kvadratov. Uporabnost in lastnosti ocen
  • 35. Trenutno stanje ekonometrije. Primeri velikih ekonometričnih modelov
  • 11. Problem multikolinearnosti. Posledice prisotnosti in diagnoza multikolinearnosti.

    Če je na voljo linearno razmerje eksogenih spremenljivk , na primer, potem ocene OLS ne bodo obstajale, ker ni obratne matrike, ki bi bila singularna. To stanje v ekonometriji imenujemo problem multikolinearnost.

    Razlogi za multikolinearnost:

    nepravilna specifikacija modela

    neprevidno zbiranje statističnih podatkov (uporaba ponavljajočih se opazovanj).

    Razlikovati eksplicitno in implicitno multikolinearnost.

    Eksplicitno - znano natančno linearno razmerje med spremenljivkami modela.

    Na primer, če model naložbenega procesa vključuje nominalne in realne obrestne mere, tj.

    kjer je znano razmerje med realnimi in nominalnimi stopnjami ter stopnjo inflacije

    potem je očitna multikolinearnost.

    Implicitno se pojavi, ko obstaja stohastična (negotova, naključna) linearna odvisnost med eksogenimi spremenljivkami.

    implicitno prevladuje, njegova prisotnost je značilna za6 znakov :

    1. OLS ocene parametrov modela izgubijo svoje neizpodrinjene lastnosti .

    2. Varianca ocen OLS poveča:

    Zaradi dejstva, da korelacijski koeficient, torej, ki vključuje

    3. Obstaja zmanjšanje t- statistike, ki so pokazatelji pomembnosti parametrov:

    4. Koeficient determinacije ni več merilo ustreznosti modela, saj nizke vrednosti t-statistiki vodijo v nezaupanje v izbrani model odvisnosti.

    5. Ocene parametrov za nekolinearne eksogene spremenljivke postanejo zelo občutljive na spremembe podatkov.

    6. Ocene parametrov za nekolinearne eksogene spremenljivke postanejo nepomembne.

    Metode za diagnosticiranje multikolinearnosti:

    Korak 1. V (začetnem) modelu multiple linearne regresije bomo šli skozi vse podmodele, v katerih katera koli eksogena spremenljivka postane endogena, tj.

    2. korak Izračunamo koeficiente determinacije vseh nastalih modelov, na podlagi katerih izračunamo ti faktorje inflacije:

    Če , potem sklepajo, da multikolinearnost obstaja.

    a) ne spreminjajo nobene strukture v modelu, ampak z uporabo računalniških najmanjših kvadratov analizirajo prisotnost problema multikolinearnosti z vizualnimi metodami.

    b) izboljšati specifikacijo modela z odpravo kolinearnih eksogenih spremenljivk iz izvirnega modela.

    c) povečati obseg statističnih podatkov.

    d) združiti kolinearne spremenljivke in v model vključiti skupno eksogeno spremenljivko.

    12. Metode za odpravo multikolinearnosti. Metoda glavne komponente. Regresija grebena.

    Če je glavna naloga modela napovedati prihodnje vrednosti odvisne spremenljivke, potem z dovolj velikim koeficientom determinacije R2 (≥ 0,9) prisotnost multikolinearnosti pogosto ne vpliva na napovedne lastnosti modela.

    Če je namen študije določiti stopnjo vpliva vsake od pojasnjevalnih spremenljivk na odvisno spremenljivko, potem bo prisotnost multikolinearnosti izkrivljala prave odnose med spremenljivkami. V tej situaciji se zdi multikolinearnost resen problem.

    Upoštevajte, da ni enotne metode za odpravo multikolinearnosti, ki bi bila primerna v vsakem primeru. Vzroki in posledice multikolinearnosti so namreč dvoumni in v veliki meri odvisni od rezultatov vzorca.

    METODE:

    Izključitev spremenljivk(e) iz modela

    Na primer, ko preučujemo povpraševanje po določenem blagu, lahko kot pojasnjevalne spremenljivke uporabimo ceno tega blaga in cene nadomestkov za to blago, ki med seboj pogosto korelirajo. Z izključitvijo cen nadomestkov iz modela lahko povzročimo napako v specifikaciji. Posledično je mogoče pridobiti pristranske ocene in narediti neutemeljene sklepe. V uporabljenih ekonometričnih modelih je zaželeno, da se razlagalne spremenljivke ne izključujejo, dokler kolinearnost ne postane resen problem.

    Pridobivanje več podatkov ali novega vzorca

    Včasih je dovolj, da povečate velikost vzorca. Če na primer uporabljate letne podatke, se lahko premaknete na četrtletne podatke. Povečanje količine podatkov zmanjša varianco regresijskih koeficientov in s tem poveča njihovo statistično pomembnost. Vendar pridobitev novega vzorca ali razširitev starega ni vedno mogoča ali je povezana z resnimi stroški. Poleg tega lahko ta pristop okrepi avtokorelacijo. Te težave omejujejo zmožnost uporabe ta metoda.

    Spreminjanje specifikacij modela

    V nekaterih primerih je problem multikolinearnosti mogoče rešiti s spremembo specifikacije modela: bodisi s spremembo oblike modela bodisi z dodajanjem pojasnjevalnih spremenljivk, ki niso upoštevane v izvirnem modelu, vendar pomembno vplivajo na odvisno spremenljivko. .

    Uporaba vnaprejšnjih informacij o nekaterih parametrih

    Včasih lahko pri izdelavi modela večkratne regresije uporabite nekaj predhodnih informacij, zlasti znane vrednosti nekaterih regresijskih koeficientov. Verjetno je mogoče vrednosti koeficientov, pridobljenih za nekatere preliminarne (običajno preprostejše) modele ali za podoben model, ki temelji na predhodno pridobljenem vzorcu, uporabiti za tistega, ki se razvija v ta trenutek modeli.

    Za ponazoritev navajamo naslednji primer. Regresija je zgrajena. Predpostavimo, da sta spremenljivki X1 in X2 korelirani. Za predhodno izdelan parni regresijski model Y = γ0 + γ1X1+υ je bil določen statistično pomemben koeficient γ1 (za določnost naj bo γ1 = 0,8), ki povezuje Y z X1. Če obstaja razlog za domnevo, da bo razmerje med Y in X1 ostalo nespremenjeno, potem lahko nastavimo γ1 = β1 = 0,8. Nato:

    Y = β0 + 0,8X1 + β2X2 + ε. ⇒ Y – 0,8X1 = β0 + β2X2 + ε.

    Enačba je pravzaprav regresijska enačba po parih, za katero problem multikolinearnosti ne obstaja.

    Omejitve uporabe te metode so posledica:

      Pridobivanje predhodnih informacij je pogosto težko,

      verjetnost, da bo dodeljeni regresijski koeficient enak za razni modeli, ne visoko.

    Pretvarjanje spremenljivk

    V nekaterih primerih lahko problem multikolinearnosti minimiziramo ali celo odpravimo s transformacijo spremenljivk.

    Naj bo na primer empirična regresijska enačba Y = b0 + b1X1 + b2X2

    kjer sta X1 in X2 korelirani spremenljivki. V tej situaciji lahko poskusite določiti regresijske odvisnosti relativnih vrednosti. Verjetno je, da v podobnih modelih problem multikolinearnosti ne bo prisoten.

    Metoda glavne komponente je ena glavnih metod za izločanje spremenljivk iz modela multiple regresije.

    Ta metoda se uporablja za odpravo ali zmanjšanje multikolinearnosti faktorskih spremenljivk v regresijskem modelu. Bistvo metode : zmanjševanje števila faktorskih spremenljivk na najpomembnejše vplivne dejavnike . To dosežemo z linearno transformacijo vseh faktorskih spremenljivk xi (i=0,...,n) v nove spremenljivke, imenovane glavne komponente, tj. izvede se prehod iz matrike faktorskih spremenljivk X v matriko glavnih komponent F. V tem primeru je postavljena zahteva, da izbor prve glavne komponente ustreza maksimumu skupne variance vseh faktorskih spremenljivk xi (i=0,...,n), druga komponenta pa maksimumu preostala varianca, po izločitvi vpliva prve glavne komponente itd.

    Če nobene od faktorskih spremenljivk, vključenih v model multiple regresije, ni mogoče izključiti, potem se uporabi ena od glavnih pristranskih metod za ocenjevanje koeficientov regresijskega modela - grebenska regresija ali greben. Pri uporabi grebenske regresijske metode majhno število je dodano vsem diagonalnim elementom matrike (XTX) τ: 10-6 ‹ τ ‹ 0,1. Ocena neznanih parametrov modela multiple regresije se izvede po formuli:

    kjer je ln identitetna matrika.

    Temeljne določbe

    Če so regresorji v modelu povezani s strogo funkcionalno odvisnostjo, potem popolna (popolna) multikolinearnost. Ta vrsta multikolinearnost se lahko pojavi na primer pri problemu linearne regresije, rešenem z metodo najmanjših kvadratov, če je determinanta matrike enaka nič. Popolna multikolinearnost nam ne omogoča nedvoumne ocene parametrov izvirnega modela in ločevanja prispevkov regresorjev k izhodni spremenljivki na podlagi rezultatov opazovanj.

    Pri problemih z realnimi podatki je primer popolne multikolinearnosti izjemno redek. Namesto tega imamo pogosto opravka v domeni uporabe delna multikolinearnost, za katerega so značilni parni korelacijski koeficienti med regresorji. V primeru delne multikolinearnosti bo matrika imela polni rang, vendar bo njena determinanta blizu ničle. V tem primeru je formalno mogoče dobiti ocene parametrov modela in njihove kazalnike točnosti, vendar bodo vsi nestabilni.

    Med posledicami delne multikolinearnosti so naslednje:

    • povečanje varianc ocen parametrov
    • zmanjšanje t-statističnih vrednosti za parametre, kar vodi do napačnega sklepa o njihovi statistični pomembnosti
    • pridobivanje nestabilnih ocen parametrov modela in njihovih varianc
    • možnost pridobitve nepravilnega predznaka s teoretičnega vidika ocene parametra

    Natančnih kvantitativnih meril za odkrivanje delne multikolinearnosti ni. Najpogosteje se kot znaki njegove prisotnosti uporabljajo:

    Metode za odpravo multikolinearnosti

    Obstajata dva glavna pristopa k reševanju tega problema.

    Ne glede na to, kako poteka izbor dejavnikov, zmanjšanje njihovega števila vodi do izboljšanja pogojenosti matrike in posledično do povečanja kakovosti ocen parametrov modela.

    Poleg naštetih metod obstaja še ena, preprostejša, ki daje dokaj dobre rezultate - to je metoda predcentriranja. Bistvo metode je, da pred iskanjem parametrov matematični model Izvorni podatki so centrirani: povprečje niza se odšteje od vsake vrednosti v podatkovnem nizu: . Ta postopek nam omogoča, da ločimo hiperravnine pogojev LSM tako, da so koti med njimi pravokotni. Zaradi tega postanejo ocene modela stabilne (Konstrukcija večfaktorskih modelov v pogojih multikolinearnosti).

    Zvezna agencija za izobraževanje in znanost Ruske federacije

    Državna tehnološka univerza Kostroma.

    Oddelek za višjo matematiko

    v ekonometriji na temo:

    Multikolinearnost

    Izvedeno

    Študentka 1. letnika

    dopisna fakulteta

    spanje "Računovodstvo"

    analizo in revizijo."

    sem preveril

    Katerzhina S.F.

    Kostroma 2008


    Multikolinearnost

    Multikolinearnost se nanaša na visoko medsebojno korelacijo pojasnjevalnih spremenljivk. Multikolinearnost se lahko kaže v funkcionalni (eksplicitni) in stohastični (skriti) obliki.

    V funkcionalni obliki multikolinearnosti po vsaj eden od parnih odnosov med pojasnjevalnimi spremenljivkami je linearni funkcionalni odnos. V tem primeru je matrika X`X posebna, saj vsebuje linearno odvisne stolpčne vektorje, njena determinanta pa je enaka nič, tj. predpostavka regresijske analize je kršena, kar vodi v nezmožnost reševanja ustreznega sistema normalnih enačb in pridobivanja ocen parametrov regresijskega modela.

    V ekonomskih raziskavah pa se multikolinearnost pogosteje kaže v stohastični obliki, ko obstaja tesna korelacija med vsaj dvema pojasnjevalnima spremenljivkama. Matrika X`X v tem primeru ni singularna, vendar je njena determinanta zelo majhna.

    Hkrati sta vektor ocen b in njegova kovariančna matrika ∑ b sorazmerna inverzna matrika(X`X) -1 , kar pomeni, da so njihovi elementi obratno sorazmerni z vrednostjo determinante |X`X|. Posledično so pridobljeni pomembni standardni odkloni (standardne napake) regresijskih koeficientov b 0 , b 1 , ..., b p in ocenjevanje njihove pomembnosti s t-testom ni smiselno, čeprav se na splošno regresijski model lahko obrne z uporabo F-testa za pomembne.

    Ocene postanejo zelo občutljive na majhne spremembe v opazovanjih in velikosti vzorca. Regresijske enačbe v tem primeru praviloma nimajo pravega pomena, saj imajo lahko nekateri njeni koeficienti nepravilne predznake z vidika ekonomske teorije in nerazumno velike vrednosti.

    Natančnih kvantitativnih kriterijev za ugotavljanje prisotnosti ali odsotnosti multikolinearnosti ni. Vendar pa obstaja nekaj hevrističnih pristopov za njegovo prepoznavanje.

    En tak pristop je analiza korelacijske matrike med pojasnjevalnimi spremenljivkami X 1 , X 2 , ..., X p in identificiranje parov spremenljivk, ki imajo visoke korelacije spremenljivk (običajno večje od 0,8). Če takšne spremenljivke obstajajo, velja, da so multikolinearne. Koristno je tudi najti več koeficientov determinacije med eno od pojasnjevalnih spremenljivk in njihovo skupino. Prisotnost visokega večkratnega koeficienta determinacije (običajno večjega od 0,6) kaže na multikolinearnost.

    Drug pristop je preučiti matriko X`X. Če je determinanta matrike X`X ali njena minimalna lastna vrednost λ min blizu nič (na primer istega reda s kopičenjem računskih napak), potem to kaže na prisotnost multikolinearnosti. Enako je lahko označeno s pomembnim odstopanjem največje lastne vrednosti λ max matrike X`X od njene najmanjše lastne vrednosti λ min .

    Za odpravo ali zmanjšanje multikolinearnosti se uporabljajo številne metode. Najenostavnejša med njimi (vendar ne vedno možna) je, da od dveh pojasnjevalnih spremenljivk, ki imata visok korelacijski koeficient (več kot 0,8), eno spremenljivko izločimo iz obravnave. Pri tem se o tem, katero spremenljivko iz analize izpustiti in katero odstraniti, odloča predvsem na podlagi ekonomskih premislekov. Če z ekonomskega vidika nobeni od spremenljivk ni mogoče dati prednosti, se obdrži tista od obeh spremenljivk, ki ima višji korelacijski koeficient z odvisno spremenljivko.

    Druga metoda za odpravo ali zmanjšanje multikolinearnosti je prehod od nepristranskih ocen, določenih z metodo najmanjših kvadratov, k pristranskim ocenam, ki pa imajo manjšo disperzijo glede na ocenjeni parameter, tj. manjše matematično pričakovanje kvadrata odstopanja ocene b j od parametra β j ali M (b j - β j) 2.

    Ocene, določene z vektorjem, imajo v skladu z Gauss-Markovovim izrekom najmanjše variance v razredu vseh linearnih nepristranskih ocenjevalcev, toda ob prisotnosti multikolinearnosti so lahko te variance prevelike in obračanje na ustrezne pristranske ocenjevalce lahko izboljšati natančnost ocenjevanja regresijskih parametrov. Slika prikazuje primer pristranske ocene β j ^, katere porazdelitev vzorčenja je podana z gostoto φ (β j ^).

    Dejansko naj bo največji dopustni interval zaupanja za ocenjeni parameter β j (β j -Δ, β j +Δ). Potem bo verjetnost zaupanja ali zanesljivost ocene, določena s površino pod porazdelitveno krivuljo na intervalu (β j -Δ, β j +Δ), kot je razvidno iz slike, v tem primeru večja za oceno β j v primerjavi z b j (na sliki so ta področja osenčena). V skladu s tem bo povprečni kvadrat odstopanja ocene od ocenjenega parametra manjši za pristransko oceno, tj.:

    M (β j ^ - β j) 2< M (b j - β j) 2

    Pri uporabi "grebenske regresije" (ali "grebenske regresije") namesto nepristranskih ocen upoštevamo pristranske ocene, ki jih določa vektor

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    Kje τ – neko pozitivno število, imenovano "greben" ali "greben"

    E p +1 – enotska matrika (p+1) –tega reda.

    Dodatek τ na diagonalne elemente matrike X`X premakne ocene parametrov modela, hkrati pa se poveča determinanta matrike sistema normalnih enačb - namesto (X`X) bo iz enak

    |X`X+τ E p +1 |

    Tako postane mogoče izključiti multikolinearnost v primeru, ko je determinanta |X`X| blizu ničle.

    Za odpravo multikolinearnosti je mogoče uporabiti prehod od prvotnih razlagalnih spremenljivk X 1 , X 2 ,…, X n , ki so med seboj povezane z dokaj tesno korelacijo, na nove spremenljivke, ki predstavljajo linearne kombinacije prvotnih. V tem primeru morajo biti nove spremenljivke šibko korelirane ali popolnoma nekorelirane. Kot take spremenljivke vzamemo na primer tako imenovane glavne komponente vektorja začetnih pojasnjevalnih spremenljivk, ki jih proučujemo v komponentni analizi, in upoštevamo regresijo na glavne komponente, v kateri slednje delujejo kot posplošene pojasnjevalne spremenljivke, podvržene nadaljnjim smiselna (ekonomska) interpretacija.

    Ortogonalnost glavnih komponent preprečuje učinek multikolinearnosti. Poleg tega nam uporabljena metoda omogoča, da se omejimo na majhno število glavnih komponent z relativno velikim številom začetnih pojasnjevalnih spremenljivk.

    multikolinearnost - je koncept, ki se uporablja za opis problema, kjer ohlapno linearno razmerje med pojasnjevalnimi spremenljivkami povzroči nezanesljive regresijske ocene. Seveda pa takšna odvisnost ne vodi nujno v nezadovoljive ocene. Če so vsi drugi pogoji ugodni, to je, če je število opazovanj in vzorčnih varianc pojasnjevalnih spremenljivk veliko, varianca naključnega člena pa majhna, potem lahko na koncu dobite precej dobre ocene.

    Torej mora multikolinearnost povzročiti kombinacija šibkega odnosa in enega (ali več) neugodnega stanja, in to je vprašanje

    stopnja manifestacije pojava in ne njegova vrsta. Ocena morebitne regresije bo zaradi tega do neke mere prizadeta, razen če se izkaže, da so vse neodvisne spremenljivke popolnoma nekorelirane. Obravnava tega problema se začne šele, ko resno vpliva na rezultate regresijske ocene.

    Ta težava je pogosta pri regresijah časovnih vrst, to je, ko so podatki sestavljeni iz številnih opazovanj v določenem časovnem obdobju. Če imata dve ali več neodvisnih spremenljivk močan časovni trend, bosta močno korelirani, kar lahko privede do multikolinearnosti.


    Kaj je mogoče storiti v tem primeru?

    Različne tehnike, ki jih je mogoče uporabiti za ublažitev multikolinearnosti, spadajo v dve kategoriji: prva kategorija vključuje poskuse izboljšanja stopnje, do katere so izpolnjeni štirje pogoji za zanesljivost regresijskih ocen; druga kategorija vključuje uporabo zunanje informacije. Če najprej uporabimo morebitne neposredno pridobljene podatke, bi bilo očitno koristno povečati število opazovanj.

    Če uporabljate podatke o časovni vrsti, lahko to storite tako, da skrajšate trajanje vsakega časovnega obdobja. Na primer, ko ocenjujete enačbe funkcije povpraševanja v vajah 5.3 in 5.6, lahko preklopite z uporabe letnih podatkov na četrtletne podatke.

    Po tem bo namesto 25 opazovanj 100. To je tako očitno in tako enostavno narediti, da večina raziskovalcev, ki uporabljajo časovne vrste, skoraj samodejno uporablja četrtletne podatke, če so na voljo, namesto letnih podatkov, tudi če večkolinearnost ni problem, samo zaradi argumenta minimalne teoretične variance regresijskih koeficientov. Vendar pa obstajajo možne težave s tem pristopom. Avtokorelacijo lahko uvedemo ali okrepimo, lahko pa jo nevtraliziramo. Poleg tega se lahko pojavi (ali poveča) pristranskost zaradi merilnih napak, če se četrtletni podatki merijo manj natančno kot ustrezni letni podatki. Te težave ni lahko rešiti, vendar morda ni pomembna.

    Multikolinearnost je korelacija dveh ali več razlagalnih spremenljivk v regresijski enačbi. Lahko je funkcionalna (eksplicitna) in stohastična (skrita). S funkcionalno multikolinearnostjo je matrika XTX degenerirana in (XTX)-1 ne obstaja, zato je ni mogoče določiti. Pogosteje se multikolinearnost kaže v stohastični obliki, medtem ko ocene OLS formalno obstajajo, vendar imajo številne pomanjkljivosti:

    • 1) majhna sprememba začetnih podatkov vodi do pomembne spremembe regresijskih ocen;
    • 2) ocene imajo velike standardne napake in nizko signifikantnost, medtem ko je model kot celota signifikanten (visoka vrednost R2);
    • 3) intervalne ocene koeficientov se razširijo, kar poslabša njihovo natančnost;
    • 4) možno je dobiti napačen predznak za regresijski koeficient.

    Odkrivanje

    Obstaja več znakov, s katerimi lahko ugotovimo prisotnost multikolinearnosti.

    Najprej analiza korelacijske matrike parnih korelacijskih koeficientov:

    • - če obstajajo pari spremenljivk, ki imajo visoke korelacijske koeficiente (> 0,75 - 0,8), govorijo o multikolinearnosti med njimi;
    • - če faktorja nista korelirana, potem je det Q = 1, če obstaja popolna korelacija, potem je det Q = 0.

    Lahko preverite H0: det Q = 1; z uporabo statističnega testa

    kjer je n število opazovanj, m = p+1.

    Če, potem je H0 zavrnjen in multikolinearnost dokazana.

    Drugič, določimo več koeficientov determinacije ene od pojasnjevalnih spremenljivk in nekatere skupine drugih. Prisotnost visokega R2 (> 0,6) kaže na multikolinearnost.

    Tretjič, bližina ničle minimalne lastne vrednosti matrike XTX (tj. rešitev enačbe) kaže, da je tudi det(XTX) blizu ničle in zato multikolinearnost.

    Četrtič, visoki delni korelacijski koeficienti.

    kjer so algebraični dodatki elementov matrike vzorčnih korelacijskih koeficientov. Delne korelacijske koeficiente višjih redov je mogoče določiti preko delnih korelacijskih koeficientov nižjih redov z uporabo rekurentne formule:

    Petič, nekateri ljudje govorijo o prisotnosti multikolinearnosti zunanji znaki izdelanega modela, katere so njegove posledice. Ti bi morali vključevati naslednje:

    • · nekatere ocene imajo nepravilne predznake z vidika ekonomske teorije ali nerazumno visoke absolutne vrednosti;
    • · majhna sprememba začetnih statističnih podatkov (dodajanje ali odvzem nekaterih opazovanj) vodi do pomembne spremembe ocen koeficientov modela, celo do spremembe njihovih predznakov;
    • · večina ali celo vse ocene regresijskih koeficientov se po t-testu izkažejo za statistično neznačilne, po F-testu pa je model kot celota za signifikantne.

    Obstajajo številne druge metode za določanje multikolinearnosti.

    Če je glavna naloga modela napovedovanje prihodnjih vrednosti odvisne spremenljivke, potem z dovolj velikim koeficientom determinacije R2 (> 0,9) prisotnost multikolinearnosti običajno ne vpliva na napovedne lastnosti modela. Ta trditev bo upravičena, če bodo enaka razmerja med koreliranimi spremenljivkami ostala tudi v prihodnje.

    Če je namen študije določiti stopnjo vpliva vsake od pojasnjevalnih spremenljivk na odvisno spremenljivko, potem prisotnost multikolinearnosti, ki vodi do povečanja standardne napake, bo najverjetneje popačil prave odnose med spremenljivkami. V tej situaciji je multikolinearnost resen problem.