Određivanje prisustva multikolinearnosti. Definicija multikolinearnosti Teorijske implikacije multikolinearnosti općenito

Prilikom konstruisanja jednačine višestruke regresije može se pojaviti problem multikolinearnosti faktora. Multikolinearnost je linearna veza između dvije ili više eksplanatornih varijabli, koja se može manifestirati u funkcionalnom (eksplicitnom) ili stohastičkom (latentnom) obliku.
Identifikacija odnosa između odabranih karakteristika i kvantitativna procjena bliskosti veze vrše se korištenjem metoda korelacione analize. Za rješavanje ovih problema prvo se procjenjuje , a zatim se na osnovu njega određuju parcijalni i višestruki koeficijenti korelacije i determinacije i provjerava njihova značajnost. Krajnji cilj korelacione analize je odabir faktorskih karakteristika x 1, x 2,…, x m za dalju konstrukciju regresione jednačine.

Ako su faktorske varijable povezane strogom funkcionalnom zavisnošću, onda govorimo o puna multikolinearnost. U ovom slučaju, među stupcima matrice faktorskih varijabli X postoje linearno zavisni stupci i, prema svojstvu determinanti matrice, det(X T X) = 0, tj. matrica (X T X) je singularna, što znači da ne postoji inverzna matrica. Matrica (X T X) -1 se koristi za konstruisanje OLS procjena. Dakle, potpuna multikolinearnost nam ne dozvoljava nedvosmislenu procjenu parametara originalnog regresijskog modela.

Do kojih poteškoća dovodi multikolinearnost faktora uključenih u model i kako se one mogu riješiti?

Multikolinearnost može dovesti do neželjenih posljedica:

  1. procjene parametara postaju nepouzdane. Pronalaze velike standardne greške. Kako se obim opažanja mijenja, mijenjaju se i procjene (ne samo po veličini, već i po predznaku), što model čini neprikladnim za analizu i predviđanje.
  2. postaje teško interpretirati više parametara regresije kao karakteristike djelovanja faktora u „čistom“ obliku, jer su faktori u korelaciji; parametri linearne regresije gube ekonomski smisao;
  3. Postaje nemoguće odrediti izolovani uticaj faktora na indikator učinka.

Tip multikolinearnosti u kojem su faktorske varijable povezane nekom stohastičkom zavisnošću naziva se djelomično. Ako postoji visok stepen korelacije između faktorskih varijabli, onda je matrica (X T X) blizu degeneracije, tj. det(X T X) ≈ 0.
Matrica (X T X) -1 će biti loše uslovljena, što dovodi do nestabilnosti OLS procjena. Djelomična multikolinearnost dovodi do sljedećih posljedica:

  • povećanje varijansi procjena parametara proširuje procjene intervala i pogoršava njihovu tačnost;
  • smanjiti t-statistika koeficijenata dovodi do pogrešnih zaključaka o značaju faktora;
  • nestabilnost OLS procjena i njihove varijanse.

Ne postoje precizni kvantitativni kriterijumi za otkrivanje delimične multikolinearnosti. Prisustvo multikolinearnosti može biti naznačeno blizinom determinante matrice (X T X) nuli. Također se ispituju vrijednosti koeficijenata parne korelacije. Ako je determinanta matrice međufaktorske korelacije blizu jedan, onda nema multikolinearnosti.

Postoje različiti pristupi za prevazilaženje jake međufaktorske korelacije. Najjednostavniji od njih je isključenje iz modela faktora (ili faktora) najodgovornijih za multikolinearnost, pod uslovom da će kvalitet modela neznatno patiti (naime, teorijski koeficijent determinacije -R 2 y(x1...xm ) će se neznatno smanjiti) .

Koja mjera se ne može koristiti za uklanjanje multikolinearnosti?
a) povećanje veličine uzorka;
b) isključivanje varijabli koje su u visokoj korelaciji s drugima;
c) promjena specifikacije modela;
d) transformacija slučajne komponente.

Upareni (linearni) i parcijalni koeficijenti korelacije

Bliskost veze, na primjer, između varijabli x i y za uzorak vrijednosti (x i, y i), i=1,n, (1)
gdje su x i y prosječne vrijednosti, S x i S y su standardne devijacije odgovarajućih uzoraka.

Koeficijent parne korelacije varira od –1 do +1. Što je po apsolutnoj vrijednosti bliže jedinici, to je statistički odnos između x i y bliži linearnom funkcionalnom. Pozitivna vrijednost koeficijenta ukazuje da je odnos između karakteristika direktan (kako se x povećava, povećava se vrijednost y), negativna vrijednost ukazuje da je odnos inverzan (kako se x povećava, vrijednost y opada).
Možemo dati sljedeću kvalitativnu interpretaciju mogućih vrijednosti koeficijenta korelacije: ako je |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Za procjenu multikolinearnosti faktora koristite matricu uparenih koeficijenata korelacije zavisne (rezultativne) karakteristike y sa faktorskim karakteristikama x 1, x 2,…, x m, što vam omogućava da procijenite stepen uticaja svakog faktorskog indikatora x j na zavisna varijabla y, kao i bliskost odnosa između faktora . Korelaciona matrica u opštem slučaju ima oblik
.
Matrica je simetrična, ima ih na dijagonali. Ako matrica ima koeficijent međufaktorske korelacije r xjxi >0,7, tada postoji multikolinearnost u ovom modelu višestruke regresije.
Budući da su početni podaci iz kojih se uspostavlja odnos karakteristika uzorak iz određene opšte populacije, koeficijenti korelacije izračunati iz ovih podataka biće selektivni, odnosno samo procjenjuju odnos. Potreban je test značajnosti koji odgovara na pitanje: da li su dobijeni rezultati proračuna slučajni ili ne?
Značaj koeficijenata parne korelacije provjerite t- Studentov t test. Postavlja se hipoteza da je opšti koeficijent korelacije jednak nuli: H 0: ρ = 0. Zatim se postavljaju parametri: nivo značajnosti α i broj stepeni slobode v = n-2. Koristeći ove parametre, tcr se nalazi iz tabele kritičnih tačaka Studentove distribucije, a iz dostupnih podataka se izračunava uočena vrijednost kriterija:
, (2)
gdje je r koeficijent uparene korelacije izračunat iz podataka odabranih za studiju. Upareni koeficijent korelacije se smatra značajnim (hipoteza da je koeficijent jednak nuli se odbacuje) sa vjerovatnoćom pouzdanosti γ = 1- α, ako je t Obs modulo veći od t crit.
Ako su varijable međusobno povezane, tada na vrijednost koeficijenta korelacije djelomično utiče utjecaj drugih varijabli.

Parcijalni koeficijent korelacije karakteriše bliskost linearne veze između rezultata i odgovarajućeg faktora kada se eliminišu uticaji drugih faktora. Parcijalni koeficijent korelacije procjenjuje bliskost odnosa između dvije varijable sa fiksnom vrijednošću ostalih faktora. Ako se izračuna, na primjer, r yx 1| x2 (parcijalni koeficijent korelacije između y i x 1 sa fiksnim uticajem od x 2), to znači da je određena kvantitativna mera linearne veze između y i x 1, koja će se desiti ako je uticaj x 2 na ove karakteristike eliminisan. Ako se isključi uticaj samo jednog faktora, dobijamo parcijalni koeficijent korelacije prvog reda.
Poređenje vrijednosti parnih i parcijalnih koeficijenata korelacije pokazuje smjer utjecaja fiksnog faktora. Ako je parcijalni koeficijent korelacije r yx 1| x2 će biti manji od odgovarajućeg koeficijenta para r yx 1, što znači da je odnos između karakteristika y i x 1 u određenoj mjeri određen uticajem fiksne varijable x 2 na njih. Suprotno tome, veća vrijednost parcijalnog koeficijenta u odnosu na koeficijent para ukazuje da fiksna varijabla x 2 svojim uticajem slabi odnos između y i x 1.
Parcijalni koeficijent korelacije između dvije varijable (y i x 2) kada se isključi utjecaj jednog faktora (x 1) može se izračunati pomoću sljedeće formule:
. (3)
Za ostale varijable formule se konstruiraju na sličan način. Na fiksno x 2
;
na fiksno x 3
.
Značajnost parcijalnih koeficijenata korelacije provjerava se slično kao i kod koeficijenata parne korelacije. Jedina razlika je broj stepena slobode, koji treba uzeti jednakim v = n – l -2, gde je l broj fiksnih faktora.

Postepena regresija

Odabir faktora x 1 , x 2 , …, x m uključenih u model višestruke regresije jedna je od najvažnijih faza ekonometrijskog modeliranja. Metoda sekvencijalnog (korak po korak) uključivanja (ili isključivanja) faktora u model omogućava vam da iz mogućeg skupa varijabli odaberete upravo one koje će poboljšati kvalitetu modela.
Prilikom implementacije metode, prvi korak je izračunavanje korelacijske matrice. Na osnovu koeficijenata parne korelacije, otkriva se prisustvo kolinearnih faktora. Faktori x i i x j se smatraju kolinearnim ako je r xjxi >0,7. U model je uključen samo jedan od međusobno povezanih faktora. Ako među faktorima nema kolinearnih faktora, onda bilo kojih faktora koji imaju značajan uticaj na y.

U drugom koraku se konstruiše jednačina regresije sa jednom promenljivom koja ima maksimalnu apsolutnu vrednost koeficijenta parne korelacije sa rezultujućim atributom.

U trećem koraku u model se uvodi nova varijabla koja ima najveću apsolutnu vrijednost parcijalnog koeficijenta korelacije sa zavisnom varijablom uz fiksni utjecaj prethodno unesene varijable.
Kada se u model uvede dodatni faktor, koeficijent determinacije bi trebao porasti, a rezidualna varijansa bi se trebala smanjiti. Ako se to ne dogodi, odnosno koeficijent višestruke determinacije neznatno poraste, tada se uvođenje novog faktora smatra neprikladnim.

Primjer br. 1. Za 20 preduzeća u regionu, zavisnost proizvodnje po zaposlenom y (hiljadu rubalja) od udela visokokvalifikovanih radnika u ukupnom broju radnika x1 (% vrednosti imovine na kraju godine) i od puštanja u rad novih osnovnih sredstava proučava se x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Obavezno:

  1. Konstruirajte korelacijsko polje između učinka po radniku i udjela visoko kvalifikovanih radnika. Postavite hipotezu o bliskosti i vrsti odnosa između indikatora X1 i Y.
  2. Procijenite bliskost linearne veze između učinka po radniku i udjela visokokvalifikovanih radnika sa pouzdanošću od 0,9.
  3. Izračunajte koeficijente jednačine linearne regresije za zavisnost proizvodnje po radniku od udjela visokokvalifikovanih radnika.
  4. Provjeriti statističku značajnost parametara regresione jednačine s pouzdanošću od 0,9 i konstruirati intervale povjerenja za njih.
  5. Izračunajte koeficijent determinacije. Koristeći Fišerov F test, procenite statističku značajnost regresione jednačine sa pouzdanošću od 0,9.
  6. Dajte tačku i intervalnu prognozu sa pouzdanošću od 0,9 outputa po zaposlenom za preduzeće u kojem je 24% radnika visoko kvalifikovano.
  7. Izračunajte koeficijente linearne višestruke regresijske jednačine i objasnite ekonomski smisao njenih parametara.
  8. Analizirati statističku značajnost koeficijenata višestrukih jednačina s pouzdanošću od 0,9 i konstruirati intervale povjerenja za njih.
  9. Pronađite par i parcijalne koeficijente korelacije. Analizirajte ih.
  10. Pronađite prilagođeni koeficijent višestruke determinacije. Uporedite ga sa neprilagođenim (ukupnim) koeficijentom determinacije.
  11. Koristeći Fišerov F test, procenite adekvatnost regresione jednačine sa pouzdanošću od 0,9.
  12. Dajte tačku i intervalnu prognozu sa pouzdanošću od 0,9 outputa po zaposlenom za preduzeće u kojem je 24% visokokvalifikovanih radnika, a puštanje u rad novih osnovnih sredstava iznosi 5%.
  13. Provjeriti postojanje multikolinearnosti konstruirane jednačine koristeći: Studentov test; χ2 test. Uporedite rezultate.

Rješenje Radimo to pomoću kalkulatora. Slijedi napredak rješenja za klauzulu 13.
Matrica koeficijenata korelacije para R:

- yx 1x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

U prisustvu multikolinearnosti, determinanta korelacione matrice je bliska nuli. Za naš primjer: det = 0,00081158, što ukazuje na prisustvo jake multikolinearnosti.
Za odabir najznačajnijih faktora x i uzimaju se u obzir sljedeći uslovi:
- veza između rezultantne karakteristike i faktora jedan mora biti veća od međufaktorske veze;
- odnos između faktora ne bi trebao biti veći od 0,7. Ako matrica ima koeficijent međufaktorske korelacije r xjxi > 0,7, tada postoji multikolinearnost u ovom modelu višestruke regresije.;
- kod visoke međufaktorske povezanosti karakteristike biraju se faktori sa nižim koeficijentom korelacije između njih.
U našem slučaju, r x 1 x 2 imaju |r|>0,7, što ukazuje na multikolinearnost faktora i potrebu da se jedan od njih isključi iz dalje analize.
Analiza prvog reda ove matrice omogućava odabir faktorskih karakteristika koje se mogu uključiti u model višestruke korelacije. Faktorske karakteristike za koje |r yxi | 0,3 – praktično nema veze; 0,3 ≤ |r| ≤ 0,7 - prosječna veza; 0,7 ≤ |r| ≤ 0,9 – jaka veza; |r| > 0,9 – veza je vrlo jaka.
Provjerimo značaj dobijenih koeficijenata parne korelacije koristeći Studentov t-test. Značajnim se smatraju koeficijenti za koje su vrijednosti modula t-statistike veće od pronađene kritične vrijednosti.
Izračunajmo uočene vrijednosti t-statistike za r yx 1 koristeći formulu:

gdje je m = 1 broj faktora u jednadžbi regresije.

Koristeći Studentovu tablicu nalazimo Ttable
t crit (n-m-1;α/2) = (18;0,025) = 2,101
Pošto je t obs > t crit, odbacujemo hipotezu da je koeficijent korelacije jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan
Izračunajmo uočene vrijednosti t-statistike za r yx 2 koristeći formulu:

Pošto je t obs > t crit, odbacujemo hipotezu da je koeficijent korelacije jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan
Dakle, odnos između (y i x x 1), (y i x x 2) je značajan.
Najveći uticaj na efektivni atribut ima faktor x2 (r = 0,99), što znači da će pri konstruisanju modela prvi ući u regresionu jednačinu.
Testiranje i eliminacija multikolinearnosti.
Najkompletniji algoritam za proučavanje multikolinearnosti je Farrar-Glober algoritam. Testira tri tipa multikolinearnosti:
1. Svi faktori (χ 2 - hi-kvadrat).
2. Svaki faktor sa ostalima (Fisherov kriterijum).
3. Svaki par faktora (Studentov t-test).
Provjerimo varijable na multikolinearnost pomoću Farrar-Glouber metode koristeći prvi tip statističkih kriterija (hi-kvadrat test).
Formula za izračunavanje vrijednosti Farrar-Glouberove statistike je:
χ 2 = -ln(det[R])
gdje je m = 2 broj faktora, n = 20 je broj opservacija, det[R] je determinanta matrice parnih koeficijenata korelacije R.
Upoređujemo je sa tabelarnom vrednošću na v = m/2(m-1) = 1 stepen slobode i nivo značajnosti α. Ako je χ 2 > χ tabela 2, tada postoji multikolinearnost u vektoru faktora.
χ tabela 2 (1;0,05) = 3,84146
Provjerimo varijable na multikolinearnost koristeći drugu vrstu statističkih kriterija (Fisherov test).

Provjerimo varijable na multikolinearnost koristeći treći tip statističkih kriterija (Studentov test). Da bismo to učinili, pronaći ćemo parcijalne koeficijente korelacije.
Parcijalni koeficijenti korelacije.
Parcijalni koeficijent korelacije razlikuje se od jednostavnog linearnog koeficijenta parne korelacije po tome što mjeri parnu korelaciju odgovarajućih karakteristika (y i x i), pod uslovom da se eliminiše uticaj drugih faktora (x j) na njih.
Na osnovu parcijalnih koeficijenata možemo zaključiti da je uključivanje varijabli u regresijski model opravdano. Ako je vrijednost koeficijenta mala ili beznačajna, to znači da je veza između ovog faktora i varijable ishoda ili vrlo slaba ili potpuno odsutna, pa se faktor može isključiti iz modela.


Gustina komunikacije je niska.
Odredimo značaj koeficijenta korelacije r yx 1 / x 2. Kao što vidimo, veza između y i x 2, pod uslovom da je x 1 uključen u model, je smanjena. Iz ovoga možemo zaključiti da unošenje x 2 u regresionu jednačinu ostaje neprikladno.
Možemo zaključiti da prilikom konstruisanja regresione jednačine treba odabrati faktore x 1, x 2.

Primjer br. 2. Za 30 opservacija ispostavilo se da je matrica parnih koeficijenata korelacije sljedeća:

yx 1x 2x 3
y1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
Procijenite multikolinearnost faktora. Konstruirajte jednadžbu regresije na standardnoj skali i izvedite zaključke.
  • 4. Statistička procjena PLR parametara metodom najmanjih kvadrata. Svojstva procjena najmanjih kvadrata
  • Svojstva procjena najmanjih kvadrata:
  • 5. Provjera kvaliteta višestruke linearne regresije: značajnost parametara, intervali povjerenja, adekvatnost modela. Predviđanje.
  • 6. Višestruka linearna regresija (MLR). Klasične pretpostavke. OLS procjena parametara modela.
  • 7. Svojstva OLS procjena višestruke linearne regresije. Gauss-Markov teorema.
  • 8. Provjera kvaliteta višestruke linearne regresije: značajnost parametara, intervali povjerenja, adekvatnost modela. Predviđanje.
  • 5. Koeficijent Odluke
  • Predviđanje korištenjem modela višestruke linearne regresije
  • 9. Specifikacija ekonometrijskog modela: metode i dijagnostika za odabir egzogenih varijabli. Ramsey i Amemya testovi.
  • Ramsey kriterijum:
  • 10. Specifikacija ekonometrijskog modela: izbor oblika zavisnosti nelinearnog modela
  • Principi specifikacije
  • 11. Problem multikolinearnosti. Posljedice prisustva i dijagnoze multikolinearnosti.
  • Metode za dijagnosticiranje multikolinearnosti:
  • 12. Metode za eliminaciju multikolinearnosti. Metoda glavne komponente. Regresija grebena.
  • 13. Problemi heteroskedastičnosti modela. Kriterijumi za njegovu dijagnozu.
  • 1. Parkov kriterijum.
  • 2. Goldfeld-Quandt kriterij.
  • 3. Breusch-Pagan kriterij.
  • 4. Bijeli kriterij.
  • 14. Generalizirani najmanji kvadrati (oms). Svojstva mlr procjena za omnk. Metoda ponderiranih najmanjih kvadrata u problemu procjene parametara modela. Svojstva procjena korištenjem ponderiranih najmanjih kvadrata.
  • Pitanje 15. Problem autokorelacije reziduala modela. Implikacije autokorelacije pri korištenju modela.
  • Razlozi za autokorelaciju reziduala
  • Posljedice autokorelacije:
  • 16. Durbin-Watson autokorelacijski dijagnostički kriterij
  • 17. Metode eliminacije autokorelacije. Cochrane-Orcutt i Hildreth-Lou procedure bodovanja
  • 18. Modeli sa distribuiranim zaostajanjem: struktura kašnjenja prema Koiku: Posebni slučajevi (model sa nepotpunim prilagođavanjem i adaptivnim očekivanjima)
  • 19 Modeli sa distribuiranim lagovima: linearno-aritmetička struktura kašnjenja i polinomska struktura kašnjenja prema Almonu
  • 20. h-Durbin test i višestruki Lagrangeov test za provjeru autokorelacije u modelima kašnjenja
  • 21. Koncept vremenske serije (vremena). VR model, glavni zadaci VR analize. Metode izglađivanja vremena (pokretni prosjek, eksponencijalno izglađivanje, sekvencijalne razlike)
  • 22 Stacionarnost vremenske serije (vrijeme). Karakteristike korelacije nivoa temperature.
  • 23 Modeli stacionarnih vremenskih serija: autoregresija, pokretni prosek, arc
  • 24. Nestacionarni model nastanka. Procjena parametara modela.
  • 28. Predviđanje vremenskih serija. Indikatori tačnosti prognoze.
  • 30. Chow test za dijagnosticiranje uključivanja lažnih varijabli u ekonometrijski model.
  • 32. Sistemi simultanih ekonometrijskih jednačina (SOE). Strukturni i redukovani oblik sistema (grafički i matrični prikaz).
  • 33. Problemi identifikacije sistema simultanih jednačina (SOE). Identifikacija jednadžbi soja (redni i rangni kriterijumi)
  • 34. Metode za procjenu sistema simultanih jednačina: indirektna metoda najmanjih kvadrata, metoda najmanjih kvadrata u dva koraka. Primjenjivost i svojstva procjena
  • 35. Sadašnje stanje ekonometrije. Primjeri velikih ekonometrijskih modela
  • 11. Problem multikolinearnosti. Posljedice prisustva i dijagnoze multikolinearnosti.

    Ako je dostupno linearni odnos egzogenih varijabli , na primjer, onda OLS procjene neće postojati, jer ne postoji inverz matrice koja će biti singularna. Ova situacija u ekonometriji se naziva problem multikolinearnost.

    Razlozi za multikolinearnost:

    netačna specifikacija modela

    nemarno prikupljanje statističkih podataka (korišćenje ponovljenih opservacija).

    Razlikovati eksplicitno I implicitno multikolinearnost.

    Eksplicitno - poznato tacni linearni odnos između varijabli modela.

    Na primjer, ako model procesa ulaganja uključuje nominalne i realne kamatne stope, tj.

    gdje je poznat odnos između realnih i nominalnih stopa i stope inflacije

    onda postoji očigledna multikolinearnost.

    Implicitno javlja se kada postoji stohastička (neizvjesna, slučajna) linearna ovisnost između egzogenih varijabli.

    implicitno prevladava, njegovo prisustvo karakteriše6 znakova :

    1. OLS procjene parametara modela gube svoja nepromijenjena svojstva .

    2. Varijanca procjena OLS-a povećava:

    Zbog činjenice da je koeficijent korelacije, dakle, koji podrazumijeva

    3. Postoji smanjenje t- statistike koje su indikatori značajnosti parametara:

    4. Koeficijent determinacije više nije mjera adekvatnosti modela, jer niske vrijednosti t-statičari dovode do nepovjerenja u odabrani model zavisnosti.

    5. Procjene parametara za nekolinearne egzogene varijable postaju vrlo osjetljive na promjene u podacima.

    6. Procjene parametara za nekolinearne egzogene varijable postaju beznačajne.

    Metode za dijagnosticiranje multikolinearnosti:

    Korak 1. U (početnom) modelu višestruke linearne regresije proći ćemo kroz sve podmodele u kojima bilo koja egzogena varijabla postaje endogena, tj.

    Korak 2. Izračunavamo koeficijente determinacije svih rezultirajućih modela, na osnovu kojih izračunavamo tzv. faktore inflacije:

    Ako je , onda zaključuju da postoji multikolinearnost.

    a) ne mijenjaju nijednu strukturu u modelu, već pomoću kompjuterskih najmanjih kvadrata analiziraju prisutnost problema multikolinearnosti vizualnim metodama.

    b) poboljšati specifikaciju modela eliminacijom kolinearnih egzogenih varijabli iz originalnog modela.

    c) povećati obim statističkih podataka.

    d) kombinovati kolinearne varijable i uključiti zajedničku egzogenu varijablu u model.

    12. Metode za eliminaciju multikolinearnosti. Metoda glavne komponente. Regresija grebena.

    Ako je glavni zadatak modela predviđanje budućih vrijednosti zavisne varijable, onda s dovoljno velikim koeficijentom determinacije R2 (≥ 0,9), prisustvo multikolinearnosti često ne utiče na prediktivne kvalitete modela.

    Ako je svrha studije da se utvrdi stepen uticaja svake od eksplanatornih varijabli na zavisnu varijablu, tada će prisustvo multikolinearnosti iskriviti prave odnose između varijabli. U ovoj situaciji čini se da multikolinearnost predstavlja ozbiljan problem.

    Imajte na umu da ne postoji jedinstvena metoda za eliminaciju multikolinearnosti koja je prikladna u svakom slučaju. To je zato što su uzroci i posljedice multikolinearnosti dvosmisleni i u velikoj mjeri zavise od rezultata uzorka.

    METODE:

    Isključujući varijable(e) iz modela

    Na primjer, kada se proučava potražnja za određenim dobrima, cijena tog dobra i cijene zamjena za to dobro, koje često koreliraju jedna s drugom, mogu se koristiti kao varijable za objašnjenje. Isključivanjem cijena zamjena iz modela, vjerovatno ćemo unijeti grešku u specifikaciji. Kao rezultat, moguće je dobiti pristrasne procjene i izvući neutemeljene zaključke. U primijenjenim ekonometrijskim modelima poželjno je ne isključivati ​​eksplanatorne varijable dok kolinearnost ne postane ozbiljan problem.

    Dobivanje više podataka ili novog uzorka

    Ponekad je dovoljno povećati veličinu uzorka. Na primjer, ako koristite godišnje podatke, možete prijeći na kvartalne podatke. Povećanje količine podataka smanjuje varijansu regresijskih koeficijenata i time povećava njihov statistički značaj. Međutim, dobivanje novog uzorka ili proširenje starog nije uvijek moguće ili je povezano s ozbiljnim troškovima. Osim toga, ovaj pristup može ojačati autokorelaciju. Ovi problemi ograničavaju mogućnost korištenja ovu metodu.

    Promjena specifikacije modela

    U nekim slučajevima, problem multikolinearnosti se može riješiti promjenom specifikacije modela: ili promjenom oblika modela, ili dodavanjem eksplanatornih varijabli koje nisu uzete u obzir u originalnom modelu, ali značajno utiču na zavisnu varijablu. .

    Korištenje unaprijed informacija o nekim parametrima

    Ponekad, kada gradite model višestruke regresije, možete koristiti neke preliminarne informacije, posebno poznate vrijednosti nekih koeficijenata regresije. Vjerovatno je da se vrijednosti koeficijenata dobijenih za neke preliminarne (obično jednostavnije) modele, ili za sličan model na osnovu prethodno dobijenog uzorka, mogu koristiti za onaj koji se razvija u ovog trenutka modeli.

    Za ilustraciju dajemo sljedeći primjer. Regresija je izgrađena. Pretpostavimo da su varijable X1 i X2 u korelaciji. Za prethodno konstruisani model uparene regresije Y = γ0 + γ1X1+υ, određen je statistički značajan koeficijent γ1 (za određenost neka je γ1 = 0,8), koji povezuje Y sa X1. Ako postoji razlog da se misli da će odnos između Y i X1 ostati nepromijenjen, onda možemo postaviti γ1 = β1 = 0,8. onda:

    Y = β0 + 0,8X1 + β2X2 + ε. ⇒ Y – 0,8X1 = β0 + β2X2 + ε.

    Jednačina je zapravo parna regresijska jednačina za koju ne postoji problem multikolinearnosti.

    Ograničenja korištenja ove metode su zbog:

      Dobijanje preliminarnih informacija je često teško,

      vjerovatnoća da će dodijeljeni koeficijent regresije biti isti za razni modeli, nije visoko.

    Pretvaranje varijabli

    U nekim slučajevima, problem multikolinearnosti može se minimizirati ili čak eliminirati transformacijom varijabli.

    Na primjer, neka empirijska regresijska jednadžba bude Y = b0 + b1X1 + b2X2

    gdje su X1 i X2 korelirane varijable. U ovoj situaciji možete pokušati odrediti regresijske ovisnosti relativnih vrijednosti. Vjerovatno je da u sličnim modelima problem multikolinearnosti neće biti prisutan.

    Metoda glavne komponente je jedna od glavnih metoda za eliminaciju varijabli iz modela višestruke regresije.

    Ova metoda se koristi za eliminaciju ili smanjenje multikolinearnosti faktorskih varijabli u regresijskom modelu. Suština metode : smanjenje broja faktorskih varijabli na faktore koji imaju najznačajniji uticaj . Ovo se postiže linearnom transformacijom svih faktorskih varijabli xi (i=0,...,n) u nove varijable koje se nazivaju glavne komponente, tj. vrši se prijelaz sa matrice faktorskih varijabli X na matricu glavnih komponenti F. U ovom slučaju postavlja se zahtjev da izbor prve glavne komponente odgovara maksimumu ukupne varijanse svih faktorskih varijabli xi (i=0,...,n), a druga komponenta odgovara maksimumu od preostala varijansa, nakon što se eliminiše uticaj prve glavne komponente, itd.

    Ako se nijedna faktorska varijabla uključena u model višestruke regresije ne može isključiti, tada se koristi jedna od glavnih pristrasnih metoda za procjenu koeficijenata regresijskog modela - regresija grebena ili greben. Kada se koristi metod regresije grebena mali broj se dodaje svim dijagonalnim elementima matrice (XTX) τ: 10-6 ‹ τ ‹ 0.1. Procjena nepoznatih parametara modela višestruke regresije provodi se pomoću formule:

    gdje je ln matrica identiteta.

    Osnovne odredbe

    Ako su regresori u modelu povezani strogom funkcionalnom zavisnošću, onda potpuna (savršena) multikolinearnost. Ovaj tip multikolinearnost može nastati, na primjer, u problemu linearne regresije riješenom metodom najmanjih kvadrata, ako je determinanta matrice jednaka nuli. Potpuna multikolinearnost nam ne dozvoljava da jednoznačno procijenimo parametre originalnog modela i odvojimo doprinose regresora izlaznoj varijabli na osnovu rezultata opservacija.

    U problemima sa stvarnim podacima, slučaj potpune multikolinearnosti je izuzetno rijedak. Umjesto toga, u domenu aplikacije često imamo posla parcijalna multikolinearnost, koju karakterišu parni koeficijenti korelacije između regresora. U slučaju parcijalne multikolinearnosti, matrica će imati puni rang, ali će njena determinanta biti blizu nule. U ovom slučaju formalno je moguće dobiti procjene parametara modela i indikatora njihove tačnosti, ali će svi oni biti nestabilni.

    Među posljedicama djelomične multikolinearnosti su sljedeće:

    • povećanje varijansi procjena parametara
    • smanjenje t-statističkih vrijednosti za parametre, što dovodi do pogrešnog zaključka o njihovoj statističkoj značajnosti
    • dobijanje nestabilnih procjena parametara modela i njihovih varijansi
    • mogućnost dobijanja pogrešnog predznaka sa teorijske tačke gledišta procene parametara

    Ne postoje precizni kvantitativni kriterijumi za otkrivanje delimične multikolinearnosti. Kao znakovi njegovog prisustva najčešće se koriste:

    Metode za eliminaciju multikolinearnosti

    Postoje dva glavna pristupa rješavanju ovog problema.

    Bez obzira na to kako se vrši selekcija faktora, smanjenje njihovog broja dovodi do poboljšanja uslovljenosti matrice, a samim tim i do povećanja kvaliteta procjena parametara modela.

    Pored navedenih metoda, postoji još jedna, jednostavnija koja daje prilično dobre rezultate - ovo je metoda predcentriranja. Suština metode je da prije pronalaženja parametara matematički model Izvorni podaci su centrirani: prosjek serije se oduzima od svake vrijednosti u nizu podataka: . Ovaj postupak nam omogućava da odvojimo hiperravnine LSM uslova tako da uglovi između njih budu okomiti. Kao rezultat toga, procjene modela postaju stabilne (Izgradnja multifaktorskih modela u uslovima multikolinearnosti).

    Federalna agencija za obrazovanje i nauku Ruske Federacije

    Kostroma državni tehnološki univerzitet.

    Odsjek za višu matematiku

    iz ekonometrije na temu:

    Multikolinearnost

    Izvedeno

    Student 1. godine

    dopisni fakultet

    spavati "računovodstvo"

    analiza i revizija."

    provjerio sam

    Katerzhina S.F.

    Kostroma 2008


    Multikolinearnost

    Multikolinearnost se odnosi na visoku međusobnu korelaciju eksplanatornih varijabli. Multikolinearnost se može manifestirati u funkcionalnim (eksplicitnim) i stohastičkim (skrivenim) oblicima.

    U funkcionalnom obliku multikolinearnosti prema najmanje jedan od parnih odnosa između eksplanatornih varijabli je linearni funkcionalni odnos. U ovom slučaju, matrica X`X je posebna, jer sadrži linearno zavisne vektore stupaca, a njena determinanta je jednaka nuli, tj. narušena je premisa regresione analize, što dovodi do nemogućnosti rešavanja odgovarajućeg sistema normalnih jednačina i dobijanja procena parametara regresionog modela.

    Međutim, u ekonomskim istraživanjima multikolinearnost se češće manifestuje u stohastičkom obliku, kada postoji bliska korelacija između najmanje dve eksplanatorne varijable. Matrica X`X u ovom slučaju nije singularna, ali je njena determinanta vrlo mala.

    Istovremeno, vektor procjena b i njegova matrica kovarijanse ∑ b su proporcionalni inverzna matrica(X`X) -1 , što znači da su njihovi elementi obrnuto proporcionalni vrijednosti determinante |X`X|. Kao rezultat, dobijaju se značajne standardne devijacije (standardne greške) koeficijenata regresije b 0 , b 1 , ..., b p i procena njihove važnosti pomoću t-testa nema smisla, iako generalno regresijski model može da se okrene. biti značajan koristeći F-test.

    Procjene postaju vrlo osjetljive na male promjene u zapažanjima i veličini uzorka. Regresione jednadžbe u ovom slučaju, po pravilu, nemaju pravo značenje, jer neki od njenih koeficijenata mogu imati pogrešne predznake sa stanovišta ekonomske teorije i nerazumno velike vrijednosti.

    Ne postoje precizni kvantitativni kriterijumi za određivanje prisustva ili odsustva multikolinearnosti. Međutim, postoje neki heuristički pristupi da se to identificira.

    Jedan takav pristup je analiza matrice korelacije između eksplanatornih varijabli X 1 , X 2 , ..., X p i identifikovanje parova varijabli koje imaju visoke korelacije varijabli (obično veće od 0,8). Ako takve varijable postoje, kaže se da imaju multikolinearnost. Također je korisno pronaći više koeficijenata determinacije između jedne od eksplanatornih varijabli i neke od njih. Prisustvo visokog višestrukog koeficijenta determinacije (obično većeg od 0,6) ukazuje na multikolinearnost.

    Drugi pristup je ispitivanje matrice X`X. Ako je determinanta matrice X`X ili njena minimalna svojstvena vrijednost λ min blizu nule (na primjer, istog reda sa akumulirajućim greškama u proračunu), onda to ukazuje na prisustvo multikolinearnosti. Na isto može ukazivati ​​značajno odstupanje maksimalne svojstvene vrijednosti λ max matrice X`X od njene minimalne svojstvene vrijednosti λ min .

    Brojne metode se koriste za uklanjanje ili smanjenje multikolinearnosti. Najjednostavnija od njih (ali ne uvijek moguća) je ona od dvije eksplanatorne varijable koje imaju visok koeficijent korelacije (više od 0,8), jedna varijabla je isključena iz razmatranja. Istovremeno, koju varijablu ostaviti, a koju ukloniti iz analize odlučuje se prvenstveno na osnovu ekonomskih razmatranja. Ako se, s ekonomske tačke gledišta, nijedna od varijabli ne može dati prednost, onda se zadržava ona od dvije varijable koja ima veći koeficijent korelacije sa zavisnom varijablom.

    Drugi metod za eliminaciju ili smanjenje multikolinearnosti je prelazak sa nepristrasnih procjena određenih metodom najmanjih kvadrata na pristrasne procjene, koje, međutim, imaju manju disperziju u odnosu na procijenjeni parametar, tj. manje matematičko očekivanje kvadrata odstupanja procjene b j od parametra β j ili M (b j - β j) 2.

    Procjene određene vektorom imaju, u skladu s Gauss-Markovljevom teoremom, minimalne varijanse u klasi svih linearnih nepristrasnih estimatora, ali u prisustvu multikolinearnosti, ove varijanse mogu biti prevelike, pa se okretanje odgovarajućim pristrasnim procjenama može poboljšati tačnost procjene parametara regresije. Na slici je prikazan slučaj pristrane procjene β j ^, čija je distribucija uzorkovanja data gustoćom φ (β j ^).

    Zaista, neka maksimalni dozvoljeni interval pouzdanosti za procijenjeni parametar β j bude (β j -Δ, β j +Δ). Tada će vjerovatnoća pouzdanosti, odnosno pouzdanost procjene, određena površinom ispod krivulje distribucije na intervalu (β j -Δ, β j +Δ), kao što je lako vidjeti sa slike, u ovom slučaju biti veća za procjenu β j u poređenju sa b j (na slici su ove oblasti zasjenjene). Shodno tome, prosječno kvadratno odstupanje procjene od procijenjenog parametra će biti manje za pristrasnu procjenu, tj.:

    M (β j ^ - β j) 2< M (b j - β j) 2

    Kada koristimo „regresiju grebena“ (ili „regresiju grebena“), umjesto nepristrasnih procjena, smatramo pristrasne procjene određene vektorom

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    Gdje τ – neki pozitivan broj koji se zove "greben" ili "greben"

    E p +1 – jedinična matrica (p+1) –tog reda.

    Dodatak τ na dijagonalne elemente matrice X`X čini procjene parametara modela pomaknute, ali se u isto vrijeme povećava determinanta matrice sistema normalnih jednačina - umjesto (X`X) od će biti jednaka

    |X`X+τ E p +1 |

    Tako postaje moguće isključiti multikolinearnost u slučaju kada je determinanta |X`X| blizu nule.

    Da bi se eliminisala multikolinearnost, može se koristiti prelaz sa originalnih eksplanatornih varijabli X 1 , X 2 ,…, X n , međusobno povezanih prilično bliskom korelacijom, na nove varijable koje predstavljaju linearne kombinacije originalnih. U ovom slučaju, nove varijable moraju biti slabo korelirane ili potpuno nekorelirane. Kao takve varijable uzimamo, na primjer, takozvane glavne komponente vektora početnih eksplanatornih varijabli, proučavane u komponentnoj analizi, i razmatramo regresiju na glavne komponente, u kojoj ove posljednje djeluju kao generalizirane eksplanatorne varijable, podložne daljnjim smisleno (ekonomsko) tumačenje.

    Ortogonalnost glavnih komponenti sprečava efekat multikolinearnosti. Osim toga, korištena metoda nam omogućava da se ograničimo na mali broj glavnih komponenti sa relativno velikim brojem početnih objašnjavajućih varijabli.

    multikolinearnost - je koncept koji se koristi za opisivanje problema gdje labav linearni odnos između eksplanatornih varijabli rezultira nepouzdanim procjenama regresije. Naravno, takva zavisnost ne mora nužno dovesti do nezadovoljavajućih procjena. Ako su svi ostali uslovi povoljni, odnosno ako su broj opservacija i varijanse uzorka eksplanatornih varijabli veliki, a varijanca slučajnog člana mala, onda na kraju možete dobiti prilično dobre procjene.

    Dakle, multikolinearnost mora biti uzrokovana kombinacijom slabe veze i jednog (ili više) nepovoljnih uslova, a to je pitanje

    stepen manifestacije fenomena, a ne njegov tip. Procjena bilo koje regresije će patiti od toga u određenoj mjeri osim ako se ne pokaže da su sve nezavisne varijable potpuno nekorelirane. Razmatranje ovog problema počinje tek kada on ozbiljno utiče na rezultate procene regresije.

    Ovaj problem je uobičajen u regresijama vremenskih serija, odnosno kada se podaci sastoje od više opservacija tokom određenog vremenskog perioda. Ako dvije ili više nezavisnih varijabli imaju jak vremenski trend, one će biti visoko povezane, a to može dovesti do multikolinearnosti.


    Šta se može učiniti u ovom slučaju?

    Različite tehnike koje se mogu koristiti za ublažavanje multikolinearnosti spadaju u dvije kategorije: prva kategorija uključuje pokušaje da se poboljša stepen do kojeg su ispunjena četiri uslova za pouzdanost procjena regresije; druga kategorija uključuje upotrebu eksterne informacije. Ako prvo koristimo moguće direktno dobijene podatke, onda bi očito bilo korisno povećati broj opservacija.

    Ako koristite podatke vremenske serije, to se može učiniti skraćivanjem trajanja svakog vremenskog perioda. Na primjer, kada procjenjujete jednadžbe funkcije potražnje u vježbama 5.3 i 5.6, možete se prebaciti s korištenja godišnjih podataka na tromjesečne podatke.

    Nakon ovoga, umjesto 25 opservacija, bit će ih 100. Ovo je toliko očigledno i tako lako izvodljivo da većina istraživača koji koriste vremenske serije gotovo automatski koriste kvartalne podatke, ako su dostupni, umjesto godišnjih podataka, čak i ako multikolinearnost nije problem, samo argumentacije radi.minimalne teorijske varijanse koeficijenata regresije. Međutim, s ovim pristupom postoje potencijalni problemi. Autokorelacija se može uvesti ili poboljšati, ali se može neutralizirati. Osim toga, pristranost zbog grešaka u mjerenju može se uvesti (ili pojačati) ako se tromjesečni podaci mjere s manje preciznosti od odgovarajućih godišnjih podataka. Ovaj problem nije lako riješiti, ali možda nije značajan.

    Multikolinearnost je korelacija dvije ili više eksplanatornih varijabli u jednadžbi regresije. Može biti funkcionalna (eksplicitna) i stohastička (skrivena). Sa funkcionalnom multikolinearnošću, XTX matrica je degenerisana i (XTX)-1 ne postoji, stoga je nemoguće odrediti. Češće se multikolinearnost manifestuje u stohastičkom obliku, dok OLS procjene formalno postoje, ali imaju niz nedostataka:

    • 1) mala promjena u početnim podacima dovodi do značajne promjene u procjenama regresije;
    • 2) procjene imaju velike standardne greške i nisku značajnost, dok je model u cjelini značajan (visoka vrijednost R2);
    • 3) intervalne procjene koeficijenata se šire, pogoršavajući njihovu tačnost;
    • 4) moguće je dobiti pogrešan predznak za koeficijent regresije.

    Detection

    Postoji nekoliko znakova po kojima se može utvrditi prisustvo multikolinearnosti.

    Prvo, analiza korelacione matrice koeficijenata parne korelacije:

    • - ako postoje parovi varijabli koji imaju visoke koeficijente korelacije (> 0,75 - 0,8), oni govore o multikolinearnosti između njih;
    • - ako su faktori nekorelirani, onda je det Q = 1, ako postoji potpuna korelacija, onda je det Q = 0.

    Možete provjeriti H0: det Q = 1; koristeći statistički test

    gdje je n broj opservacija, m = p+1.

    Ako, onda se H0 odbacuje i multikolinearnost je dokazana.

    Drugo, određuju se višestruki koeficijenti determinacije jedne od eksplanatornih varijabli i neke grupe drugih. Prisustvo visokog R2 (> 0,6) ukazuje na multikolinearnost.

    Treće, blizina minimalne vlastite vrijednosti matrice XTX (tj. rješenja jednadžbe) ukazuje na to da je det(XTX) također blizu nuli i, prema tome, multikolinearnost.

    Četvrto, visoki parcijalni koeficijenti korelacije.

    gdje su algebarski dodaci elemenata matrice koeficijenata korelacije uzorka. Parcijalni koeficijenti korelacije viših redova mogu se odrediti kroz parcijalne koeficijente korelacije nižih redova korištenjem rekurentne formule:

    Peto, neki ljudi govore o prisutnosti multikolinearnosti spoljni znaci konstruisanog modela, koje su njegove posledice. Oni bi trebali uključivati ​​sljedeće:

    • · neke od procjena imaju netačne predznake sa stanovišta ekonomske teorije ili nerazumno velike apsolutne vrijednosti;
    • · mala promjena u početnim statističkim podacima (dodavanje ili uklanjanje nekih zapažanja) dovodi do značajne promjene u procjenama koeficijenata modela, čak i do promjene njihovih predznaka;
    • · većina ili čak sve procjene koeficijenata regresije pokazuju se statistički beznačajnim prema t-testu, dok je model u cjelini značajan prema F-testu.

    Postoji niz drugih metoda za određivanje multikolinearnosti.

    Ako je glavni zadatak modela predviđanje budućih vrijednosti zavisne varijable, onda s dovoljno velikim koeficijentom determinacije R2 (> 0,9), prisustvo multikolinearnosti obično ne utiče na prediktivne kvalitete modela. Ova izjava će biti opravdana ako isti odnosi između koreliranih varijabli ostanu iu budućnosti.

    Ako je svrha studije da se utvrdi stepen uticaja svake od eksplanatornih varijabli na zavisnu varijablu, onda je prisustvo multikolinearnosti, što dovodi do povećanja standardne greške, najvjerovatnije će iskriviti prave odnose između varijabli. U ovoj situaciji, multikolinearnost je ozbiljan problem.