Bestemme tilstedeværelsen av multikollinearitet. Definisjon av multikollinearitet Teoretiske implikasjoner av multikollinearitet i generelle termer

Når du konstruerer en multippel regresjonsligning, kan problemet med multikollinearitet av faktorer oppstå. Multikollinearitet er et lineært forhold mellom to eller flere forklaringsvariabler, som kan manifestere seg i en funksjonell (eksplisitt) eller stokastisk (latent) form.
Identifisering av forholdet mellom utvalgte egenskaper og kvantitativ vurdering av sammenhengens nærhet utføres ved bruk av korrelasjonsanalysemetoder. For å løse disse problemene, estimeres først, deretter, på grunnlag av det, bestemmes partielle og multiple korrelasjons- og bestemmelseskoeffisienter, og deres betydning kontrolleres. Det endelige målet med korrelasjonsanalyse er valg av faktorkarakteristikker x 1, x 2,..., x m for videre konstruksjon av regresjonsligningen.

Hvis faktorvariablene er forbundet med en streng funksjonell avhengighet, så snakker vi om full multikollinearitet. I dette tilfellet, blant kolonnene i matrisen av faktorvariabler X det er lineært avhengige kolonner, og ved egenskapen til matrisedeterminanter er det(X T X) = 0, dvs. matrisen (X T X) er singular, som betyr at det ikke er noen invers matrise. Matrisen (X T X) -1 brukes til å konstruere OLS estimater. Dermed lar fullstendig multikollinearitet oss ikke entydig estimere parametrene til den opprinnelige regresjonsmodellen.

Hvilke vanskeligheter fører multikollinearitet av faktorer som inngår i modellen til, og hvordan kan de løses?

Multikollinearitet kan føre til uønskede konsekvenser:

  1. parameterestimater blir upålitelige. De finner store standardfeil. Etter hvert som volumet av observasjoner endres, endres estimatene (ikke bare i størrelse, men også i fortegn), noe som gjør modellen uegnet for analyse og prognoser.
  2. det blir vanskelig å tolke flere regresjonsparametere som kjennetegn ved virkningen av faktorer i en "ren" form, fordi faktorene er korrelert; lineære regresjonsparametere mister økonomisk mening;
  3. Det blir umulig å bestemme den isolerte påvirkningen av faktorer på en ytelsesindikator.

Typen multikollinearitet der faktorvariabler er relatert til en viss stokastisk avhengighet kalles delvis. Hvis det er en høy grad av korrelasjon mellom faktorvariablene, er matrisen (X T X) nær degenerert, dvs. det(X T X) ≈ 0.
Matrisen (X T X) -1 vil være dårlig kondisjonert, noe som fører til ustabilitet i OLS estimater. Delvis multikollinearitet fører til følgende konsekvenser:

  • en økning i variansene til parameterestimater utvider intervallestimatene og forverrer deres nøyaktighet;
  • avta t-statistikk over koeffisienter fører til feil konklusjoner om betydningen av faktorer;
  • ustabilitet av OLS-estimater og deres varianser.

Det er ingen presise kvantitative kriterier for å oppdage delvis multikollinearitet. Tilstedeværelsen av multikollinearitet kan indikeres ved at determinanten til matrisen (X T X) er nær null. Verdiene av parvise korrelasjonskoeffisienter blir også undersøkt. Hvis determinanten til interfaktorkorrelasjonsmatrisen er nær én, er det ingen multikollinearitet.

Det finnes ulike tilnærminger for å overvinne sterk interfaktorkorrelasjon. Den enkleste av dem er utelukkelsen fra modellen av faktoren (eller faktorene) som er mest ansvarlige for multikollinearitet, forutsatt at kvaliteten på modellen vil lide ubetydelig (nemlig den teoretiske bestemmelseskoeffisienten -R 2 y(x1...xm) ) vil avta ubetydelig).

Hvilket mål kan ikke brukes for å eliminere multikollinearitet?
a) øke prøvestørrelsen;
b) utelukke variabler som er sterkt korrelert med andre;
c) endring i modellspesifikasjon;
d) transformasjon av den tilfeldige komponenten.

Parede (lineære) og partielle korrelasjonskoeffisienter

Nærhet til forbindelse, for eksempel mellom variablene x og y for et utvalg av verdier (x i, y i), i=1,n, (1)
hvor x og y er gjennomsnittsverdiene, S x og S y er standardavvikene til de tilsvarende prøvene.

Den parvise korrelasjonskoeffisienten varierer fra –1 til +1. Jo nærmere enhet den er i absolutt verdi, desto nærmere er den statistiske sammenhengen mellom x og y en lineær funksjonell. En positiv verdi av koeffisienten indikerer at forholdet mellom egenskapene er direkte (når x øker, øker verdien av y), en negativ verdi indikerer at sammenhengen er invers (når x øker, synker verdien av y).
Vi kan gi følgende kvalitative tolkning av de mulige verdiene til korrelasjonskoeffisienten: hvis |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
For å vurdere multikollineariteten til faktorer, bruk en matrise med sammenkoblede korrelasjonskoeffisienter for den avhengige (resultative) karakteristikken y med faktorkarakteristikk x 1, x 2,..., x m, som lar deg vurdere graden av påvirkning av hver faktorindikator x j på den avhengige variabelen y, samt nærheten av sammenhengene mellom faktorene . Korrelasjonsmatrisen i det generelle tilfellet har formen
.
Matrisen er symmetrisk; det er dem på diagonalen. Hvis matrisen har en inr xjxi >0,7, så er det multikollinearitet i denne multippel regresjonsmodellen.
Siden de første dataene som forholdet mellom egenskaper er etablert fra er et utvalg fra en viss generell populasjon, vil korrelasjonskoeffisientene beregnet fra disse dataene være selektive, det vil si at de bare estimerer sammenhengen. Det er nødvendig med en signifikanstest som svarer på spørsmålet: er de oppnådde beregningsresultatene tilfeldige eller ikke?
Betydningen av parvise korrelasjonskoeffisienter sjekk innom t- Elevens t-test. Det stilles en hypotese om at den generelle korrelasjonskoeffisienten er lik null: H 0: ρ = 0. Deretter settes parametrene: signifikansnivå α og antall frihetsgrader v = n-2. Ved å bruke disse parametrene, er tcr funnet fra tabellen over kritiske punkter i studentdistribusjonen, og fra tilgjengelige data beregnes observert kriterieverdi:
, (2)
hvor r er den parede korrelasjonskoeffisienten beregnet fra dataene valgt for studien. Den parede korrelasjonskoeffisienten anses som signifikant (hypotesen om at koeffisienten er lik null forkastes) med en konfidenssannsynlighet γ = 1- α, hvis t Obs modulo er større enn t crit.
Hvis variabler er korrelert med hverandre, så påvirkes verdien av korrelasjonskoeffisienten delvis av påvirkningen fra andre variabler.

Partiell korrelasjonskoeffisient karakteriserer nærheten av det lineære forholdet mellom resultatet og den tilsvarende faktoren når man eliminerer påvirkningen fra andre faktorer. Den partielle korrelasjonskoeffisienten evaluerer nærheten til forholdet mellom to variabler med en fast verdi av andre faktorer. Hvis det beregnes, for eksempel, r yx 1| x2 (partiell korrelasjonskoeffisient mellom y og x 1 med en fast påvirkning på x 2), dette betyr at det bestemmes et kvantitativt mål på den lineære sammenhengen mellom y og x 1, som vil oppstå dersom påvirkningen av x 2 på disse egenskapene er eliminert. Hvis påvirkning av bare én faktor utelukkes, får vi partiell førsteordens korrelasjonskoeffisient.
Sammenligning av verdiene til parede og partielle korrelasjonskoeffisienter viser retningen for påvirkning av den faste faktoren. Hvis den partielle korrelasjonskoeffisienten r yx 1| x2 vil være mindre enn den tilsvarende parkoeffisienten r yx 1, noe som betyr at forholdet mellom egenskapene y og x 1 til en viss grad bestemmes av påvirkningen av den faste variabelen x 2 på dem. Motsatt indikerer en større verdi av partialkoeffisienten sammenlignet med par-koeffisienten at den faste variabelen x 2 svekker forholdet mellom y og x 1 med dens påvirkning.
Den partielle korrelasjonskoeffisienten mellom to variabler (y og x 2) når man ekskluderer påvirkningen av én faktor (x 1) kan beregnes ved å bruke følgende formel:
. (3)
For andre variabler er formler konstruert på lignende måte. På fast x 2
;
på fast x 3
.
Betydningen av partielle korrelasjonskoeffisienter kontrolleres på samme måte som tilfellet med parkorrelasjonskoeffisienter. Den eneste forskjellen er antall frihetsgrader, som skal tas lik v = n – l -2, der l er antall faste faktorer.

Trinnvis regresjon

Valget av faktorer x 1 , x 2 , …, x m inkludert i en multippel regresjonsmodell er et av de viktigste stadiene i økonometrisk modellering. Metoden for sekvensiell (trinn-for-trinn) inkludering (eller ekskludering) av faktorer i modellen lar deg velge fra et mulig sett med variabler nøyaktig de som vil forbedre kvaliteten på modellen.
Ved implementering av metoden er det første trinnet å beregne korrelasjonsmatrisen. Basert på parvise korrelasjonskoeffisienter avsløres tilstedeværelsen av kollineære faktorer. Faktorene x i og x j anses som kollineære hvis r xjxi >0,7. Bare én av de sammenhengende faktorene er inkludert i modellen. Hvis det ikke er noen kollineære faktorer blant faktorene, så alle faktorer som har en betydelig innvirkning på y.

I det andre trinnet konstrueres en regresjonsligning med én variabel som har den maksimale absolutte verdien av den parvise korrelasjonskoeffisienten med den resulterende attributten.

På det tredje trinnet introduseres en ny variabel i modellen, som har den største absolutte verdien av den partielle korrelasjonskoeffisienten med den avhengige variabelen med en fast påvirkning av den tidligere introduserte variabelen.
Når en tilleggsfaktor introduseres i modellen, bør bestemmelseskoeffisienten øke og restvariansen reduseres. Hvis dette ikke skjer, det vil si at koeffisienten for multippel bestemmelse øker litt, anses innføringen av en ny faktor som upassende.

Eksempel nr. 1. For 20 bedrifter i regionen er avhengigheten av produksjon per ansatt y (tusen rubler) av andelen høyt kvalifiserte arbeidere i det totale antallet arbeidere x1 (% av verdien av eiendelene ved slutten av året) og av igangkjøringen av nye anleggsmidler x2 (%) studeres.

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Påkrevd:

  1. Konstruer et korrelasjonsfelt mellom produksjon per arbeider og andelen høyt kvalifiserte arbeidere. Sett frem en hypotese om nærhet og type sammenheng mellom indikatorer X1 og Y.
  2. Vurder graden av det lineære forholdet mellom produksjon per arbeider og andelen høyt kvalifiserte arbeidere med en reliabilitet på 0,9.
  3. Beregn koeffisientene til den lineære regresjonsligningen for avhengigheten av produksjon per arbeider av andelen høyt kvalifiserte arbeidere.
  4. Sjekk den statistiske signifikansen til parametrene til regresjonsligningen med en reliabilitet på 0,9 og konstruer konfidensintervaller for dem.
  5. Regn ut bestemmelseskoeffisienten. Ved å bruke Fishers F-test, evaluer den statistiske signifikansen til regresjonsligningen med en reliabilitet på 0,9.
  6. Gi en poeng- og intervallprognose med en pålitelighet på 0,9 produksjon per ansatt for en bedrift der 24 % av arbeiderne er høyt kvalifiserte.
  7. Beregn koeffisientene til den lineære multiple regresjonsligningen og forklar den økonomiske betydningen av dens parametere.
  8. Analyser den statistiske signifikansen til multiple ligningskoeffisienter med en reliabilitet på 0,9 og konstruer konfidensintervaller for dem.
  9. Finn paret og partielle korrelasjonskoeffisienter. Analyser dem.
  10. Finn den justerte koeffisienten for multiple bestemmelse. Sammenlign det med den ujusterte (totale) bestemmelseskoeffisienten.
  11. Ved å bruke Fishers F-test, evaluer tilstrekkeligheten til regresjonsligningen med en reliabilitet på 0,9.
  12. Gi en poeng- og intervallprognose med en pålitelighet på 0,9 produksjon per ansatt for en bedrift der 24 % av arbeiderne er høyt kvalifiserte, og idriftsettelse av nye anleggsmidler er 5 %.
  13. Sjekk den konstruerte ligningen for tilstedeværelsen av multikollinearitet ved å bruke: Elevens test; χ2 test. Sammenlign resultatene.

Løsning Vi gjør det ved hjelp av en kalkulator. Følgende er fremdriften for løsningen til klausul 13.
Matrise av parkorrelasjonskoeffisienter R:

- yx 1x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

I nærvær av multikollinearitet er determinanten til korrelasjonsmatrisen nær null. For vårt eksempel: det = 0,00081158, som indikerer tilstedeværelsen av sterk multikollinearitet.
For å velge de viktigste faktorene x i, tas følgende forhold i betraktning:
- forbindelsen mellom den resulterende karakteristikken og faktoren en må være høyere enn interfaktorforbindelsen;
- forholdet mellom faktorer bør ikke være mer enn 0,7. Hvis matrisen har en inr xjxi > 0,7, så er det multikollinearitet i denne multippel regresjonsmodellen.;
- med en høy interfaktorforbindelse av en karakteristikk, velges faktorer med en lavere korrelasjonskoeffisient mellom dem.
I vårt tilfelle har r x 1 x 2 |r|>0,7, noe som indikerer multikollinearitet av faktorene og behovet for å ekskludere en av dem fra videre analyse.
Analyse av den første raden i denne matrisen gjør det mulig å velge faktorkarakteristikker som kan inkluderes i multippelkorrelasjonsmodellen. Faktoregenskaper som |r yxi | 0,3 – det er praktisk talt ingen forbindelse; 0,3 ≤ |r| ≤ 0,7 - gjennomsnittlig tilkobling; 0,7 ≤ |r| ≤ 0,9 – sterk forbindelse; |r| > 0,9 – forbindelsen er veldig sterk.
La oss sjekke betydningen av de oppnådde parvise korrelasjonskoeffisientene ved å bruke Students t-test. Koeffisienter der verdiene til t-statistikkmodulo er større enn den funnet kritiske verdien anses som signifikante.
La oss beregne de observerte verdiene av t-statistikk for r yx 1 ved å bruke formelen:

hvor m = 1 er antall faktorer i regresjonsligningen.

Ved å bruke Elevens tabell finner vi Ttable
t krit (n-m-1;a/2) = (18;0,025) = 2,101
Siden t obs > t crit, avviser vi hypotesen om at korrelasjonskoeffisienten er lik 0. Korrelasjonskoeffisienten er med andre ord statistisk signifikant
La oss beregne de observerte verdiene av t-statistikk for r yx 2 ved å bruke formelen:

Siden t obs > t crit, avviser vi hypotesen om at korrelasjonskoeffisienten er lik 0. Korrelasjonskoeffisienten er med andre ord statistisk signifikant
Dermed er forholdet mellom (y og x x 1), (y og x x 2) signifikant.
Faktoren x2 (r = 0,99) har størst innflytelse på den effektive attributten, som betyr at ved konstruksjon av modellen vil den være den første som kommer inn i regresjonsligningen.
Testing og eliminering av multikollinearitet.
Den mest komplette algoritmen for å studere multikollinearitet er Farrar-Glober-algoritmen. Den tester tre typer multikollinearitet:
1. Alle faktorer (χ 2 - chi-kvadrat).
2. Hver faktor med de andre (Fishers kriterium).
3. Hvert par av faktorer (Studentens t-test).
La oss sjekke variablene for multikollinearitet ved å bruke Farrar-Glouber-metoden ved å bruke den første typen statistiske kriterier (kikvadrattest).
Formelen for å beregne verdien av Farrar-Glouber-statistikken er:
χ 2 = -ln(det[R])
der m = 2 er antall faktorer, n = 20 er antall observasjoner, det[R] er determinanten for matrisen av parede korrelasjonskoeffisienter R.
Vi sammenligner den med tabellverdien ved v = m/2(m-1) = 1 frihetsgrader og signifikansnivå α. Hvis χ 2 > χ tabell 2, så er det multikollinearitet i vektoren av faktorer.
χ tabell 2 (1;0,05) = 3,84146
La oss sjekke variablene for multikollinearitet ved å bruke den andre typen statistiske kriterier (Fishers test).

La oss sjekke variablene for multikollinearitet ved å bruke den tredje typen statistiske kriterier (Students test). For å gjøre dette vil vi finne partielle korrelasjonskoeffisienter.
Partielle korrelasjonskoeffisienter.
Den partielle korrelasjonskoeffisienten skiller seg fra den enkle lineære parkorrelasjonskoeffisienten ved at den måler den parvise korrelasjonen til de tilsvarende egenskapene (y og x i), forutsatt at påvirkningen av andre faktorer (x j) på dem elimineres.
Ut fra partialkoeffisientene kan vi konkludere med at inkludering av variabler i regresjonsmodellen er berettiget. Hvis verdien av koeffisienten er liten eller ubetydelig, betyr dette at forholdet mellom denne faktoren og utfallsvariabelen enten er svært svak eller helt fraværende, så faktoren kan ekskluderes fra modellen.


Kommunikasjonstettheten er lav.
La oss bestemme betydningen av korrelasjonskoeffisienten r yx 1 / x 2. Som vi kan se har sammenhengen mellom y og x 2, forutsatt at x 1 er inkludert i modellen, avtatt. Fra dette kan vi konkludere med at å legge inn x 2 i regresjonsligningen forblir upassende.
Vi kan konkludere med at når man konstruerer en regresjonsligning, bør faktorene x 1, x 2 velges.

Eksempel nr. 2. For 30 observasjoner viste matrisen av sammenkoblede korrelasjonskoeffisienter seg å være som følger:

yx 1x 2x 3
y1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
Vurder multikollinearitet av faktorer. Konstruer en regresjonsligning på en standardskala og trekk konklusjoner.
  • 4. Statistisk estimering av PLR-parametere ved bruk av minste kvadraters metode. Egenskaper til minste kvadraters estimater
  • Egenskaper for minste kvadraters estimater:
  • 5. Kontroll av kvaliteten på multippel lineær regresjon: betydning av parametere, konfidensintervaller, modelltilstrekkelighet. Prognoser.
  • 6. Multippel lineær regresjon (MLR). Klassiske antakelser. OLS-estimering av modellparametere.
  • 7. Egenskaper til OLS-estimater for multippel lineær regresjon. Gauss-Markov teorem.
  • 8. Kontroll av kvaliteten på multippel lineær regresjon: betydningen av parametere, konfidensintervaller, modelltilstrekkelighet. Prognoser.
  • 5. Koeffisient Bestemmelser
  • Prognoser ved hjelp av en multippel lineær regresjonsmodell
  • 9. Spesifikasjon av en økonometrisk modell: metoder og diagnostikk for å velge eksogene variabler. Ramsey og Amemya tester.
  • Ramsey-kriterium:
  • 10. Økonometrisk modellspesifikasjon: valg av avhengighetsform for den ikke-lineære modellen
  • Spesifikasjonsprinsipper
  • 11. Problemet med multikollinearitet. Konsekvenser av tilstedeværelse og diagnose av multikollinearitet.
  • Metoder for å diagnostisere multikollinearitet:
  • 12. Metoder for å eliminere multikollinearitet. Hovedkomponentmetode. Ridge regresjon.
  • 13. Problemer med modellens heteroskedastisitet. Kriterier for diagnosen.
  • 1. Parkkriterium.
  • 2. Goldfeld-Quandt-kriterium.
  • 3. Breusch-hedensk kriterium.
  • 4. Hvitt kriterium.
  • 14. Generaliserte minste kvadrater (oms). Egenskaper for mlr estimater for omnk. Vektet minste kvadraters metode i problemet med å estimere modellparametere. Egenskaper for estimater ved bruk av vektede minste kvadrater.
  • Spørsmål 15. Problemet med autokorrelasjon av modellrester. Implikasjoner av autokorrelasjon ved bruk av modellen.
  • Årsaker til autokorrelasjon av rester
  • Konsekvenser av autokorrelasjon:
  • 16. Durbin-Watson autokorrelasjonsdiagnostisk kriterium
  • 17. Metoder for å eliminere autokorrelasjon. Cochrane-Orcutt og Hildreth-Lou poengprosedyrer
  • 18. Modeller med distribuert etterslep: lagstruktur i henhold til Koik: Spesielle tilfeller (modell med ufullstendig justering og adaptive forventninger)
  • 19 Modeller med distribuerte lags: lineær-aritmetisk struktur av lags og polynomstruktur av lags i henhold til Almon
  • 20. h-Durbin-test og multiple Lagrange-test for å sjekke autokorrelasjon i lag-modeller
  • 21. Begrepet tidsserier (tid). VR-modell, hovedoppgaver til VR-analyse. Tidsutjevningsmetoder (glidende gjennomsnitt, eksponentiell utjevning, sekvensielle forskjeller)
  • 22 Stasjonaritet av tidsserien (tid). Kjennetegn på korrelasjon av tempnivåer.
  • 23 Stasjonære tidsseriemodeller: autoregresjon, glidende gjennomsnitt, arsc
  • 24. Ikke-stasjonær modell av ariss. Estimering av modellparametere.
  • 28. Tidsserieprognoser. Indikatorer for prognosenøyaktighet.
  • 30. Chow-test for diagnostisering av inkludering av dummy-variabler i en økonometrisk modell.
  • 32. Systemer med samtidige økonometriske ligninger (SOE). Strukturell og redusert form av systemet (grafisk og matrisepresentasjon).
  • 33. Problemer med identifisering av systemer med simultane ligninger (SOE). Identifiserbarhet av ligninger soya (ordinal- og rangkriterier)
  • 34. Metoder for å estimere systemer av samtidige ligninger: indirekte minste kvadraters metode, to-trinns minste kvadraters metode. Anvendbarhet og egenskaper ved vurderinger
  • 35. Nåværende tilstand av økonometri. Eksempler på store økonometriske modeller
  • 11. Problemet med multikollinearitet. Konsekvenser av tilstedeværelse og diagnose av multikollinearitet.

    Hvis tilgjengelig lineær sammenheng mellom eksogene variabler , for eksempel, så vil ikke OLS estimater eksistere, fordi det er ingen invers av en matrise som vil være entall. Denne situasjonen i økonometri kalles problemet multikollinearitet.

    Årsaker til multikollinearitet:

    feil modellspesifikasjon

    uforsiktig innsamling av statistiske data (bruk av gjentatte observasjoner).

    Skille eksplisitt Og implisitt multikollinearitet.

    Eksplisitt - kjent eksakt lineært forhold mellom modellvariabler.

    For eksempel, hvis modellen for investeringsprosessen inkluderer nominelle og realrenter, dvs.

    hvor forholdet mellom reelle og nominelle renter og inflasjonsraten er kjent

    da er det åpenbar multikollinearitet.

    Implisitt oppstår når det er stokastisk (usikker, tilfeldig) lineær avhengighet mellom eksogene variabler.

    implisitt råder, dens tilstedeværelse er preget av6 tegn :

    1. OLS estimater av modellparametere miste sine ufordrevne egenskaper .

    2. Varians av OLS-estimater øker:

    På grunn av det faktum at korrelasjonskoeffisienten, da, som innebærer

    3. Det er en nedgang t- statistikk som er indikatorer på betydningen av parametere:

    4. Bestemmelseskoeffisienten er ikke lenger et mål på modellens tilstrekkelighet, siden lave verdier t-statistikere fører til mistillit til den valgte avhengighetsmodellen.

    5. Parameterestimater for ikke-kollineære eksogene variabler blir svært følsomme for endringer i data.

    6. Parameterestimater for ikke-kollineære eksogene variabler blir ubetydelige.

    Metoder for å diagnostisere multikollinearitet:

    Trinn 1. I den (initielle) multippel lineære regresjonsmodellen vil vi gå gjennom alle delmodellene der enhver eksogen variabel blir endogen, dvs.

    Steg 2. Vi beregner bestemmelseskoeffisientene til alle de resulterende modellene, på grunnlag av hvilke vi beregner de såkalte inflasjonsfaktorene:

    Hvis , så konkluderer de med at multikollinearitet eksisterer.

    a) de endrer ikke noen struktur i modellen, men ved å bruke datamaskinens minste kvadrater analyserer de tilstedeværelsen av problemet med multikollinearitet ved hjelp av visuelle metoder.

    b) forbedre modellspesifikasjonen ved å eliminere kollineære eksogene variabler fra den opprinnelige modellen.

    c) øke volumet av statistiske data.

    d) kombinere kollineære variabler og inkludere en felles eksogen variabel i modellen.

    12. Metoder for å eliminere multikollinearitet. Hovedkomponentmetode. Ridge regresjon.

    Hvis hovedoppgaven til modellen er å forutsi fremtidige verdier av den avhengige variabelen, så med en tilstrekkelig stor bestemmelseskoeffisient R2 (≥ 0,9), påvirker tilstedeværelsen av multikollinearitet ofte ikke de prediktive egenskapene til modellen.

    Hvis formålet med studien er å bestemme graden av påvirkning av hver av forklaringsvariablene på den avhengige variabelen, vil tilstedeværelsen av multikollinearitet forvrenge de sanne sammenhengene mellom variablene. I denne situasjonen ser multikollinearitet ut til å være et alvorlig problem.

    Legg merke til at det ikke er noen enkelt metode for å eliminere multikollinearitet som er egnet i alle fall. Dette er fordi årsakene til og konsekvensene av multikollinearitet er tvetydige og i stor grad avhenger av resultatene av utvalget.

    METODER:

    Ekskluderer variabel(er) fra modellen

    For eksempel, når man studerer etterspørselen etter en viss vare, kan prisen på denne varen og prisene på erstatninger for denne varen, som ofte korrelerer med hverandre, brukes som forklaringsvariabler. Ved å ekskludere prisene på substitutter fra modellen, vil vi sannsynligvis introdusere en spesifikasjonsfeil. Som et resultat er det mulig å få partiske estimater og trekke ubegrunnede konklusjoner. I anvendte økonometriske modeller er det ønskelig å ikke ekskludere forklaringsvariabler før kollinearitet blir et alvorlig problem.

    Får mer data eller en ny prøve

    Noen ganger er det nok å øke prøvestørrelsen. Hvis du for eksempel bruker årsdata, kan du gå over til kvartalsdata. Å øke mengden data reduserer variansen av regresjonskoeffisienter og øker dermed deres statistiske signifikans. Men å få en ny prøve eller utvide en gammel er ikke alltid mulig eller er forbundet med alvorlige kostnader. I tillegg kan denne tilnærmingen styrke autokorrelasjon. Disse problemene begrenser muligheten til å bruke denne metoden.

    Endring av modellspesifikasjon

    I noen tilfeller kan problemet med multikollinearitet løses ved å endre spesifikasjonen til modellen: enten ved å endre modellens form, eller ved å legge til forklaringsvariabler som ikke er tatt hensyn til i den opprinnelige modellen, men som i betydelig grad påvirker den avhengige variabelen. .

    Bruk av forhåndsinformasjon om enkelte parametere

    Noen ganger, når du bygger en multippel regresjonsmodell, kan du bruke litt foreløpig informasjon, spesielt de kjente verdiene til noen regresjonskoeffisienter. Det er sannsynlig at verdiene av koeffisientene oppnådd for noen foreløpige (vanligvis enklere) modeller, eller for en lignende modell basert på en tidligere innhentet prøve, kan brukes for den som utvikles i dette øyeblikket modeller.

    For å illustrere, gir vi følgende eksempel. Regresjon bygges. La oss anta at variablene X1 og X2 er korrelerte. For den tidligere konstruerte sammenkoblede regresjonsmodellen Y = γ0 + γ1X1+υ, ble en statistisk signifikant koeffisient γ1 bestemt (for bestemthet, la γ1 = 0,8), som forbinder Y med X1. Hvis det er grunn til å tro at forholdet mellom Y og X1 vil forbli uendret, så kan vi sette γ1 = β1 = 0,8. Deretter:

    Y = β0 + 0,8X1 + β2X2 + ε. ⇒ Y – 0,8X1 = β0 + β2X2 + ε.

    Ligningen er faktisk en parvis regresjonsligning som problemet med multikollinearitet ikke eksisterer for.

    Begrensningene ved bruk av denne metoden skyldes:

      Å skaffe foreløpig informasjon er ofte vanskelig,

      sannsynligheten for at den allokerte regresjonskoeffisienten vil være den samme for ulike modeller, ikke høy.

    Konvertering av variabler

    I noen tilfeller kan problemet med multikollinearitet minimeres eller til og med elimineres ved å transformere variabler.

    La for eksempel den empiriske regresjonsligningen være Y = b0 + b1X1 + b2X2

    hvor X1 og X2 er korrelerte variabler. I denne situasjonen kan du prøve å bestemme regresjonsavhengigheter av relative verdier. Det er sannsynlig at i lignende modeller vil problemet med multikollinearitet ikke være til stede.

    Hovedkomponentmetode er en av hovedmetodene for å eliminere variabler fra en multippel regresjonsmodell.

    Denne metoden brukes til å eliminere eller redusere multikollinearitet av faktorvariabler i en regresjonsmodell. Essensen av metoden : redusere antall faktorvariabler til de mest signifikant påvirkende faktorene . Dette oppnås ved å lineært transformere alle faktorvariablene xi (i=0,...,n) til nye variabler kalt hovedkomponenter, dvs. det gjøres en overgang fra matrisen av faktorvariablene X til matrisen av hovedkomponentene F. I dette tilfellet fremsettes kravet om at valget av den første hovedkomponenten tilsvarer maksimum av den totale variansen av alle faktorvariablene xi (i=0,...,n), den andre komponenten tilsvarer maksimum av den gjenværende variansen, etter at påvirkningen av den første hovedkomponenten er eliminert, etc.

    Hvis ingen av faktorvariablene som er inkludert i multippel regresjonsmodellen kan ekskluderes, brukes en av de viktigste skjeve metodene for å estimere regresjonsmodellkoeffisienter - ryggregresjon eller rygg. Ved bruk av ryggregresjonsmetoden et lite tall legges til alle diagonale elementer i matrisen (XTX) τ: 10-6 ‹ τ ‹ 0,1. Estimering av ukjente parametere for en multippel regresjonsmodell utføres ved å bruke formelen:

    hvor ln er identitetsmatrisen.

    Grunnleggende bestemmelser

    Hvis regressorene i modellen er forbundet med en streng funksjonell avhengighet, da fullstendig (perfekt) multikollinearitet. Denne typen multikollinearitet kan oppstå, for eksempel i et lineært regresjonsproblem løst ved minste kvadraters metode, hvis determinanten til matrisen er lik null. Fullstendig multikollinearitet tillater oss ikke entydig å estimere parametrene til den opprinnelige modellen og skille bidragene fra regressorer til utgangsvariabelen basert på resultatene av observasjoner.

    I problemer med ekte data er tilfellet med fullstendig multikollinearitet ekstremt sjeldent. I stedet, i applikasjonsdomenet vi ofte må forholde oss til delvis multikollinearitet, som er preget av parvise korrelasjonskoeffisienter mellom regressorer. Ved partiell multikollinearitet vil matrisen ha full rangering, men dens determinant vil være nær null. I dette tilfellet er det formelt mulig å oppnå estimater av modellparametrene og deres nøyaktighetsindikatorer, men alle vil være ustabile.

    Blant konsekvensene av delvis multikollinearitet er følgende:

    • økning i varians av parameterestimater
    • reduksjon i t-statistiske verdier for parametere, noe som fører til en feil konklusjon om deres statistiske signifikans
    • oppnå ustabile estimater av modellparametere og deres varians
    • muligheten for å få et feil fortegn fra det teoretiske synspunktet til parameterestimatet

    Det er ingen presise kvantitative kriterier for å oppdage delvis multikollinearitet. Følgende brukes oftest som tegn på tilstedeværelsen:

    Metoder for å eliminere multikollinearitet

    Det er to hovedtilnærminger for å løse dette problemet.

    Uansett hvordan valget av faktorer utføres, fører reduksjon av antallet til en forbedring i matrisens betingelser, og følgelig til en økning i kvaliteten på estimatene av modellparametrene.

    I tillegg til de oppførte metodene, er det en annen, enklere en som gir ganske gode resultater - dette er forhåndssentreringsmetode. Essensen av metoden er at før du finner parametrene matematisk modell Kildedataene er sentrert: gjennomsnittet av serien trekkes fra hver verdi i dataserien: . Denne prosedyren lar oss skille hyperplanene til LSM-forholdene slik at vinklene mellom dem er vinkelrette. Som et resultat blir modellestimatene stabile (Konstruksjon av multifaktormodeller under forhold med multikollinearitet).

    Det føderale byrået for utdanning og vitenskap i den russiske føderasjonen

    Kostroma statlige teknologiske universitet.

    Institutt for høyere matematikk

    i økonometri om emnet:

    Multikollinearitet

    Utført

    1. års student

    korrespondansefakultetet

    sove "Regnskap"

    analyse og revisjon."

    jeg sjekket

    Katerzhina S.F.

    Kostroma 2008


    Multikollinearitet

    Multikollinearitet refererer til den høye gjensidige korrelasjonen mellom forklaringsvariabler. Multikollinearitet kan manifestere seg i funksjonelle (eksplisitt) og stokastiske (skjulte) former.

    I funksjonell form av multikollinearitet iht i det minste en av de parvise sammenhengene mellom forklaringsvariablene er en lineær funksjonell sammenheng. I dette tilfellet er matrisen X`X spesiell, siden den inneholder lineært avhengige kolonnevektorer, og dens determinant er lik null, dvs. premisset for regresjonsanalyse er krenket, dette fører til umuligheten av å løse det tilsvarende systemet med normale ligninger og oppnå estimater av parametrene til regresjonsmodellen.

    Men i økonomisk forskning manifesterer multikollinearitet seg oftere i en stokastisk form, når det er en nær sammenheng mellom minst to forklaringsvariabler. Matrisen X`X i dette tilfellet er ikke-singular, men dens determinant er veldig liten.

    Samtidig er vektoren for estimatene b og dens kovariansmatrise ∑ b proporsjonale invers matrise(X`X) -1 , som betyr at elementene deres er omvendt proporsjonale med verdien av determinanten |X`X|. Som et resultat oppnås signifikante standardavvik (standardfeil) av regresjonskoeffisientene b 0 , b 1 , ..., b p og å vurdere deres signifikans ved hjelp av t-testen gir ikke mening, selv om regresjonsmodellen generelt sett kan snu. ut til å være signifikant ved å bruke F-testen.

    Estimater blir svært følsomme for små endringer i observasjoner og utvalgsstørrelse. Regresjonsligninger i dette tilfellet har som regel ingen reell betydning, siden noen av koeffisientene kan ha uriktige tegn fra økonomisk teoris synspunkt og urimelig store verdier.

    Det er ingen presise kvantitative kriterier for å bestemme tilstedeværelse eller fravær av multikollinearitet. Imidlertid er det noen heuristiske tilnærminger for å identifisere det.

    En slik tilnærming er å analysere korrelasjonsmatrisen mellom forklaringsvariablene X 1 , X 2 , ..., X p og identifisere par av variabler som har høye variable korrelasjoner (vanligvis større enn 0,8). Hvis slike variabler eksisterer, sies de å ha multikollinearitet. Det er også nyttig å finne flere bestemmelseskoeffisienter mellom en av forklaringsvariablene og en gruppe av dem. Tilstedeværelsen av en høy multippel bestemmelseskoeffisient (vanligvis større enn 0,6) indikerer multikollinearitet.

    En annen tilnærming er å undersøke matrisen X`X. Hvis determinanten til matrisen X`X eller dens minste egenverdi λ min er nær null (for eksempel av samme orden med akkumulerende beregningsfeil), indikerer dette tilstedeværelsen av multikollinearitet. Det samme kan indikeres ved et betydelig avvik av den maksimale egenverdien λ max til matrisen X`X fra dens minimums egenverdi λ min .

    En rekke metoder brukes for å eliminere eller redusere multikollinearitet. Den enkleste av dem (men ikke alltid mulig) er at av to forklaringsvariabler som har en høy korrelasjonskoeffisient (mer enn 0,8), er én variabel ekskludert fra vurdering. Samtidig avgjøres hvilken variabel som skal forlates og hvilken som skal fjernes fra analysen først og fremst ut fra økonomiske hensyn. Hvis ingen av variablene fra et økonomisk synspunkt kan foretrekkes, så beholdes den av de to variablene som har en høyere korrelasjonskoeffisient med den avhengige variabelen.

    En annen metode for å eliminere eller redusere multikollinearitet er å gå fra objektive estimater bestemt av minste kvadraters metode til skjeve estimater, som imidlertid har mindre spredning i forhold til den estimerte parameteren, dvs. den mindre matematiske forventningen til det kvadrerte avviket til estimatet b j fra parameteren β j eller M (b j - β j) 2.

    Estimater bestemt av en vektor har, i samsvar med Gauss-Markov-teoremet, minimumsvariansene i klassen til alle lineære upartiske estimatorer, men i nærvær av multikollinearitet kan disse variansene være for store, og ved å vende seg til de tilsvarende forspente estimatorene kan forbedre nøyaktigheten av å estimere regresjonsparametere. Figuren viser tilfellet hvor det forspente estimatet β j ^, hvis prøvetakingsfordeling er gitt av tettheten φ (β j ^).

    La faktisk det maksimalt tillatte konfidensintervallet for den estimerte parameteren β j være (β j -Δ, β j +Δ). Da vil konfidenssannsynligheten, eller påliteligheten til estimatet, bestemt av arealet under fordelingskurven på intervallet (β j -Δ, β j +Δ), som det er lett å se av figuren, i dette tilfellet være større for estimatet β j sammenlignet med b j (i figuren er disse områdene skyggelagt). Følgelig vil det gjennomsnittlige kvadrerte avviket til estimatet fra den estimerte parameteren være mindre for et skjevt estimat, dvs.:

    M (β j ^ - β j) 2< M (b j - β j) 2

    Når du bruker "ryggregresjon" (eller "ryggregresjon"), i stedet for objektive estimater, vurderer vi skjeve estimater spesifisert av vektoren

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    Hvor τ – et positivt tall kalt en "rygg" eller "rygg"

    E p +1 – enhetsmatrise (p+1) av –te orden.

    Addisjon τ til de diagonale elementene i matrisen X`X gjør estimatene av modellparametrene forskjøvet, men samtidig øker determinanten til matrisen til systemet av normale ligninger - i stedet for (X`X) fra vil være lik

    |X`X+τ E p +1 |

    Dermed blir det mulig å utelukke multikollinearitet i tilfellet når determinanten |X`X| nær null.

    For å eliminere multikollinearitet, kan en overgang fra de opprinnelige forklaringsvariablene X 1 , X 2 ,..., X n , sammenkoblet med en ganske nær korrelasjon, til nye variabler som representerer lineære kombinasjoner av de opprinnelige brukes. I dette tilfellet må de nye variablene være svakt korrelerte eller fullstendig ukorrelerte. Som slike variabler tar vi for eksempel de såkalte hovedkomponentene til vektoren av initiale forklaringsvariabler, studert i komponentanalyse, og vurderer regresjon på hovedkomponentene, der sistnevnte fungerer som generaliserte forklaringsvariabler, med forbehold om ytterligere meningsfull (økonomisk) tolkning.

    Ortogonaliteten til hovedkomponentene forhindrer multikollinearitetseffekten. I tillegg lar metoden som brukes oss begrense oss til et lite antall hovedkomponenter med et relativt stort antall initiale forklaringsvariabler.

    Multikollinearitet - er et konsept som brukes for å beskrive problemet der en løs lineær sammenheng mellom forklaringsvariabler resulterer i upålitelige regresjonsestimater. En slik avhengighet fører selvsagt ikke nødvendigvis til utilfredsstillende vurderinger. Hvis alle andre forhold er gunstige, det vil si hvis antallet observasjoner og utvalgsvariabler av forklaringsvariablene er store, og variansen til det tilfeldige leddet er liten, så kan du til slutt få ganske gode estimater.

    Så multikollinearitet må være forårsaket av en kombinasjon av et svakt forhold og en (eller flere) ugunstig tilstand, og det er spørsmålet

    graden av manifestasjon av fenomenet, og ikke typen. Estimeringen av enhver regresjon vil lide av det til en viss grad med mindre alle de uavhengige variablene viser seg å være fullstendig ukorrelerte. Betraktning av dette problemet begynner først når det seriøst påvirker resultatene av regresjonsestimatet.

    Dette problemet er vanlig i tidsserieregresjoner, det vil si når dataene består av en rekke observasjoner over en tidsperiode. Hvis to eller flere uavhengige variabler har en sterk tidstrend, vil de være sterkt korrelerte, og dette kan føre til multikollinearitet.


    Hva kan gjøres i dette tilfellet?

    De ulike teknikkene som kan brukes for å dempe multikollinearitet faller inn i to kategorier: den første kategorien innebærer forsøk på å forbedre graden i hvilken de fire betingelsene for påliteligheten til regresjonsestimater er oppfylt; den andre kategorien inkluderer bruken ekstern informasjon. Hvis vi først bruker mulige direkte innhentede data, så vil det selvsagt være nyttig å øke antallet observasjoner.

    Hvis du bruker tidsseriedata, kan dette gjøres ved å forkorte varigheten av hver tidsperiode. Når du for eksempel estimerer etterspørselsfunksjonslikningene i oppgave 5.3 og 5.6, kan du bytte fra å bruke årsdata til kvartalsdata.

    Etter dette, i stedet for 25 observasjoner, vil det være 100. Dette er så åpenbart og så enkelt å gjøre at de fleste forskere som bruker tidsserier nesten automatisk bruker kvartalsdata, hvis tilgjengelig, i stedet for årlige data, selv om multikollinearitet ikke er et problem, bare for argumentets skyld, minimum teoretiske varianser av regresjonskoeffisienter. Det er imidlertid potensielle problemer med denne tilnærmingen. Autokorrelasjon kan introduseres eller forbedres, men den kan nøytraliseres. I tillegg kan skjevheter på grunn av målefeil introduseres (eller forsterkes) dersom kvartalsdata måles med mindre presisjon enn tilsvarende årsdata. Dette problemet er ikke lett å løse, men det er kanskje ikke vesentlig.

    Multikollinearitet er korrelasjonen av to eller flere forklaringsvariabler i en regresjonsligning. Det kan være funksjonelt (eksplisitt) og stokastisk (skjult). Med funksjonell multikollinearitet er XTX-matrisen degenerert og (XTX)-1 eksisterer ikke, derfor er det umulig å bestemme. Oftere manifesterer multikollinearitet seg i en stokastisk form, mens OLS-estimater formelt eksisterer, men har en rekke ulemper:

    • 1) en liten endring i de første dataene fører til en betydelig endring i regresjonsestimatene;
    • 2) estimatene har store standardfeil og lav signifikans, mens modellen som helhet er signifikant (høy R2-verdi);
    • 3) intervallestimater av koeffisienter utvides, noe som forverrer nøyaktigheten deres;
    • 4) det er mulig å få feil fortegn for regresjonskoeffisienten.

    Gjenkjenning

    Det er flere tegn som tilstedeværelsen av multikollinearitet kan bestemmes ved.

    Først, analyse av korrelasjonsmatrisen av parvise korrelasjonskoeffisienter:

    • - hvis det er par av variabler som har høye korrelasjonskoeffisienter (> 0,75 - 0,8), snakker de om multikollinearitet mellom dem;
    • - hvis faktorene er ukorrelerte, så er det Q = 1, hvis det er fullstendig korrelasjon, så er det Q = 0.

    Du kan sjekke H0: det Q = 1; ved hjelp av statistisk test

    hvor n er antall observasjoner, m = p+1.

    Hvis, så blir H0 avvist og multikollinearitet er bevist.

    For det andre bestemmes flere bestemmelseskoeffisienter for en av forklaringsvariablene og en gruppe av andre. Tilstedeværelsen av en høy R2 (> 0,6) indikerer multikollinearitet.

    For det tredje indikerer nærheten til null av minimumsegenverdien til XTX-matrisen (dvs. løsningen til ligningen) at det(XTX) også er nær null og derfor multikollinearitet.

    For det fjerde høye partielle korrelasjonskoeffisienter.

    hvor er de algebraiske addisjonene av elementene i matrisen av prøvekorrelasjonskoeffisienter. Partielle korrelasjonskoeffisienter av høyere ordener kan bestemmes gjennom partielle korrelasjonskoeffisienter av lavere ordener ved å bruke den tilbakevendende formelen:

    For det femte snakker noen mennesker om tilstedeværelsen av multikollinearitet ytre tegn konstruert modell, som er dens konsekvenser. Disse bør inkludere følgende:

    • · noen av anslagene har uriktige fortegn ut fra et økonomisk-teoretisk synspunkt eller urimelig store absolutte verdier;
    • · en liten endring i de første statistiske dataene (tilføyelse eller fjerning av noen observasjoner) fører til en betydelig endring i estimatene for modellkoeffisientene, til og med endre fortegnene deres;
    • · de fleste eller til og med alle estimater av regresjonskoeffisienter viser seg å være statistisk insignifikante i henhold til t-testen, mens modellen som helhet er signifikant i henhold til F-testen.

    Det finnes en rekke andre metoder for å bestemme multikollinearitet.

    Hvis hovedoppgaven til modellen er å forutsi fremtidige verdier av den avhengige variabelen, så med en tilstrekkelig stor bestemmelseskoeffisient R2 (> 0,9), påvirker tilstedeværelsen av multikollinearitet vanligvis ikke de prediktive egenskapene til modellen. Denne påstanden vil være berettiget hvis de samme relasjonene mellom de korrelerte variablene forblir i fremtiden.

    Hvis formålet med studien er å bestemme graden av påvirkning av hver av forklaringsvariablene på den avhengige variabelen, vil tilstedeværelsen av multikollinearitet føre til en økning standard feil, mest sannsynlig, vil forvrenge de sanne relasjonene mellom variabler. I denne situasjonen er multikollinearitet et alvorlig problem.