Bestämma närvaron av multikollinearitet. Definition av multikollinearitet Teoretiska implikationer av multikollinearitet i allmänna termer

När man konstruerar en multipel regressionsekvation kan problemet med multikollinearitet av faktorer uppstå. Multikollinearitetär ett linjärt samband mellan två eller flera förklarande variabler, som kan manifestera sig i en funktionell (explicit) eller stokastisk (latent) form.
Identifiering av sambandet mellan valda egenskaper och kvantitativ bedömning av sambandets närhet utförs med hjälp av korrelationsanalysmetoder. För att lösa dessa problem uppskattas först ,, sedan bestäms partiella och multipla korrelations- och bestämningskoefficienter på grundval av dem, och deras betydelse kontrolleras. Det slutliga målet med korrelationsanalys är valet av faktorkarakteristika x 1, x 2,..., x m för vidare konstruktion av regressionsekvationen.

Om faktorvariablerna är förbundna med ett strikt funktionellt beroende, då talar vi om full multikollinearitet. I detta fall bland kolumnerna i matrisen av faktorvariabler X det finns linjärt beroende kolumner, och, genom egenskapen hos matrisdeterminanter, det(X T X) = 0, dvs matrisen (X T X) är singular, vilket betyder att det inte finns någon invers matris. Matrisen (X T X) -1 används för att konstruera OLS-uppskattningar. Således tillåter inte fullständig multikollinearitet oss att entydigt uppskatta parametrarna för den ursprungliga regressionsmodellen.

Vilka svårigheter leder multikollinearitet av faktorer som ingår i modellen till och hur kan de lösas?

Multikollinearitet kan leda till oönskade konsekvenser:

  1. parameteruppskattningar blir opålitliga. De hittar stora standardfel. När volymen av observationer ändras ändras skattningarna (inte bara i storlek, utan också i tecken), vilket gör modellen olämplig för analys och prognoser.
  2. det blir svårt att tolka flera regressionsparametrar som egenskaper hos faktorers verkan i en "ren" form, eftersom faktorerna är korrelerade; linjära regressionsparametrar förlorar ekonomisk betydelse;
  3. Det blir omöjligt att fastställa den isolerade påverkan av faktorer på en prestationsindikator.

Den typ av multikollinearitet där faktorvariabler är relaterade till något stokastiskt beroende kallas partiell. Om det finns en hög grad av korrelation mellan faktorvariablerna är matrisen (X T X) nära att degenerera, dvs det(X T X) ≈ 0.
Matrisen (X T X) -1 kommer att vara dåligt konditionerad, vilket leder till instabilitet hos OLS-uppskattningar. Partiell multikollinearitet leder till följande konsekvenser:

  • en ökning av varianserna för parameteruppskattningar utökar intervalluppskattningarna och försämrar deras noggrannhet;
  • minska t-statistik över koefficienter leder till felaktiga slutsatser om faktorers betydelse;
  • instabilitet hos OLS-uppskattningar och deras varianser.

Det finns inga exakta kvantitativa kriterier för att detektera partiell multikollinearitet. Närvaron av multikollinearitet kan indikeras genom närheten av matrisens determinant (X T X) till noll. Värdena på parvisa korrelationskoefficienter undersöks också. Om determinanten för interfaktorkorrelationsmatrisen är nära ett, så finns det ingen multikollinearitet.

Det finns olika tillvägagångssätt för att övervinna stark interfaktorkorrelation. Den enklaste av dem är uteslutningen från modellen av den faktor (eller faktorer) som är mest ansvariga för multikollinearitet, förutsatt att kvaliteten på modellen kommer att lida obetydligt (nämligen den teoretiska bestämningskoefficienten -R 2 y(x1...xm) ) kommer att minska obetydligt).

Vilket mått kan inte användas för att eliminera multikollinearitet?
a) öka urvalsstorleken;
b) exkludera variabler som är starkt korrelerade med andra;
c) ändring av modellspecifikationen;
d) transformation av den slumpmässiga komponenten.

Parade (linjära) och partiella korrelationskoefficienter

Närhet till samband, till exempel, mellan variablerna x och y för ett urval av värden (xi, y i), i=1,n, (1)
där x och y är medelvärdena, S x och Sy är standardavvikelserna för motsvarande sampel.

Den parvisa korrelationskoefficienten varierar från –1 till +1. Ju närmare enhet det är i absolut värde, desto närmare är det statistiska sambandet mellan x och y ett linjärt funktionellt. Ett positivt värde på koefficienten indikerar att förhållandet mellan egenskaperna är direkt (när x ökar ökar värdet på y), ett negativt värde indikerar att sambandet är omvänt (när x ökar minskar värdet på y).
Vi kan ge följande kvalitativa tolkning av de möjliga värdena för korrelationskoefficienten: om |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
För att bedöma faktorers multikollinearitet, använd en matris med parade korrelationskoefficienter för den beroende (resultativa) egenskapen y med faktorkarakteristika x 1, x 2,..., x m, som låter dig bedöma graden av påverkan av varje faktorindikator x j på den beroende variabeln y, samt närheten av sambanden mellan faktorerna . Korrelationsmatrisen i det allmänna fallet har formen
.
Matrisen är symmetrisk; det finns sådana på dess diagonal. Om matrisen har en inr xjxi >0,7, så finns det multikollinearitet i denna multipelregressionsmodell.
Eftersom de initiala data från vilka förhållandet mellan egenskaper fastställs är ett urval från en viss allmän population, kommer korrelationskoefficienterna som beräknas från dessa data att vara selektiva, dvs de uppskattar bara sambandet. Det behövs ett signifikanstest som svarar på frågan: är de erhållna beräkningsresultaten slumpmässiga eller inte?
Betydelsen av parvisa korrelationskoefficienter kolla förbi t- Elevens t-test. En hypotes läggs fram att den generella korrelationskoefficienten är lika med noll: H 0: ρ = 0. Därefter sätts parametrarna: signifikansnivå α och antalet frihetsgrader v = n-2. Med hjälp av dessa parametrar hittas tcr från tabellen över kritiska punkter i studentfördelningen, och från tillgänglig data beräknas observerat kriterium värde:
, (2)
där r är den parade korrelationskoefficienten beräknad från de data som valts för studien. Den parade korrelationskoefficienten anses signifikant (hypotesen att koefficienten är lika med noll förkastas) med en konfidenssannolikhet γ = 1- α, om t Obs modulo är större än t crit.
Om variabler är korrelerade med varandra, så påverkas värdet av korrelationskoefficienten delvis av påverkan av andra variabler.

Partiell korrelationskoefficient kännetecknar närheten av det linjära förhållandet mellan resultatet och motsvarande faktor när man eliminerar inflytandet av andra faktorer. Den partiella korrelationskoefficienten utvärderar närheten av sambandet mellan två variabler med ett fast värde på andra faktorer. Om det beräknas, till exempel, r yx 1| x2 (partiell korrelationskoefficient mellan y och x 1 med en fast påverkan på x 2), detta innebär att ett kvantitativt mått på det linjära sambandet mellan y och x 1 bestäms, vilket kommer att inträffa om påverkan av x 2 på dessa egenskaper är utslagen. Om påverkan av endast en faktor utesluts får vi partiell första ordningens korrelationskoefficient.
Jämförelse av värdena för parade och partiella korrelationskoefficienter visar riktningen för påverkan av den fasta faktorn. Om den partiella korrelationskoefficienten r yx 1| x2 kommer att vara mindre än motsvarande parkoefficient r yx 1, vilket innebär att förhållandet mellan egenskaperna y och x 1 till viss del bestäms av den fasta variabelns x 2 inflytande på dem. Omvänt indikerar ett större värde på partialkoefficienten jämfört med parkoefficienten att den fasta variabeln x 2 försvagar förhållandet mellan y och x 1 med dess inflytande.
Den partiella korrelationskoefficienten mellan två variabler (y och x 2) när man exkluderar påverkan av en faktor (x 1) kan beräknas med hjälp av följande formel:
. (3)
För andra variabler är formler konstruerade på liknande sätt. Vid fast x 2
;
vid fast x 3
.
Betydelsen av partiella korrelationskoefficienter kontrolleras på samma sätt som fallet med parkorrelationskoefficienter. Den enda skillnaden är antalet frihetsgrader, som ska tas lika med v = n – l -2, där l är antalet fasta faktorer.

Stegvis regression

Valet av faktorer x 1 , x 2 , …, x m som ingår i en multipel regressionsmodell är ett av de viktigaste stegen i ekonometrisk modellering. Metoden för sekventiell (steg-för-steg) inkludering (eller exkludering) av faktorer i modellen låter dig välja från en möjlig uppsättning variabler exakt de som kommer att förbättra modellens kvalitet.
Vid implementering av metoden är det första steget att beräkna korrelationsmatrisen. Baserat på parvisa korrelationskoefficienter avslöjas närvaron av kolinjära faktorer. Faktorerna x i och x j anses vara kolinjära om r xjxi >0,7. Endast en av de inbördes relaterade faktorerna ingår i modellen. Om det inte finns några kolinjära faktorer bland faktorerna, då alla faktorer som har en betydande inverkan på y.

I det andra steget konstrueras en regressionsekvation med en variabel som har det maximala absoluta värdet av den parvisa korrelationskoefficienten med det resulterande attributet.

I det tredje steget introduceras en ny variabel i modellen, som har det största absoluta värdet av den partiella korrelationskoefficienten med den beroende variabeln med en fast påverkan av den tidigare införda variabeln.
När ytterligare en faktor införs i modellen bör bestämningskoefficienten öka och den kvarvarande variansen minska. Om detta inte händer, dvs. koefficienten för multipel bestämning ökar något, anses införandet av en ny faktor vara olämpligt.

Exempel nr 1. För 20 företag i regionen, beroendet av produktionen per anställd y (tusen rubel) av andelen högt kvalificerade arbetare av det totala antalet arbetare x1 (% av värdet av tillgångarna i slutet av året) och av driftsättningen av nya anläggningstillgångar x2 (%) studeras.

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Nödvändig:

  1. Konstruera ett korrelationsfält mellan produktion per arbetare och andelen högt kvalificerade arbetare. Lägg fram en hypotes om närhet och typ av samband mellan indikatorer X1 och Y.
  2. Bedöm hur nära det linjära sambandet är mellan produktion per arbetare och andelen högt kvalificerade arbetare med en tillförlitlighet på 0,9.
  3. Beräkna koefficienterna för den linjära regressionsekvationen för beroendet av produktion per arbetare av andelen högt kvalificerade arbetare.
  4. Kontrollera den statistiska signifikansen för parametrarna i regressionsekvationen med en tillförlitlighet på 0,9 och konstruera konfidensintervall för dem.
  5. Beräkna bestämningskoefficienten. Använd Fishers F-test och utvärdera den statistiska signifikansen för regressionsekvationen med en tillförlitlighet på 0,9.
  6. Ge en punkt- och intervallprognos med en tillförlitlighet på 0,9 produktion per anställd för ett företag där 24 % av arbetarna är högkvalificerade.
  7. Beräkna koefficienterna för den linjära multipelregressionsekvationen och förklara den ekonomiska innebörden av dess parametrar.
  8. Analysera den statistiska signifikansen för multipla ekvationskoefficienter med en tillförlitlighet på 0,9 och konstruera konfidensintervall för dem.
  9. Hitta paret och partiella korrelationskoefficienter. Analysera dem.
  10. Hitta den justerade koefficienten för multipel bestämning. Jämför det med den ojusterade (övergripande) bestämningskoefficienten.
  11. Använd Fishers F-test och utvärdera regressionsekvationens tillräcklighet med en tillförlitlighet på 0,9.
  12. Ge en punkt- och intervallprognos med en tillförlitlighet på 0,9 produktion per anställd för ett företag där 24 % av arbetarna är högkvalificerade och driftsättningen av nya anläggningstillgångar är 5 %.
  13. Kontrollera den konstruerade ekvationen för närvaron av multikollinearitet med hjälp av: Students test; χ2 test. Jämför resultaten.

Lösning Vi gör det med hjälp av en miniräknare. Följande är utvecklingen av lösningen till klausul 13.
Matris av parkorrelationskoefficienter R:

- yx 1x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

I närvaro av multikollinearitet är determinanten för korrelationsmatrisen nära noll. För vårt exempel: det = 0,00081158, vilket indikerar närvaron av stark multikollinearitet.
För att välja de mest signifikanta faktorerna x i beaktas följande villkor:
- kopplingen mellan den resulterande egenskapen och faktorn ett måste vara högre än gränssnittskopplingen;
- förhållandet mellan faktorer bör inte vara mer än 0,7. Om matrisen har en inr xjxi > 0,7, så finns det multikollinearitet i denna multipelregressionsmodell.;
- med en hög interfaktorkoppling av en egenskap väljs faktorer med en lägre korrelationskoefficient mellan dem.
I vårt fall har r x 1 x 2 |r|>0,7, vilket indikerar multikollinearitet hos faktorerna och behovet av att utesluta en av dem från vidare analys.
Analys av den första raden i denna matris möjliggör valet av faktoregenskaper som kan inkluderas i multipelkorrelationsmodellen. Faktoregenskaper för vilka |r yxi | 0,3 – det finns praktiskt taget ingen anslutning; 0,3 ≤ |r| ≤ 0,7 - genomsnittlig anslutning; 0,7 ≤ |r| ≤ 0,9 – stark anslutning; |r| > 0,9 – kopplingen är mycket stark.
Låt oss kontrollera signifikansen av de erhållna parvisa korrelationskoefficienterna med Students t-test. Koefficienter för vilka värdena för t-statistikmodulen är större än det hittade kritiska värdet anses signifikanta.
Låt oss beräkna de observerade värdena för t-statistik för r yx 1 med formeln:

där m = 1 är antalet faktorer i regressionsekvationen.

Med hjälp av Elevens tabell hittar vi Ttable
t krit (n-m-1;a/2) = (18;0,025) = 2,101
Eftersom t obs > t crit förkastar vi hypotesen att korrelationskoefficienten är lika med 0. Med andra ord är korrelationskoefficienten statistiskt signifikant
Låt oss beräkna de observerade värdena för t-statistik för r yx 2 med formeln:

Eftersom t obs > t crit förkastar vi hypotesen att korrelationskoefficienten är lika med 0. Med andra ord är korrelationskoefficienten statistiskt signifikant
Således är sambandet mellan (y och x x 1), (y och x x 2) signifikant.
Faktorn x2 (r = 0,99) har störst inflytande på det effektiva attributet, vilket innebär att när modellen konstrueras kommer den att vara den första som kommer in i regressionsekvationen.
Testa och eliminera multikollinearitet.
Den mest kompletta algoritmen för att studera multikollinearitet är Farrar-Glober-algoritmen. Den testar tre typer av multikollinearitet:
1. Alla faktorer (χ 2 - chi-kvadrat).
2. Varje faktor med de andra (Fishers kriterium).
3. Varje par av faktorer (Elevens t-test).
Låt oss kontrollera variablerna för multikollinearitet med Farrar-Glouber-metoden med den första typen av statistiska kriterier (chi-kvadrattest).
Formeln för att beräkna värdet på Farrar-Glouber-statistiken är:
χ 2 = -ln(det[R])
där m = 2 är antalet faktorer, n = 20 är antalet observationer, det[R] är determinanten för matrisen av parade korrelationskoefficienter R.
Vi jämför det med tabellvärdet vid v = m/2(m-1) = 1 frihetsgrad och signifikansnivå α. Om χ 2 > χ tabell 2, så finns det multikollinearitet i vektorn av faktorer.
x tabell 2 (1;0,05) = 3,84146
Låt oss kontrollera variablerna för multikollinearitet med den andra typen av statistiska kriterier (Fishers test).

Låt oss kontrollera variablerna för multikollinearitet med hjälp av den tredje typen av statistiska kriterier (Students test). För att göra detta kommer vi att hitta partiella korrelationskoefficienter.
Partiella korrelationskoefficienter.
Den partiella korrelationskoefficienten skiljer sig från den enkla linjära parkorrelationskoefficienten genom att den mäter den parvisa korrelationen av motsvarande egenskaper (y och x i), förutsatt att inverkan av andra faktorer (x j) på dem elimineras.
Utifrån partialkoefficienterna kan vi dra slutsatsen att inkluderingen av variabler i regressionsmodellen är motiverad. Om koefficientens värde är litet eller obetydligt betyder det att sambandet mellan denna faktor och utfallsvariabeln antingen är mycket svagt eller helt saknas, varför faktorn kan exkluderas ur modellen.


Kommunikationstätheten är låg.
Låt oss bestämma betydelsen av korrelationskoefficienten r yx 1 / x 2. Som vi kan se har sambandet mellan y och x 2, förutsatt att x 1 ingår i modellen, minskat. Av detta kan vi dra slutsatsen att inmatning av x 2 i regressionsekvationen förblir olämpligt.
Vi kan dra slutsatsen att när man konstruerar en regressionsekvation bör faktorer x 1, x 2 väljas.

Exempel nr 2. För 30 observationer visade sig matrisen av parade korrelationskoefficienter vara följande:

yx 1x 2x 3
y1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
Bedöm multikollinearitet av faktorer. Konstruera en regressionsekvation på en standardskala och dra slutsatser.
  • 4. Statistisk uppskattning av PLR-parametrar med hjälp av minsta kvadratmetoden. Egenskaper för minsta kvadraters uppskattningar
  • Egenskaper för minsta kvadraters uppskattningar:
  • 5. Kontroll av kvaliteten på multipel linjär regression: parametrars betydelse, konfidensintervall, modelltillräcklighet. Prognoser.
  • 6. Multipel linjär regression (MLR). Klassiska antaganden. OLS-uppskattning av modellparametrar.
  • 7. Egenskaper för OLS-uppskattningar av multipel linjär regression. Gauss-Markovs teorem.
  • 8. Kontroll av kvaliteten på multipel linjär regression: parametrars betydelse, konfidensintervall, modelltillräcklighet. Prognoser.
  • 5. Koefficient Bestämmelser
  • Prognos med hjälp av en multipel linjär regressionsmodell
  • 9. Specifikation av en ekonometrisk modell: metoder och diagnostik för att välja exogena variabler. Ramsey och Amemya testar.
  • Ramsey kriterium:
  • 10. Ekonometrisk modellspecifikation: val av beroendeform för den olinjära modellen
  • Specifikationsprinciper
  • 11. Problemet med multikollinearitet. Konsekvenser av närvaron och diagnosen av multikollinearitet.
  • Metoder för att diagnostisera multikollinearitet:
  • 12. Metoder för att eliminera multikollinearitet. Huvudkomponentmetoden. Ridge regression.
  • 13. Problem med modellens heteroskedasticitet. Kriterier för dess diagnos.
  • 1. Parkkriterium.
  • 2. Goldfeld-Quandt-kriterium.
  • 3. Breusch-hedniskt kriterium.
  • 4. Vitt kriterium.
  • 14. Generaliserade minsta kvadrater (oms). Egenskaper för mlr-uppskattningar för omnk. Viktad minsta kvadratmetod i problemet med att uppskatta modellparametrar. Egenskaper för uppskattningar med hjälp av viktade minsta kvadrater.
  • Fråga 15. Problemet med autokorrelation av modellresidualer. Implikationer av autokorrelation vid användning av modellen.
  • Orsaker till autokorrelation av rester
  • Konsekvenser av autokorrelation:
  • 16. Durbin-Watsons diagnostiska kriterium för autokorrelation
  • 17. Metoder för att eliminera autokorrelation. Cochrane-Orcutt och Hildreth-Lou poängförfaranden
  • 18. Modeller med fördelade fördröjningar: eftersläpningsstruktur enligt Koik: Specialfall (modell med ofullständig justering och adaptiva förväntningar)
  • 19 Modeller med fördelade eftersläpningar: linjär-aritmetisk struktur av lags och polynomstruktur av lags enligt Almon
  • 20. h-Durbin-test och multipelt Lagrange-test för att kontrollera autokorrelation i eftersläpningsmodeller
  • 21. Begreppet tidsserier (tid). VR-modell, huvuduppgifter för VR-analys. Tidsutjämningsmetoder (glidande medelvärde, exponentiell utjämning, sekventiella skillnader)
  • 22 Stationaritet för tidsserien (tid). Egenskaper för korrelation av tempnivåer.
  • 23 Stationära tidsseriemodeller: autoregression, glidande medelvärde, arsc
  • 24. Icke-stationär modell av ariss. Uppskattning av modellparametrar.
  • 28. Tidsserieprognoser. Indikatorer för prognosnoggrannhet.
  • 30. Chow-test för diagnos av inkludering av dummyvariabler i en ekonometrisk modell.
  • 32. System av simultana ekonometriska ekvationer (SOE). Strukturell och reducerad form av systemet (grafisk och matrisrepresentation).
  • 33. Problem med identifiering av system med samtidiga ekvationer (SOE). Identifierbarhet av ekvationer soja (ordinal och rangkriterier)
  • 34. Metoder för att uppskatta system av samtidiga ekvationer: indirekt minsta kvadratmetod, tvåstegs minsta kvadratmetod. Tillämplighet och egenskaper hos bedömningar
  • 35. Ekonometrins nuvarande tillstånd. Exempel på stora ekonometriska modeller
  • 11. Problemet med multikollinearitet. Konsekvenser av närvaron och diagnosen av multikollinearitet.

    Om tillgänglig linjärt samband mellan exogena variabler , till exempel, då kommer OLS-uppskattningar inte att existera, eftersom det finns ingen invers av en matris som kommer att vara singular. Denna situation inom ekonometrin kallas problemet multikollinearitet.

    Orsaker till multikollinearitet:

    felaktig modellspecifikation

    slarvig insamling av statistiska data (användning av upprepade observationer).

    Skilja på explicit Och implicit multikollinearitet.

    Explicit - känd exakt linjärt samband mellan modellvariabler.

    Till exempel, om modellen för investeringsprocessen inkluderar nominella och reala räntor, dvs.

    där förhållandet mellan reala och nominella räntor och inflationstakten är känt

    då finns det uppenbar multikollinearitet.

    Implicit uppstår när det finns stokastiskt (osäkert, slumpmässigt) linjärt beroende mellan exogena variabler.

    implicit råder, dess närvaro kännetecknas av6 tecken :

    1. OLS uppskattningar av modellparametrar förlorar sina outträngda egenskaper .

    2. Varians av OLS-uppskattningar ökar:

    På grund av det faktum att korrelationskoefficienten, alltså, som medför

    3. Det finns en minskning t- statistik som är indikatorer på betydelsen av parametrar:

    4. Bestämningskoefficienten är inte längre ett mått på modellens tillräcklighet, eftersom låga värden t-statistiker leder till misstro mot den valda beroendemodellen.

    5. Parameteruppskattningar för icke-kollinjära exogena variabler blir mycket känsliga för förändringar i data.

    6. Parameterskattningar för icke-kollinjära exogena variabler blir obetydliga.

    Metoder för att diagnostisera multikollinearitet:

    Steg 1. I den (initiella) multipellinjära regressionsmodellen kommer vi att gå igenom alla delmodeller där någon exogen variabel blir endogen, d.v.s.

    Steg 2. Vi beräknar bestämningskoefficienterna för alla resulterande modeller, på grundval av vilka vi beräknar de så kallade inflationsfaktorerna:

    Om , då drar de slutsatsen att multikollinearitet existerar.

    a) de ändrar inte någon struktur i modellen, utan analyserar med hjälp av minsta kvadrater på datorn förekomsten av problemet med multikollinearitet med hjälp av visuella metoder.

    b) förbättra modellspecifikationen genom att eliminera kolinjära exogena variabler från den ursprungliga modellen.

    c) öka mängden statistiska data.

    d) kombinera kolinjära variabler och inkludera en gemensam exogen variabel i modellen.

    12. Metoder för att eliminera multikollinearitet. Huvudkomponentmetoden. Ridge regression.

    Om modellens huvuduppgift är att förutsäga framtida värden för den beroende variabeln, med en tillräckligt stor bestämningskoefficient R2 (≥ 0,9), påverkar närvaron av multikollinearitet ofta inte modellens prediktiva egenskaper.

    Om syftet med studien är att bestämma graden av påverkan av var och en av de förklarande variablerna på den beroende variabeln, kommer närvaron av multikollinearitet att förvränga de sanna sambanden mellan variablerna. I denna situation verkar multikollinearitet vara ett allvarligt problem.

    Observera att det inte finns någon enskild metod för att eliminera multikollinearitet som är lämplig i alla fall. Detta beror på att orsakerna och konsekvenserna av multikollinearitet är tvetydiga och till stor del beror på provets resultat.

    METODER:

    Exklusive variabel(er) från modellen

    När man till exempel studerar efterfrågan på en viss vara kan priset på denna vara och priserna på substitut för denna vara, som ofta korrelerar med varandra, användas som förklaringsvariabler. Genom att exkludera priserna på substitut från modellen kommer vi sannolikt att införa ett specifikationsfel. Som ett resultat är det möjligt att få partiska uppskattningar och dra ogrundade slutsatser. I tillämpade ekonometriska modeller är det önskvärt att inte utesluta förklaringsvariabler förrän kolinearitet blir ett allvarligt problem.

    Få mer data eller ett nytt prov

    Ibland räcker det med att öka provstorleken. Om du till exempel använder årsdata kan du gå över till kvartalsdata. Att öka mängden data minskar variansen av regressionskoefficienter och ökar därmed deras statistiska signifikans. Men att få ett nytt prov eller utöka ett gammalt är inte alltid möjligt eller är förenat med stora kostnader. Dessutom kan detta tillvägagångssätt stärka autokorrelationen. Dessa problem begränsar möjligheten att använda den här metoden.

    Ändra modellspecifikation

    I vissa fall kan problemet med multikollinearitet lösas genom att ändra modellens specifikation: antingen genom att ändra modellens form, eller genom att lägga till förklaringsvariabler som inte beaktas i den ursprungliga modellen, men som signifikant påverkar den beroende variabeln .

    Använder förhandsinformation om vissa parametrar

    Ibland, när du bygger en multipel regressionsmodell, kan du använda lite preliminär information, särskilt de kända värdena för vissa regressionskoefficienter. Det är troligt att värdena på koefficienterna som erhållits för vissa preliminära (oftast enklare) modeller, eller för en liknande modell baserad på ett tidigare erhållet prov, kan användas för den som utvecklas i det här ögonblicket modeller.

    För att illustrera ger vi följande exempel. Regression byggs. Låt oss anta att variablerna X1 och X2 är korrelerade. För den tidigare konstruerade parade regressionsmodellen Y = γ0 + γ1X1+υ, bestämdes en statistiskt signifikant koefficient γ1 (för visshet, låt γ1 = 0,8), vilket förbinder Y med X1. Om det finns anledning att tro att förhållandet mellan Y och X1 kommer att förbli oförändrat, så kan vi sätta γ1 = β1 = 0,8. Sedan:

    Y = β0 + 0,8X1 + β2X2 + e. ⇒ Y – 0,8X1 = β0 + β2X2 + ε.

    Ekvationen är faktiskt en parvis regressionsekvation för vilken problemet med multikollinearitet inte existerar.

    Begränsningarna för att använda denna metod beror på:

      Att få preliminär information är ofta svårt,

      sannolikheten att den allokerade regressionskoefficienten blir densamma för olika modeller, inte hög.

    Konvertera variabler

    I vissa fall kan problemet med multikollinearitet minimeras eller till och med elimineras genom att transformera variabler.

    Låt till exempel den empiriska regressionsekvationen vara Y = b0 + b1X1 + b2X2

    där X1 och X2 är korrelerade variabler. I den här situationen kan du försöka bestämma regressionsberoende av relativa värden. Det är troligt att problemet med multikollinearitet inte kommer att finnas i liknande modeller.

    Huvudkomponentmetoden är en av huvudmetoderna för att eliminera variabler från en multipel regressionsmodell.

    Denna metod används för att eliminera eller reducera multikollinearitet hos faktorvariabler i en regressionsmodell. Kärnan i metoden : minska antalet faktorvariabler till de mest signifikanta påverkande faktorerna . Detta uppnås genom att linjärt transformera alla faktorvariabler xi (i=0,...,n) till nya variabler som kallas huvudkomponenter, dvs. en övergång görs från matrisen av faktorvariabler X till matrisen av huvudkomponenterna F. I detta fall ställs kravet att valet av den första huvudkomponenten motsvarar maximum av den totala variansen av alla faktorvariabler xi (i=0,...,n), den andra komponenten motsvarar maximum av den återstående variansen, efter att påverkan av den första huvudkomponenten är eliminerad, etc.

    Om ingen av faktorvariablerna som ingår i den multipla regressionsmodellen kan exkluderas, används en av de huvudsakliga partiska metoderna för att uppskatta regressionsmodellkoefficienter - åsregression eller ås. När du använder åsregressionsmetoden ett litet tal läggs till alla diagonala element i matrisen (XTX) τ: 10-6 ‹ τ ‹ 0,1. Uppskattning av okända parametrar för en multipel regressionsmodell utförs med hjälp av formeln:

    där ln är identitetsmatrisen.

    Grundläggande bestämmelser

    Om regressorerna i modellen är förbundna med ett strikt funktionellt beroende, då fullständig (perfekt) multikollinearitet. Den här typen multikollinearitet kan till exempel uppstå i ett linjärt regressionsproblem löst med minsta kvadratmetoden, om matrisens determinant är lika med noll. Fullständig multikollinearitet tillåter oss inte att entydigt uppskatta parametrarna för den ursprungliga modellen och separera bidragen från regressorer till utdatavariabeln baserat på resultaten av observationer.

    I problem med verkliga data är fallet med fullständig multikollinearitet extremt sällsynt. Istället har vi i applikationsdomänen ofta att göra med partiell multikollinearitet, som kännetecknas av parvisa korrelationskoefficienter mellan regressorer. I fallet med partiell multikollinearitet kommer matrisen att ha full rang, men dess determinant kommer att vara nära noll. I det här fallet är det formellt möjligt att få uppskattningar av modellparametrarna och deras noggrannhetsindikatorer, men alla kommer att vara instabila.

    Bland konsekvenserna av partiell multikollinearitet är följande:

    • ökning av varianser av parameteruppskattningar
    • minskning av t-statistiska värden för parametrar, vilket leder till en felaktig slutsats om deras statistiska signifikans
    • erhålla instabila uppskattningar av modellparametrar och deras varianser
    • möjligheten att erhålla ett felaktigt tecken ur parameteruppskattningens teoretiska synvinkel

    Det finns inga exakta kvantitativa kriterier för att detektera partiell multikollinearitet. Följande används oftast som tecken på dess närvaro:

    Metoder för att eliminera multikollinearitet

    Det finns två huvudsakliga metoder för att lösa detta problem.

    Oavsett hur valet av faktorer utförs leder en minskning av deras antal till en förbättring av matrisens villkor och följaktligen till en ökning av kvaliteten på uppskattningarna av modellparametrarna.

    Utöver de listade metoderna finns det en annan, enklare som ger ganska bra resultat - det här är förcentreringsmetod. Kärnan i metoden är att innan man hittar parametrarna matematisk modell Källdata centreras: medelvärdet av serien subtraheras från varje värde i dataserien: . Denna procedur tillåter oss att separera hyperplanen för LSM-förhållandena så att vinklarna mellan dem är vinkelräta. Som ett resultat blir modelluppskattningarna stabila (Konstruktion av multifaktormodeller under multikollinearitetsförhållanden).

    Ryska federationens federala byrå för utbildning och vetenskap

    Kostroma State Technological University.

    Institutionen för högre matematik

    i ekonometri om ämnet:

    Multikollinearitet

    Genomförde

    1:a års elev

    korrespondensfakulteten

    sova "Redovisning"

    analys och revision."

    Jag kollade

    Katerzhina S.F.

    Kostroma 2008


    Multikollinearitet

    Multikollinearitet hänvisar till den höga ömsesidiga korrelationen mellan förklaringsvariabler. Multikollinearitet kan yttra sig i funktionella (explicita) och stokastiska (dolda) former.

    I den funktionella formen av multikollinearitet enl minst ett av de parvisa sambanden mellan de förklarande variablerna är ett linjärt funktionellt samband. I detta fall är matrisen X`X speciell, eftersom den innehåller linjärt beroende kolumnvektorer, och dess determinant är lika med noll, dvs. premissen för regressionsanalys kränks, detta leder till omöjligheten att lösa motsvarande system med normala ekvationer och erhålla uppskattningar av parametrarna för regressionsmodellen.

    Men inom ekonomisk forskning visar sig multikollinearitet oftare i en stokastisk form, när det finns en nära korrelation mellan minst två förklaringsvariabler. Matrisen X`X i detta fall är icke-singular, men dess determinant är mycket liten.

    Samtidigt är vektorn för skattningar b och dess kovariansmatris ∑ b proportionella invers matris(X`X) -1 , vilket betyder att deras element är omvänt proportionella mot värdet av determinanten |X`X|. Som ett resultat erhålls signifikanta standardavvikelser (standardfel) för regressionskoefficienterna b 0 , b 1 , ..., b p och att bedöma deras signifikans med t-testet är inte meningsfullt, även om regressionsmodellen i allmänhet kan vända ut att vara signifikant med F-testet.

    Uppskattningar blir mycket känsliga för små förändringar i observationer och urvalsstorlek. Regressionsekvationer i detta fall har som regel ingen egentlig betydelse, eftersom några av dess koefficienter kan ha felaktiga tecken ur ekonomisk teorisynpunkt och orimligt stora värden.

    Det finns inga exakta kvantitativa kriterier för att bestämma närvaron eller frånvaron av multikollinearitet. Det finns dock några heuristiska metoder för att identifiera det.

    Ett sådant tillvägagångssätt är att analysera korrelationsmatrisen mellan förklaringsvariablerna X 1 , X 2 , ..., X p och identifiera par av variabler som har höga variabelkorrelationer (vanligtvis större än 0,8). Om sådana variabler finns, sägs de ha multikollinearitet. Det är också användbart att hitta flera bestämningskoefficienter mellan en av de förklarande variablerna och någon grupp av dem. Närvaron av en hög multipel bestämningskoefficient (vanligtvis större än 0,6) indikerar multikollinearitet.

    Ett annat tillvägagångssätt är att undersöka matrisen X`X. Om determinanten för matrisen X`X eller dess minimiegenvärde λ min är nära noll (till exempel av samma ordning med ackumulerande beräkningsfel), så indikerar detta närvaron av multikollinearitet. Detsamma kan indikeras av en signifikant avvikelse av det maximala egenvärdet λmax för matrisen X`X från dess minsta egenvärde λmin.

    Ett antal metoder används för att eliminera eller minska multikollinearitet. Den enklaste av dem (men inte alltid möjlig) är att av två förklaringsvariabler som har en hög korrelationskoefficient (mer än 0,8) är en variabel utesluten från beaktande. Samtidigt avgörs vilken variabel som ska lämnas och vilken som ska tas bort från analysen i första hand utifrån ekonomiska överväganden. Om ingen av variablerna ur ekonomisk synpunkt kan ges företräde, så behålls den av de två variablerna som har en högre korrelationskoefficient med den beroende variabeln.

    En annan metod för att eliminera eller reducera multikollinearitet är att gå från opartiska uppskattningar som bestäms av minsta kvadratmetoden till partiska uppskattningar, som dock har mindre spridning i förhållande till den uppskattade parametern, dvs. den mindre matematiska förväntan av den kvadratiska avvikelsen för skattningen b j från parametern β j eller M (b j - β j) 2.

    Uppskattningar som bestäms av en vektor har, i enlighet med Gauss-Markovs sats, de minsta varianserna i klassen för alla linjära opartiska skattare, men i närvaro av multikollinearitet kan dessa varianser vara för stora, och om man vänder sig till motsvarande partiska skattare kan förbättra noggrannheten för att uppskatta regressionsparametrar. Figuren visar fallet där den förspända skattningen β j ^, vars samplingsfördelning ges av densiteten φ (β j ^).

    Låt faktiskt det maximalt tillåtna konfidensintervallet för den uppskattade parametern βj vara (βj -Δ, βj +Δ). Då blir konfidenssannolikheten, eller skattningens tillförlitlighet, bestämd av arean under fördelningskurvan på intervallet (β j -Δ, β j +Δ), som är lätt att se från figuren, i detta fall större för skattningen β j jämfört med b j (i figuren är dessa områden skuggade). Följaktligen kommer den genomsnittliga kvadratiska avvikelsen för uppskattningen från den uppskattade parametern att vara mindre för en partisk uppskattning, dvs.

    M (β j ^ - β j) 2< M (b j - β j) 2

    När vi använder "ryggregression" (eller "ryggregression"), istället för opartiska uppskattningar, tar vi hänsyn till partiska uppskattningar som specificeras av vektorn

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    Var τ – något positivt tal som kallas "ås" eller "ås"

    E p +1 – enhetsmatris (p+1) av –:e ordningen.

    Tillägg τ till de diagonala elementen i matrisen X`X gör uppskattningarna av modellparametrarna förskjutna, men samtidigt ökar determinanten för matrisen för systemet av normala ekvationer - istället för (X`X) från kommer att vara lika med

    |X`X+τ Ep+1 |

    Således blir det möjligt att utesluta multikollinearitet i det fall då determinanten |X`X| nära noll.

    För att eliminera multikollinearitet kan en övergång från de ursprungliga förklaringsvariablerna X 1 , X 2 ,..., Xn , sammankopplade med en ganska nära korrelation, till nya variabler som representerar linjära kombinationer av de ursprungliga, användas. I detta fall måste de nya variablerna vara svagt korrelerade eller helt okorrelerade. Som sådana variabler tar vi till exempel de så kallade huvudkomponenterna i vektorn av initiala förklaringsvariabler, studerade i komponentanalys, och betraktar regression på huvudkomponenterna, där de senare fungerar som generaliserade förklaringsvariabler, med förbehåll för ytterligare meningsfull (ekonomisk) tolkning.

    Ortogonaliteten hos huvudkomponenterna förhindrar multikollinearitetseffekten. Dessutom tillåter den använda metoden oss att begränsa oss till ett litet antal huvudkomponenter med ett relativt stort antal initiala förklaringsvariabler.

    Multikollinearitet -är ett begrepp som används för att beskriva problemet där ett löst linjärt samband mellan förklarande variabler resulterar i otillförlitliga regressionsuppskattningar. Ett sådant beroende leder givetvis inte nödvändigtvis till otillfredsställande bedömningar. Om alla andra förhållanden är gynnsamma, det vill säga om antalet observationer och urvalsvarianser av förklaringsvariablerna är stora, och variansen för den slumpmässiga termen är liten, så kan du i slutändan få ganska bra uppskattningar.

    Så multikollinearitet måste orsakas av en kombination av ett svagt förhållande och ett (eller flera) ogynnsamt tillstånd, och det är frågan

    graden av manifestation av fenomenet, och inte dess typ. Uppskattningen av eventuell regression kommer att lida av det i viss utsträckning om inte alla oberoende variabler visar sig vara helt okorrelerade. Övervägande av detta problem börjar först när det allvarligt påverkar resultaten av regressionsuppskattningen.

    Detta problem är vanligt vid tidsserieregression, det vill säga när data består av ett antal observationer över en tidsperiod. Om två eller flera oberoende variabler har en stark tidstrend kommer de att vara starkt korrelerade, och detta kan leda till multikollinearitet.


    Vad kan man göra i det här fallet?

    De olika tekniker som kan användas för att mildra multikollinearitet delas in i två kategorier: den första kategorin innefattar försök att förbättra graden i vilken de fyra villkoren för regressionsuppskattningarnas tillförlitlighet uppfylls; den andra kategorin omfattar användningen extern information. Om vi ​​först använder möjliga direkt erhållna data, så skulle det givetvis vara användbart att öka antalet observationer.

    Om du använder tidsseriedata kan detta göras genom att förkorta varaktigheten för varje tidsperiod. När du till exempel uppskattar efterfrågefunktionsekvationerna i övningarna 5.3 och 5.6, kan du byta från att använda årsdata till kvartalsdata.

    Efter detta, istället för 25 observationer, kommer det att finnas 100. Detta är så uppenbart och så enkelt att göra att de flesta forskare som använder tidsserier nästan automatiskt använder kvartalsdata, om de är tillgängliga, istället för årsdata, även om multikollinearitet inte är ett problem, bara för argumentets skull minimala teoretiska varianser av regressionskoefficienter. Det finns dock potentiella problem med detta tillvägagångssätt. Autokorrelation kan införas eller förstärkas, men den kan neutraliseras. Dessutom kan bias på grund av mätfel införas (eller förstärkas) om kvartalsdata mäts med mindre precision än motsvarande årsdata. Det här problemet är inte lätt att lösa, men det kanske inte är betydande.

    Multikollinearitet är korrelationen mellan två eller flera förklarande variabler i en regressionsekvation. Den kan vara funktionell (explicit) och stokastisk (dold). Med funktionell multikollinearitet är XTX-matrisen degenererad och (XTX)-1 existerar inte, därför är det omöjligt att avgöra. Oftare manifesterar multikollinearitet sig i en stokastisk form, medan OLS-uppskattningar formellt existerar, men har ett antal nackdelar:

    • 1) en liten förändring i initialdata leder till en signifikant förändring av regressionsuppskattningarna;
    • 2) skattningarna har stora standardfel och låg signifikans, medan modellen som helhet är signifikant (högt R2-värde);
    • 3) intervalluppskattningar av koefficienter expanderar, vilket försämrar deras noggrannhet;
    • 4) det är möjligt att få fel tecken för regressionskoefficienten.

    Upptäckt

    Det finns flera tecken genom vilka närvaron av multikollinearitet kan bestämmas.

    Först, analys av korrelationsmatrisen av parvisa korrelationskoefficienter:

    • - om det finns par av variabler som har höga korrelationskoefficienter (> 0,75 - 0,8), talar de om multikollinearitet mellan dem;
    • - om faktorerna är okorrelerade, då är det Q = 1, om det finns fullständig korrelation, då är det Q = 0.

    Du kan kontrollera H0: det Q = 1; med hjälp av statistiskt test

    där n är antalet observationer, m = p+1.

    Om så avvisas H0 och multikollinearitet bevisas.

    För det andra bestäms multipla bestämningskoefficienter för en av de förklarande variablerna och någon grupp av andra. Närvaron av en hög R2 (> 0,6) indikerar multikollinearitet.

    För det tredje indikerar närheten till noll för minimiegenvärdet för XTX-matrisen (dvs lösningen till ekvationen) att det(XTX) också är nära noll och därför multikollinearitet.

    För det fjärde, höga partiella korrelationskoefficienter.

    var är de algebraiska tilläggen av elementen i matrisen av sampelkorrelationskoefficienter. Partiella korrelationskoefficienter av högre ordning kan bestämmas genom partiella korrelationskoefficienter av lägre ordningar med hjälp av den återkommande formeln:

    För det femte talar vissa människor om närvaron av multikollinearitet yttre tecken konstruerad modell, vilka är dess konsekvenser. Dessa bör innehålla följande:

    • · några av uppskattningarna har felaktiga tecken ur ekonomisk teorisynpunkt eller orimligt stora absoluta värden;
    • · en liten förändring i de initiala statistiska uppgifterna (tillägg eller borttagning av några observationer) leder till en betydande förändring i skattningarna av modellkoefficienterna, till och med ändrar deras tecken;
    • · de flesta eller till och med alla uppskattningar av regressionskoefficienter visar sig vara statistiskt insignifikanta enligt t-testet, medan modellen som helhet är signifikant enligt F-testet.

    Det finns ett antal andra metoder för att bestämma multikollinearitet.

    Om modellens huvuduppgift är att förutsäga framtida värden för den beroende variabeln, med en tillräckligt stor bestämningskoefficient R2 (> 0,9), påverkar närvaron av multikollinearitet vanligtvis inte modellens prediktiva egenskaper. Detta uttalande kommer att vara motiverat om samma samband mellan de korrelerade variablerna kvarstår i framtiden.

    Om syftet med studien är att bestämma graden av påverkan av var och en av de förklarande variablerna på den beroende variabeln, då förekomsten av multikollinearitet, vilket leder till en ökning standardfel, sannolikt kommer att förvränga de sanna sambanden mellan variabler. I denna situation är multikollinearitet ett allvarligt problem.