다중공선성의 존재 여부를 확인합니다. 다중 공선성의 정의 일반적인 용어로 다중 공선성의 이론적 의미

다중 회귀 방정식을 구성할 때 요인의 다중 공선성 문제가 발생할 수 있습니다. 다중공선성두 개 이상의 설명 변수 사이의 선형 관계로, 기능적(명시적) 또는 확률론적(잠재적) 형태로 나타날 수 있습니다.
선택한 특성 간의 관계를 식별하고 연결 근접성에 대한 정량적 평가는 상관 분석 방법을 사용하여 수행됩니다. 이러한 문제를 해결하기 위해 를 먼저 추정한 후, 이를 토대로 부분상관계수와 다중상관계수, 결정계수를 구하고 그 유의성을 확인한다. 상관 분석의 궁극적인 목표는 회귀 방정식의 추가 구성을 위해 요인 특성 x 1, x 2,…, x m을 선택하는 것입니다.

요인 변수가 엄격한 기능적 의존성으로 연결되어 있으면 다음과 같이 말합니다. 완전 다중공선성. 이 경우 요인변수 행렬의 열 중 엑스선형 종속 열이 있고 행렬 행렬식의 특성에 따라 det(X T X) = 0입니다. 즉, 행렬 (X T X)는 특이 행렬이므로 역행렬이 없음을 의미합니다. 행렬 (X T X) -1은 OLS 추정치를 구성하는 데 사용됩니다. 따라서 완전한 다중 공선성은 원래 회귀 모델의 매개변수를 명확하게 추정하는 것을 허용하지 않습니다.

모형에 포함된 요인들의 다중공선성은 어떤 어려움을 초래하며, 이를 어떻게 해결할 수 있나요?

다중 공선성은 바람직하지 않은 결과를 초래할 수 있습니다.

  1. 모수 추정치가 신뢰할 수 없게 됩니다. 그들은 큰 표준 오류를 발견합니다. 관측량이 변경되면 추정치가 변경되므로(크기뿐만 아니라 부호도) 모델이 분석 및 예측에 적합하지 않게 됩니다.
  2. 요인들이 서로 연관되어 있기 때문에 다중 회귀 매개변수를 "순수한" 형태의 요인 작용 특성으로 해석하기가 어려워집니다. 선형 회귀 매개변수는 경제적 의미를 잃습니다.
  3. 성과 지표에 대한 요인들의 개별적인 영향을 결정하는 것이 불가능해졌습니다.

요인 변수가 확률론적 의존성에 의해 관련되어 있는 다중 공선성의 유형을 호출합니다. 부분적.요인 변수 사이에 높은 수준의 상관 관계가 있는 경우 행렬(X T X)은 퇴화에 가깝습니다. 즉, det(X T X) ≒ 0입니다.
행렬 (X T X) -1은 조건이 좋지 않아 OLS 추정치가 불안정해집니다. 부분 다중 공선성은 다음과 같은 결과를 초래합니다.

  • 모수 추정치의 분산이 증가하면 간격 추정치가 확장되고 정확도가 저하됩니다.
  • 감소하다 -계수 통계는 요인의 중요성에 대해 잘못된 결론을 이끌어냅니다.
  • OLS 추정치의 불안정성과 그 차이.

부분 다중공선성을 탐지하기 위한 정확한 정량적 기준은 없습니다. 다중 공선성의 존재는 행렬식(X T X)이 0에 근접하여 표시될 수 있습니다. 쌍별 상관 계수의 값도 검사됩니다. 인터팩터 상관 행렬의 행렬식이 1에 가까우면 다중 공선성이 없습니다.

강한 상호인자 상관관계를 극복하기 위한 다양한 접근법이 있습니다. 그 중 가장 간단한 방법은 모델의 품질이 크게 저하되지 않는 한(즉, 이론적 결정 계수 -R 2 y(x1...xm) 다중 공선성을 가장 많이 일으키는 요인(또는 요인)을 모델에서 제외하는 것입니다. ) 미미하게 감소합니다) .

다중공선성을 제거하기 위해 사용할 수 없는 척도는 무엇입니까?
a) 표본 크기를 늘리는 것;
b) 다른 변수와 상관관계가 높은 변수를 제외합니다.
c) 모델 사양의 변경;
d) 랜덤 성분의 변환.

쌍체(선형) 및 부분 상관 계수

예를 들어 값 샘플(x i, y i), i=1,n, (1)에 대한 변수 x와 y 사이의 연결 근접성
여기서 x와 y는 평균값이고 S x와 S y는 해당 샘플의 표준 편차입니다.

쌍별 상관 계수는 –1에서 +1까지 다양합니다. 절대값이 1에 가까울수록 x와 y 사이의 통계적 관계는 선형 함수 관계에 더 가까워집니다. 계수의 양수 값은 특성 간의 관계가 직접적(x가 증가함에 따라 y 값이 증가함)을 나타내고, 음수 값은 관계가 반대임을 나타냅니다(x가 증가하면 y 값이 감소함).
상관 계수의 가능한 값에 대해 다음과 같은 정성적 해석을 제공할 수 있습니다.<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
요인의 다중 공선성을 평가하려면 요인 특성 x 1, x 2,…, x m을 갖는 종속(결과) 특성 y의 쌍 상관 계수 행렬을 사용하십시오. 이를 통해 각 요인 지표 x j가 미치는 영향 정도를 평가할 수 있습니다. 종속 변수 y와 요인 간의 관계의 근접성. 일반적인 경우의 상관 행렬은 다음과 같은 형식을 갖습니다.
.
행렬은 대칭이며 대각선에 행렬이 있습니다. 행렬의 상호 요인 상관 계수 r xjxi >0.7이 있는 경우 이 다중 회귀 모델에는 다중 공선성이 있습니다.
특성 관계를 설정하는 소스 데이터는 특정 일반 모집단의 표본이므로 이러한 데이터에서 계산된 상관 계수는 선택적입니다. 즉, 관계만 추정합니다. 다음 질문에 대답하는 유의성 테스트가 필요합니다. 얻은 계산 결과가 무작위인지 아닌지?
쌍별 상관 계수의 중요성확인 티-학생의 T 테스트. 일반 상관 계수가 0(H 0: ρ = 0)이라는 가설이 제시됩니다. 그런 다음 매개변수가 설정됩니다: 유의 수준 α 및 자유도 v = n-2. 이러한 매개변수를 사용하여 스튜던트 분포의 임계점 표에서 tcr을 찾고 사용 가능한 데이터에서 계산합니다. 관찰된 기준 값:
, (2)
여기서 r은 연구를 위해 선택된 데이터로부터 계산된 쌍 상관 계수입니다. 쌍 상관 계수는 t Obs 모듈로가 t crit보다 큰 경우 신뢰 확률 γ = 1-α로 유의미한 것으로 간주됩니다(계수가 0과 같다는 가설은 기각됩니다).
변수가 서로 상관되어 있는 경우 상관 계수 값은 부분적으로 다른 변수의 영향을 받습니다.

편상관계수다른 요인의 영향을 제거할 때 결과와 해당 요인 사이의 선형 관계가 얼마나 가까운지를 나타냅니다. 부분 상관 계수는 다른 요인의 고정 값을 사용하여 두 변수 사이의 관계가 얼마나 가까운지를 평가합니다. 예를 들어 계산하면 r yx 1| x2(x2의 고정 영향을 갖는 y와 x1 사이의 부분 상관 계수)는 y와 x1 사이의 선형 관계에 대한 정량적 측정이 결정됨을 의미하며, 이는 이러한 특성에 대한 x2의 영향이 다음과 같은 경우에 발생합니다. 제거되었습니다. 한 가지 요인의 영향만 제외하면 다음과 같습니다. 부분적인 1차 상관계수.
쌍상관계수와 부분상관계수의 값을 비교하면 고정요인이 영향을 미치는 방향을 알 수 있습니다. 부분 상관 계수 r yx 1| x2는 해당 쌍 계수 r yx 1보다 작습니다. 이는 특성 y와 x 1 사이의 관계가 어느 정도 고정 변수 x 2의 영향에 의해 결정됨을 의미합니다. 반대로, 쌍 계수에 비해 부분 계수의 값이 클수록 고정 변수 x 2 가 그 영향으로 y와 x 1 사이의 관계를 약화시킨다는 것을 나타냅니다.
한 요인(x 1)의 영향을 제외할 때 두 변수(y와 x 2) 사이의 부분 상관 계수는 다음 공식을 사용하여 계산할 수 있습니다.
. (3)
다른 변수의 경우 공식은 비슷한 방식으로 구성됩니다. 고정시 x 2
;
고정 x 3
.
부분 상관 계수의 유의성은 쌍 상관 계수의 경우와 유사하게 확인됩니다. 유일한 차이점은 자유도 수이며 v = n – l -2와 같아야 합니다. 여기서 l은 고정 요소의 수입니다.

단계적 회귀

다중 회귀 모형에 포함된 x 1 , x 2 , …, x m 요인을 선택하는 것은 계량경제 모형화의 가장 중요한 단계 중 하나입니다. 모델에 요인을 순차적으로(단계적으로) 포함(또는 제외)하는 방법을 사용하면 가능한 변수 세트에서 모델의 품질을 향상시킬 변수를 정확하게 선택할 수 있습니다.
이 방법을 구현할 때 첫 번째 단계는 상관 행렬을 계산하는 것입니다. 쌍별 상관 계수를 기반으로 공선적 요인의 존재가 드러납니다. r xjxi >0.7인 경우 인수 x i와 x j는 동일선상에 있는 것으로 간주됩니다. 상호 연관된 요인 중 하나만 모델에 포함됩니다. 요인들 사이에 동일선상 요인이 없다면, 영향을 미치는 모든 요인은 다음과 같습니다. 와이.

두 번째 단계에서는 결과 속성과 쌍별 상관계수의 절대값이 최대가 되는 하나의 변수로 회귀식을 구성한다.

세 번째 단계에서는 이전에 도입된 변수의 영향이 고정된 종속변수와의 편상관계수의 절대값이 가장 큰 새로운 변수가 모델에 도입됩니다.
모형에 추가 요인이 도입되면 결정 계수가 증가하고 잔차 분산이 감소해야 합니다. 이것이 발생하지 않으면, 즉 다중 결정 계수가 약간 증가하면 새로운 요소의 도입이 부적절하다고 간주됩니다.

예 1. 이 지역의 20개 기업의 경우, 총 근로자 수 x1(연말 자산 가치의 %) 중 우수한 근로자의 비율과 커미셔닝에 대한 직원당 생산량 y(천 루블)의 의존도 새로운 고정자산의 x2(%)를 연구합니다.

와이 X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

필수의:

  1. 근로자 1인당 생산량과 우수한 근로자의 비율 사이의 상관관계 필드를 구축합니다. 지표 X1과 Y 사이의 근접성과 관계 유형에 대한 가설을 제시합니다.
  2. 근로자 1인당 생산량과 우수한 근로자 비율 사이의 선형 관계의 근접성을 신뢰도 0.9로 평가합니다.
  3. 우수한 자격을 갖춘 근로자의 비율에 대한 근로자당 생산량의 의존성에 대한 선형 회귀 방정식의 계수를 계산합니다.
  4. 신뢰도 0.9로 회귀식 매개변수의 통계적 유의성을 확인하고 이에 대한 신뢰구간을 구성합니다.
  5. 결정계수를 계산합니다. Fisher의 F 테스트를 사용하여 신뢰도 0.9로 회귀 방정식의 통계적 유의성을 평가합니다.
  6. 24%의 근로자가 우수한 자격을 갖춘 기업에 대해 직원당 ​​출력의 신뢰도가 0.9인 점 및 구간 예측을 제공합니다.
  7. 선형 다중 회귀 방정식의 계수를 계산하고 해당 매개변수의 경제적 의미를 설명합니다.
  8. 신뢰도가 0.9인 여러 방정식 계수의 통계적 유의성을 분석하고 이에 대한 신뢰 구간을 구성합니다.
  9. 쌍상관계수와 부분상관계수를 구합니다. 그것들을 분석하십시오.
  10. 수정된 다중결정계수를 구합니다. 이를 조정되지 않은(전체) ​​결정계수와 비교합니다.
  11. Fisher의 F 테스트를 사용하여 신뢰도 0.9로 회귀 방정식의 타당성을 평가합니다.
  12. 24%의 근로자가 우수한 자격을 갖추고 있고 새로운 고정 자산의 시운전이 5%인 기업에 대해 직원당 ​​0.9 출력의 신뢰도로 포인트 및 간격 예측을 제공합니다.
  13. 다음을 사용하여 다중 공선성의 존재에 대해 구성된 방정식을 확인합니다. 학생 테스트; χ2 테스트. 결과를 비교해보세요.

해결책우리는 계산기를 사용하여 계산합니다. 13항의 해결 과정은 다음과 같습니다.
쌍 상관 계수 R의 행렬:

- 와이x 1x 2
와이 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

다중 공선성이 있는 경우 상관 행렬의 행렬식은 0에 가깝습니다. 예를 들어, det = 0.00081158은 강력한 다중공선성이 있음을 나타냅니다.
가장 중요한 요소 x i를 선택하려면 다음 조건이 고려됩니다.
- 결과 특성과 요소 1 사이의 연결은 상호 요소 연결보다 높아야 합니다.
- 요인 간의 관계는 0.7을 넘지 않아야 합니다. 행렬의 상호 요인 상관 계수 r xjxi > 0.7이 있는 경우 이 다중 회귀 모델에는 다중 공선성이 있습니다.
- 특성의 인터팩터 연결이 높을 경우, 이들 사이의 상관 계수가 낮은 팩터가 선택됩니다.
우리의 경우 r x 1 x 2의 |r|>0.7은 요인의 다중 공선성과 추가 분석에서 요인 중 하나를 제외해야 함을 나타냅니다.
이 행렬의 첫 번째 행을 분석하면 다중 상관 모델에 포함될 수 있는 요인 특성을 선택할 수 있습니다. |r yxi | 0.3 – 실질적으로 연결이 없습니다. 0.3 ≤ |r| ≤ 0.7 - 평균 연결; 0.7 ≤ |r| ≤ 0.9 – 강한 연결; |r| > 0.9 – 연결이 매우 강력합니다.
스튜던트 t-검정을 사용하여 얻은 쌍별 상관 계수의 유의성을 확인해 보겠습니다. t-통계 모듈로의 값이 발견된 임계값보다 큰 계수는 중요한 것으로 간주됩니다.
다음 공식을 사용하여 r yx 1에 대한 t-통계량의 관측값을 계산해 보겠습니다.

여기서 m = 1은 회귀 방정식의 요인 수입니다.

Student 테이블을 사용하여 Ttable을 찾습니다.
t 치명타(n-m-1;α/2) = (18;0.025) = 2.101
t obs > t crit이므로 상관 계수가 0과 같다는 가설을 기각합니다. 즉, 상관계수는 통계적으로 유의하다.
다음 공식을 사용하여 r yx 2에 대한 t-통계량의 관측값을 계산해 보겠습니다.

t obs > t crit이므로 상관 계수가 0과 같다는 가설을 기각합니다. 즉, 상관계수는 통계적으로 유의하다.
따라서 (y와 x x 1), (y와 x x 2) 사이의 관계는 중요합니다.
인자 x2(r = 0.99)는 유효속성에 가장 큰 영향을 미치며, 이는 모델을 구성할 때 회귀식에 가장 먼저 입력된다는 의미입니다.
다중 공선성 테스트 및 제거.
다중 공선성을 연구하기 위한 가장 완벽한 알고리즘은 Farrar-Glober 알고리즘입니다. 세 가지 유형의 다중 공선성을 테스트합니다.
1. 모든 요인(χ 2 - 카이제곱).
2. 각 요인과 다른 요인(Fisher의 기준).
3. 각 요인 쌍(학생 t-검정).
첫 번째 유형의 통계 기준(카이제곱 검정)을 사용하는 Farrar-Glouber 방법을 사용하여 변수의 다중 공선성을 확인해 보겠습니다.
Farrar-Glouber 통계 값을 계산하는 공식은 다음과 같습니다.
χ 2 = -ln(det[R])
여기서 m = 2는 요인 수, n = 20은 관측치 수, det[R]은 쌍 상관 계수 R 행렬의 행렬식입니다.
이를 v = m/2(m-1) = 1 자유도 및 유의 수준 α의 테이블 값과 비교합니다. χ 2 > χ 테이블 2이면 요인 벡터에 다중 공선성이 있습니다.
χ 테이블 2 (1;0.05) = 3.84146
두 번째 유형의 통계 기준(Fisher's test)을 사용하여 변수의 다중 공선성을 확인해 보겠습니다.

세 번째 유형의 통계 기준(학생 검정)을 사용하여 변수의 다중 공선성을 확인해 보겠습니다. 이를 위해 부분 상관 계수를 찾습니다.
편상관계수.
부분 상관 계수는 해당 특성(y 및 x i)의 쌍별 상관을 측정한다는 점에서 단순 선형 쌍 상관 계수와 다릅니다. 단, 해당 특성에 대한 다른 요인(x j)의 영향은 제거됩니다.
부분 계수를 기반으로 회귀 모델에 변수를 포함하는 것이 타당하다는 결론을 내릴 수 있습니다. 계수 값이 작거나 중요하지 않은 경우 이는 해당 요인과 결과 변수 간의 관계가 매우 약하거나 전혀 없음을 의미하므로 해당 요인을 모델에서 제외할 수 있습니다.


통신 밀도가 낮습니다.
상관 계수 r yx 1 / x 2의 유의성을 결정해 보겠습니다. 보시다시피 x 1이 모델에 포함된 경우 y와 x 2 사이의 연결이 감소했습니다. 이것으로부터 우리는 회귀 방정식에 x 2를 입력하는 것이 여전히 부적절하다는 결론을 내릴 수 있습니다.
회귀 방정식을 구성할 때 x1, x2 인수를 선택해야 한다는 결론을 내릴 수 있습니다.

예 2. 30개의 관측치에 대해 쌍 상관 계수의 행렬은 다음과 같은 것으로 나타났습니다.

와이x 1x 2x 3
와이1,0
x 10,30 1,0
x 20,60 0,10 1,0
x 30,40 0,15 0,80 1,0
요인의 다중공선성을 평가합니다. 표준 규모로 회귀 방정식을 구성하고 결론을 도출합니다.
  • 4. 최소자승법을 이용한 PLR 매개변수의 통계적 추정. 최소 제곱 추정의 속성
  • 최소 제곱 추정의 속성:
  • 5. 다중 선형 회귀의 품질 확인: 매개변수의 중요성, 신뢰 구간, 모델 적합성. 예측.
  • 6. 다중 선형 회귀(MLR). 고전적인 가정. 모델 매개변수의 OLS 추정.
  • 7. 다중 선형 회귀 분석의 OLS 추정 속성. 가우스-마르코프 정리.
  • 8. 다중 선형 회귀의 품질 확인: 매개변수의 중요성, 신뢰 구간, 모델 적합성. 예측.
  • 5. 계수 결정
  • 다중 선형 회귀 모델을 사용한 예측
  • 9. 계량경제 모델의 사양: 외생 변수 선택을 위한 방법 및 진단. Ramsey와 Amemya 테스트.
  • 램지 기준:
  • 10. 계량경제적 모델 사양: 비선형 모델의 종속 형태 선택
  • 사양 원칙
  • 11. 다중공선성의 문제. 다중공선성의 존재 및 진단의 결과.
  • 다중 공선성을 진단하는 방법:
  • 12. 다중 공선성을 제거하는 방법. 주성분 방법. 리지 회귀.
  • 13. 모델의 이분산성 문제. 진단 기준.
  • 1. 공원 기준.
  • 2. Goldfeld-Quandt 기준.
  • 3. Breusch-Pagan 기준.
  • 4. 흰색 기준.
  • 14. 일반화된 최소 제곱(oms). omnk에 대한 mlr 추정의 속성입니다. 모델 매개변수 추정 문제에서 가중치 최소 제곱법. 가중 최소 제곱을 사용한 추정의 속성.
  • 질문 15. 모델 잔차의 자기상관 문제. 모델을 사용할 때 자기상관의 의미.
  • 잔차 자기상관의 이유
  • 자기 상관의 결과:
  • 16. Durbin-Watson 자기상관 진단 기준
  • 17. 자기 상관을 제거하는 방법. Cochrane-Orcutt 및 Hildreth-Lou 채점 절차
  • 18. 분산 시차가 있는 모델: Koik에 따른 시차 구조: 특수 사례(불완전한 조정 및 적응 기대가 있는 모델)
  • 19 시차가 분산된 모델: Almon에 따른 시차의 선형-산술 구조 및 시차의 다항식 구조
  • 20. 시차 모델의 자기 상관성을 확인하기 위한 h-Durbin 테스트 및 다중 라그랑주 테스트
  • 21. 시계열(시간)의 개념. VR 분석의 주요 업무인 VR 모델. 시간 평활 방법(이동 평균, 지수 평활, 순차 차이)
  • 22 시계열(시간)의 정상성. 온도 수준의 상관 관계 특성.
  • 23 고정 시계열 모델: 자기회귀, 이동 평균, arsc
  • 24. ariss의 비고정형 모델. 모델 매개변수 추정.
  • 28. 시계열 예측. 예측 정확도 지표.
  • 30. 계량경제 모형에 더미변수가 포함되었는지 진단하기 위한 Chow 검정.
  • 32. 동시 계량 경제학 방정식 (SOE) 시스템. 시스템의 구조적 및 축소된 형태(그래픽 및 매트릭스 표현).
  • 33. 연립 방정식 시스템 (SOE) 식별 문제. 방정식의 식별 가능성 soy(서수 및 순위 기준)
  • 34. 연립 방정식 시스템을 추정하는 방법: 간접 최소 제곱법, 2단계 최소 제곱법. 평가의 적용 가능성 및 속성
  • 35. 계량경제학의 현재 상태. 대규모 계량경제 모델의 예
  • 11. 다중공선성의 문제. 다중공선성의 존재 및 진단의 결과.

    가능한 경우 외생 변수의 선형 관계 예를 들어 OLS 추정치는 존재하지 않습니다. 특이점이 될 행렬의 역행렬은 없습니다. 계량 경제학에서는 이러한 상황을 문제라고 부릅니다. 다중공선성.

    다중 공선성의 이유:

    잘못된 모델 사양

    부주의한 통계 데이터 수집(반복적인 관찰 사용)

    구별하다 명백한 그리고 절대적인 다중공선성.

    명백한 - 모두 다 아는 정확한 선형 관계모델 변수 사이.

    예를 들어, 투자 프로세스 모델에 명목 이자율과 실질 이자율이 포함된 경우, 즉

    여기서 실질이자율과 명목이자율, 인플레이션율 사이의 관계를 알 수 있습니다.

    그렇다면 명백한 다중공선성이 존재합니다.

    절대적인 있을 때 발생 확률론적(불확실, 무작위) 선형 의존성 외생변수 사이.

    암묵적인 것이 우세하며, 그 존재는 다음과 같은 특징을 갖습니다.6개의 표시 :

    1. 모델 매개변수의 OLS 추정 대체되지 않은 속성을 잃습니다. .

    2. OLS 추정치의 차이 증가:

    사실로 인해 상관 계수는 다음을 수반합니다.

    3. 감소가 있다 - 매개변수의 중요성을 나타내는 통계:

    4. 결정계수는 더 이상 모델의 적절성을 측정하는 척도가 아닙니다. 값이 낮기 때문입니다. -통계학자들은 선택된 의존 모델에 대한 불신을 초래합니다.

    5. 비공선형 외생변수에 대한 모수 추정치는 데이터 변화에 매우 민감해집니다.

    6. 동일선상이 아닌 외생변수에 대한 모수 추정치는 중요하지 않게 됩니다.

    다중 공선성을 진단하는 방법:

    1 단계.(초기) 다중 선형 회귀 모델에서는 외생 변수가 내생 변수가 되는 모든 하위 모델을 살펴보겠습니다.

    2 단계.우리는 소위 인플레이션 요인을 계산하는 기반으로 모든 결과 모델의 결정 계수를 계산합니다.

    이면 다중공선성이 존재한다고 결론을 내립니다.

    a) 모델의 구조는 변경되지 않지만 컴퓨터 최소 제곱을 사용하여 시각적 방법을 사용하여 다중 공선성 문제의 존재를 분석합니다.

    b) 원래 모델에서 동일선상의 외생 변수를 제거하여 모델 사양을 개선합니다.

    c) 통계 데이터의 양을 늘린다.

    d) 동일선상 변수를 결합하고 모델에 공통 외생 변수를 포함시킵니다.

    12. 다중 공선성을 제거하는 방법. 주성분 방법. 리지 회귀.

    모델의 주요 작업이 종속 변수의 미래 값을 예측하는 것이라면 결정 계수 R2(≥ 0.9)가 충분히 크면 다중 공선성의 존재가 모델의 예측 품질에 영향을 미치지 않는 경우가 많습니다.

    연구의 목적이 종속변수에 대한 각 설명변수의 영향 정도를 결정하는 것이라면 다중공선성의 존재는 변수 간의 실제 관계를 왜곡할 것입니다. 이런 상황에서는 다중공선성이 심각한 문제로 나타난다.

    어떤 경우에도 적합한 다중 공선성을 제거하는 단일 방법은 없다는 점에 유의하십시오. 다중공선성의 원인과 결과가 모호하고 표본 결과에 크게 좌우되기 때문이다.

    행동 양식:

    모델에서 변수 제외

    예를 들어, 특정 상품에 대한 수요를 연구할 때, 종종 서로 상관관계가 있는 이 상품의 가격과 이 상품의 대체재 가격을 설명 변수로 사용할 수 있습니다. 모델에서 대체재 가격을 제외하면 사양 오류가 발생할 가능성이 높습니다. 결과적으로 편향된 추정치를 얻고 근거 없는 결론을 도출하는 것이 가능합니다. 응용계량 모형에서는 공선성이 심각한 문제가 될 때까지 설명변수를 제외하지 않는 것이 바람직합니다.

    더 많은 데이터 또는 새로운 샘플 얻기

    때로는 표본 크기를 늘리는 것만으로도 충분합니다. 예를 들어 연간 데이터를 사용 중이라면 분기별 데이터로 이동할 수 있습니다. 데이터의 양을 늘리면 회귀계수의 분산이 줄어들어 통계적 유의성이 높아집니다. 그러나 새로운 샘플을 얻거나 기존 샘플을 확장하는 것이 항상 가능한 것은 아니며 심각한 비용이 발생합니다. 또한 이 접근 방식은 자기 상관을 강화할 수 있습니다. 이러한 문제는 사용 능력을 제한합니다. 이 방법.

    모델 사양 변경

    경우에 따라 다중 공선성 문제는 모델의 사양을 변경하여 해결될 수 있습니다. 즉, 모델의 형태를 변경하거나 원래 모델에서는 고려되지 않았지만 종속 변수에 큰 영향을 미치는 설명 변수를 추가하여 해결할 수 있습니다. .

    일부 매개변수에 대한 사전 정보 사용

    때로는 다중 회귀 모델을 구축할 때 일부 예비 정보, 특히 일부 회귀 계수의 알려진 값을 사용할 수 있습니다. 일부 예비(보통 더 간단한) 모델 또는 이전에 얻은 샘플을 기반으로 한 유사한 모델에 대해 얻은 계수 값은 다음에서 개발 중인 모델에 사용될 수 있습니다. 이 순간모델.

    설명하기 위해 다음 예를 제공합니다. 회귀가 구축되었습니다. 변수 X1과 X2가 상관관계가 있다고 가정해 보겠습니다. 이전에 구성된 쌍회귀 모델 Y = γ0 + γ1X1+υ에 대해 통계적으로 유의미한 계수 γ1이 결정되어(확실성을 ​​위해 γ1 = 0.8로 가정) Y를 X1과 연결합니다. Y와 X1 사이의 관계가 변하지 않을 것이라고 생각할 이유가 있다면 γ1 = β1 = 0.8로 설정할 수 있습니다. 그 다음에:

    Y = β0 + 0.8X1 + β2X2 + ε. ⇒ Y – 0.8X1 = β0 + β2X2 + ε.

    이 방정식은 실제로 다중 공선성 문제가 존재하지 않는 쌍별 회귀 방정식입니다.

    이 방법을 사용할 때의 제한 사항은 다음과 같습니다.

      사전 정보를 얻는 것이 어려운 경우가 많습니다.

      할당된 회귀 계수가 동일할 확률 다양한 모델, 높지 않습니다.

    변수 변환

    어떤 경우에는 변수를 변환하여 다중 공선성 문제를 최소화하거나 제거할 수도 있습니다.

    예를 들어, 경험적 회귀 방정식을 Y = b0 + b1X1 + b2X2로 가정합니다.

    여기서 X1과 X2는 상관 변수입니다. 이 상황에서는 상대 값의 회귀 종속성을 확인할 수 있습니다. 유사한 모형에서는 다중공선성 문제가 나타나지 않을 가능성이 높습니다.

    주성분법 다중 회귀 모델에서 변수를 제거하는 주요 방법 중 하나입니다.

    이 방법은 회귀 모형에서 요인 변수의 다중 공선성을 제거하거나 줄이는 데 사용됩니다. 방법의 본질 : 요인 변수의 수를 가장 크게 영향을 미치는 요인으로 줄입니다. . 이는 모든 요인 변수 xi (i=0,...,n)를 주성분이라고 불리는 새로운 변수로 선형 변환함으로써 달성됩니다. 즉, 요인 변수 X의 행렬에서 주성분 F의 행렬로 전이가 이루어집니다. 이 경우, 첫 번째 주성분의 선택은 모든 요인 변수 xi (i=0,...,n)의 전체 분산의 최대값에 해당하고, 두 번째 성분은 다음의 최대값에 해당해야 한다는 요구 사항이 제시됩니다. 첫 번째 주성분의 영향이 제거된 후의 나머지 분산 등

    다중 회귀 모델에 포함된 요인 변수 중 어느 것도 제외할 수 없는 경우 회귀 모델 계수를 추정하기 위한 주요 편향된 방법 중 하나가 사용됩니다. 능선 회귀 또는 능선. 능선회귀법을 사용하는 경우 행렬(XTX)의 모든 대각선 요소에 작은 숫자가 추가됩니다. τ: 10-6 〈 τ 〈 0.1. 다중 회귀 모델의 알 수 없는 매개변수 추정은 다음 공식을 사용하여 수행됩니다.

    여기서 ln은 단위 행렬입니다.

    기본 조항

    모델의 회귀변수가 엄격한 기능적 종속성에 의해 연결되어 있는 경우 완전한 (완벽한) 다중 공선 성. 이 유형예를 들어, 행렬식의 행렬식이 0인 경우 최소 제곱법으로 해결되는 선형 회귀 문제에서 다중 공선성이 발생할 수 있습니다. 완전한 다중 공선성은 원래 모델의 매개변수를 명확하게 추정하고 관측 결과를 기반으로 출력 변수에 대한 회귀 변수의 기여도를 분리하는 것을 허용하지 않습니다.

    실제 데이터 문제에서 완전한 다중공선성이 나타나는 경우는 극히 드뭅니다. 대신, 애플리케이션 도메인에서 우리는 종종 다음을 처리해야 합니다. 부분 다중공선성이는 회귀 변수 간의 쌍별 상관 계수가 특징입니다. 부분 다중 공선성의 경우 행렬은 전체 순위를 갖지만 행렬식은 0에 가깝습니다. 이 경우 모델 매개변수와 정확도 지표에 대한 추정치를 공식적으로 얻을 수는 있지만 모두 불안정합니다.

    부분 다중 공선성의 결과는 다음과 같습니다.

    • 모수 추정치의 분산 증가
    • 매개변수에 대한 t-통계 값의 감소로 인해 통계적 유의성에 대한 잘못된 결론이 도출됩니다.
    • 모델 매개변수와 그 분산에 대한 불안정한 추정값 얻기
    • 매개변수 추정의 이론적 관점에서 잘못된 부호를 얻을 가능성

    부분 다중공선성을 탐지하기 위한 정확한 정량적 기준은 없습니다. 다음은 그 존재의 징후로 가장 자주 사용됩니다.

    다중 공선성을 제거하는 방법

    이 문제를 해결하는 데는 두 가지 주요 접근 방식이 있습니다.

    요인 선택 방법에 관계없이 요인 수를 줄이면 행렬의 조건성이 향상되고 결과적으로 모델 매개변수 추정 품질이 향상됩니다.

    나열된 방법 외에도 상당히 좋은 결과를 제공하는 또 다른 간단한 방법이 있습니다. 프리센터링 방식. 이 방법의 본질은 매개 변수를 찾기 전에 수학적 모델소스 데이터는 중앙에 위치합니다. 즉, 계열의 평균을 데이터 계열의 각 값에서 뺍니다. 이 절차를 통해 LSM 조건의 초평면을 분리하여 이들 사이의 각도가 수직이 되도록 할 수 있습니다. 결과적으로 모형 추정치는 안정적이게 됩니다(다중공선성 조건 하의 다중요인모형 구축).

    러시아 연방 교육과학청

    코스트로마 주립 기술 대학교.

    고등수학과

    주제에 관한 계량 경제학 :

    다중공선성

    수행됨

    1학년 학생

    통신 학부

    수면 "회계"

    분석하고 감사합니다."

    나는 확인했다

    카테지나 S.F.

    코스트로마 2008


    다중공선성

    다중공선성은 설명변수의 상호상관이 높다는 것을 의미합니다. 다중공선성은 기능적(명시적) 형태와 확률론적(숨겨진) 형태로 나타날 수 있습니다.

    다음과 같은 기능적 형태의 다중공선성 적어도설명 변수 간의 쌍별 관계 중 하나는 선형 함수 관계입니다. 이 경우 행렬 X`X는 선형 종속 열 벡터를 포함하고 행렬식이 0이므로 특별합니다. 회귀 분석의 전제가 위반되면 해당 정규 방정식 시스템을 풀고 회귀 모델의 매개 변수 추정치를 얻을 수 없게 됩니다.

    그러나 경제 연구에서 다중 공선성은 적어도 두 가지 설명 변수 사이에 밀접한 상관 관계가 있을 때 확률론적 형태로 더 자주 나타납니다. 이 경우 행렬 X`X는 비단수형이지만 행렬식은 매우 작습니다.

    동시에 추정값 b의 벡터와 해당 공분산 행렬 ∑b는 비례합니다. 역행렬(X`X) -1 , 이는 해당 요소가 행렬식 |X`X|의 값에 반비례함을 의미합니다. 결과적으로 회귀 계수 b 0 , b 1 , ..., b p 의 중요한 표준 편차(표준 오류)가 얻어지고 t-검정을 사용하여 그 중요성을 평가하는 것은 의미가 없습니다. 그러나 일반적으로 회귀 모델은 다음과 같이 바뀔 수 있습니다. F-검정을 사용하여 유의미한 것으로 나타났습니다.

    추정치는 관측치와 표본 크기의 작은 변화에 매우 민감해집니다. 이 경우 회귀 방정식은 원칙적으로 실제 의미가 없습니다. 왜냐하면 일부 계수는 경제 이론의 관점에서 잘못된 부호와 불합리하게 큰 값을 가질 수 있기 때문입니다.

    다중공선성의 유무를 판단하기 위한 정확한 정량적 기준은 없습니다. 그러나 이를 식별하기 위한 몇 가지 경험적 접근 방식이 있습니다.

    그러한 접근법 중 하나는 설명 변수 X 1 , X 2 , ..., X p 사이의 상관 행렬을 분석하고 높은 변수 상관 관계(보통 0.8보다 큼)를 갖는 변수 쌍을 식별하는 것입니다. 이러한 변수가 존재하면 다중공선성을 갖는다고 합니다. 설명 변수 중 하나와 일부 그룹 사이에서 여러 결정 계수를 찾는 것도 유용합니다. 다중 결정 계수가 높으면(보통 0.6보다 큼) 다중 공선성이 있음을 나타냅니다.

    또 다른 접근법은 행렬 X`X를 조사하는 것입니다. 행렬 X`X의 행렬식 또는 최소 고유값 λ min이 0에 가까우면(예를 들어 계산 오류가 누적되는 동일한 차수의 경우) 이는 다중 공선성이 있음을 나타냅니다. 이는 최소 고유값 λmin으로부터 행렬 X`X의 최대 고유값 λmax의 상당한 편차로 표시될 수 있습니다.

    다중공선성을 제거하거나 줄이기 위해 다양한 방법이 사용됩니다. 그 중 가장 간단한(그러나 항상 가능한 것은 아님) 상관 계수가 높은(0.8 이상) 두 설명 변수 중에서 하나의 변수를 고려 대상에서 제외하는 것입니다. 동시에 분석에서 어떤 변수를 남겨두고 어떤 변수를 제거할지는 주로 경제적 고려 사항에 따라 결정됩니다. 경제적 관점에서 어떤 변수도 선호할 수 없으면 두 변수 중 종속변수와 상관계수가 더 높은 변수가 유지됩니다.

    다중 공선성을 제거하거나 줄이는 또 다른 방법은 최소 제곱법에 의해 결정된 편향되지 않은 추정치에서 편향된 추정치로 이동하는 것입니다. 그러나 이는 추정된 매개변수에 비해 분산이 적습니다. 매개변수 βj 또는 M(bj - βj) 2에서 추정치 bj의 제곱 편차에 대한 더 작은 수학적 기대값입니다.

    벡터에 의해 결정된 추정치는 Gauss-Markov 정리에 따라 모든 선형 편견 추정기 클래스의 최소 분산을 갖지만 다중 공선성이 있는 경우 이러한 분산은 너무 클 수 있으며 해당 편향 추정기로 전환하면 회귀 매개변수 추정의 정확성을 향상시킵니다. 그림은 편향된 추정값 β j ^인 경우를 보여주며, 그 샘플링 분포는 밀도 ψ(β j ^)에 의해 제공됩니다.

    실제로, 추정된 매개변수 β j에 대한 최대 허용 신뢰 구간을 (β j -Δ, β j +Δ)로 가정합니다. 그러면 그림에서 쉽게 알 수 있듯이 구간(β j -Δ, β j +Δ)의 분포 곡선 아래 면적에 의해 결정되는 신뢰 확률 또는 추정의 신뢰도가 이 경우 더 커집니다. bj와 비교한 추정치 βj에 대해(그림에서 이 영역은 음영 처리됨) 따라서 추정된 매개변수로부터 추정값의 평균 제곱 편차는 편향된 추정값에 대해 더 작습니다. 즉, 다음과 같습니다.

    M(βj^ - βj) 2< M (b j - β j) 2

    "능선 회귀"(또는 "능선 회귀")를 사용하는 경우 편향되지 않은 추정 대신 벡터로 지정된 편향된 추정을 고려합니다.

    β τ ^ =(X`X+τ E p +1) -1 X`Y,

    어디 τ – "ridge" 또는 "ridge"라고 불리는 양수

    E p +1 – –차 단위 행렬(p+1).

    덧셈 τ 행렬 X`X의 대각 요소에 대해 모델 매개변수의 추정값이 이동되지만 동시에 정규 방정식 시스템의 행렬식은 증가합니다. 대신 (X`X)는 다음과 같습니다.

    |X`X+τ E p +1 |

    따라서 행렬식이 |X`X|인 경우 다중공선성을 배제하는 것이 가능해집니다. 0에 가깝습니다.

    다중 공선성을 제거하기 위해 상당히 가까운 상관 관계로 상호 연결된 원래 설명 변수 X 1 , X 2 ,…, Xn 에서 원래 설명 변수의 선형 조합을 나타내는 새 변수로의 전환을 사용할 수 있습니다. 이 경우 새 변수는 상관 관계가 약하거나 상관 관계가 완전히 없어야 합니다. 그러한 변수로서, 우리는 예를 들어 성분 분석에서 연구된 초기 설명 변수 벡터의 주성분을 취하고, 주성분에 대한 회귀를 고려합니다. 여기서 후자는 추가 설명에 따라 일반화된 설명 변수로 작용합니다. 의미 있는(경제적인) 해석.

    주성분의 직교성은 다중 공선성 효과를 방지합니다. 또한 사용된 방법을 사용하면 상대적으로 많은 수의 초기 설명 변수를 사용하여 소수의 주성분으로 제한할 수 있습니다.

    다중공선성 -설명 변수 간의 느슨한 선형 관계로 인해 신뢰할 수 없는 회귀 추정이 발생하는 문제를 설명하는 데 사용되는 개념입니다. 물론, 그러한 의존성이 반드시 불만족스러운 평가로 이어지는 것은 아닙니다. 다른 모든 조건이 양호하다면, 즉 설명 변수의 관측치 수와 표본 분산이 크고 랜덤 항의 분산이 작다면 결국 꽤 좋은 추정치를 얻을 수 있습니다.

    따라서 다중 공선성은 약한 관계와 하나 이상의 불리한 조건의 조합으로 인해 발생해야 하며 이것이 문제입니다.

    현상의 유형이 아닌 현상의 발현 정도. 모든 독립 변수가 완전히 상관관계가 없는 것으로 판명되지 않는 한 회귀 분석의 추정은 어느 정도 어려움을 겪게 됩니다. 이 문제에 대한 고찰은 회귀추정 결과에 심각한 영향을 미치는 경우에만 시작된다.

    이 문제는 시계열 회귀 분석, 즉 데이터가 일정 기간 동안의 여러 관측값으로 구성된 경우에 흔히 발생합니다. 두 개 이상의 독립 변수가 강한 시간 추세를 갖는 경우 상관 관계가 높으며 이로 인해 다중 공선성이 발생할 수 있습니다.


    이 경우 무엇을 할 수 있습니까?

    다중 공선성을 완화하는 데 사용할 수 있는 다양한 기술은 두 가지 범주로 나뉩니다. 첫 번째 범주는 회귀 추정의 신뢰성에 대한 네 가지 조건이 충족되는 정도를 향상시키려는 시도와 관련됩니다. 두 번째 범주에는 사용이 포함됩니다. 외부 정보. 직접 얻은 가능한 데이터를 먼저 사용한다면 관찰 횟수를 늘리는 것이 분명히 유용할 것입니다.

    시계열 데이터를 사용하는 경우 각 기간의 기간을 단축하여 이를 수행할 수 있습니다. 예를 들어, 연습문제 5.3과 5.6에서 수요함수 방정식을 추정할 때 연간 데이터 사용에서 분기별 데이터 사용으로 전환할 수 있습니다.

    이후에는 25개의 관측치가 아닌 100개의 관측치가 있게 됩니다. 이는 매우 명백하고 쉬운 일이므로 시계열을 사용하는 대부분의 연구자는 다중 공선성이 문제가 되지 않더라도 연간 데이터 대신 가능한 경우 거의 자동으로 분기별 데이터를 사용합니다. 단지 논쟁을 위해서 회귀 계수의 최소 이론적 분산입니다. 그러나 이 접근 방식에는 잠재적인 문제가 있습니다. 자기상관은 도입되거나 향상될 수 있지만 무력화될 수 있습니다. 또한, 분기별 데이터를 해당 연간 데이터보다 정확도가 낮은 측정으로 측정하는 경우 측정 오류로 인한 편향이 도입(또는 증폭)될 수 있습니다. 이 문제는 해결하기 쉽지는 않지만 심각하지 않을 수도 있습니다.

    다중 공선성은 회귀 방정식에서 두 개 이상의 설명 변수의 상관 관계입니다. 이는 기능적(명시적)일 수도 있고 확률적(숨겨진)일 수도 있습니다. 기능적 다중공선성의 경우 XTX 행렬은 퇴화된 행렬이고 (XTX)-1이 존재하지 않으므로 판별이 불가능합니다. 다중 공선성은 확률론적 형태로 나타나는 경우가 더 많지만 OLS 추정치는 공식적으로 존재하지만 다음과 같은 여러 가지 단점이 있습니다.

    • 1) 초기 데이터의 작은 변화로 인해 회귀 추정치가 크게 변경됩니다.
    • 2) 추정치는 표준 오차가 크고 유의성이 낮은 반면 모델 전체는 유의미합니다(높은 R2 값).
    • 3) 계수의 간격 추정이 확장되어 정확도가 악화됩니다.
    • 4) 회귀계수에 대한 잘못된 부호를 얻는 것이 가능합니다.

    발각

    다중공선성의 존재를 확인할 수 있는 몇 가지 징후가 있습니다.

    먼저, 쌍별 상관 계수의 상관 행렬 분석:

    • - 상관 계수가 높은(> 0.75 - 0.8) 변수 쌍이 있는 경우 변수 간의 다중 공선성을 나타냅니다.
    • - 요인들이 상관관계가 없으면 det Q = 1이고, 완전한 상관관계가 있으면 det Q = 0입니다.

    H0를 확인할 수 있습니다: det Q = 1; 통계 테스트를 사용하여

    여기서 n은 관측치 수, m = p+1입니다.

    그렇다면 H0는 기각되고 다중공선성이 입증됩니다.

    둘째, 설명 변수 중 하나와 다른 일부 그룹의 여러 결정 계수가 결정됩니다. 높은 R2(> 0.6)가 있으면 다중 공선성을 나타냅니다.

    세 번째로, XTX 행렬의 최소 고유값이 0에 근접한다는 것(즉, 방정식의 해)은 det(XTX)도 0에 가깝고 따라서 다중 공선성을 나타냅니다.

    넷째, 부분상관계수가 높다.

    샘플 상관 계수 행렬 요소의 대수적 추가는 어디에 있습니까? 고차 부분 상관 계수는 순환식을 사용하여 저차 부분 상관 계수를 통해 결정될 수 있습니다.

    다섯째, 어떤 사람들은 다중공선성의 존재에 대해 이야기합니다. 외부 표지판구축된 모델은 그 결과입니다. 여기에는 다음이 포함되어야 합니다.

    • · 일부 추정치에는 경제이론상 부정확한 부호가 있거나 절대값이 터무니없이 크다.
    • · 초기 통계 데이터의 작은 변화(일부 관찰 추가 또는 제거)는 모델 계수의 추정치에 상당한 변화를 가져오고 심지어 그 부호도 변경합니다.
    • · 회귀 계수의 대부분 또는 모든 추정치는 t-검정에 따라 통계적으로 유의하지 않은 것으로 판명되는 반면, F-검정에 따르면 모델 전체는 유의미합니다.

    다중공선성을 결정하는 다른 방법도 많이 있습니다.

    모델의 주요 작업이 종속 변수의 미래 값을 예측하는 것이라면 결정 계수 R2(> 0.9)가 충분히 크면 다중 공선성의 존재는 일반적으로 모델의 예측 품질에 영향을 미치지 않습니다. 이 진술은 상관 변수 간의 동일한 관계가 미래에도 유지된다면 정당화될 것입니다.

    연구의 목적이 각 설명 변수가 종속 변수에 미치는 영향 정도를 결정하는 것이라면 다중 공선성이 존재하여 증가합니다. 표준 오류, 아마도 변수 간의 실제 관계를 왜곡할 것입니다. 이런 상황에서는 다중공선성이 심각한 문제가 된다.