통계 데이터 처리. 통계 데이터 처리 통계 데이터 처리 정의

  • 슬라이드 2

    • 통계는 대중의 행동, 현상 및 과정을 설명하는 데이터를 수집, 분석 및 처리하는 방법을 연구하는 정확한 과학입니다.
    • 수학적 통계는 기존 패턴을 식별하기 위해 무작위 질량 현상의 관찰 결과를 수집, 체계화 및 처리하는 방법을 연구하는 수학의 한 분야입니다.
  • 슬라이드 3

    통계 연구

    • 국가 및 해당 지역의 개별 인구 그룹 수,
    • 다양한 종류의 제품을 생산하고 소비하며,
    • 다양한 운송 수단을 통한 물품 및 승객 운송,
    • 천연 자원 등.
    • 통계 연구의 결과는 실용적이고 과학적인 결론을 내리기 위해 널리 사용됩니다.
    • 현재 통계는 이미 에서 연구되기 시작했습니다. 고등학교, 대학에서는 많은 과학 및 분야와 관련되어 있기 때문에 필수 과목입니다.
    • 매장의 판매량을 늘리고, 학교에서 지식의 질을 향상시키고, 국가를 경제 성장 방향으로 나아가기 위해서는 통계 연구를 수행하고 적절한 결론을 도출하는 것이 필요합니다. 그리고 모든 사람이 이것을 할 수 있어야 합니다.
  • 슬라이드 4

    통계 요소를 연구하는 주요 목표

    • 통계 데이터의 1차 처리 기술 형성
    • 다양한 형식(표, 다이어그램, 실제 종속성 그래프 형식)으로 제시된 정량적 정보의 이미지 및 분석
    • 중요한 통계 아이디어, 즉 추정 아이디어 및 통계 가설 테스트 아이디어에 대한 아이디어 개발
    • 특정 실험 결과와 함께 발생하는 무작위 사건의 확률을 비교하는 능력을 개발합니다.
  • 슬라이드 5

    • 데이터 시리즈
    • 데이터 시리즈 볼륨
    • 데이터 시리즈의 범위
    • 데이터 시리즈 모드
    • 시리즈의 중앙값
    • 평균
    • 정렬된 데이터 시리즈
    • 데이터 배포 테이블
    • 요약하자면
    • 명목 데이터 시리즈
    • 결과 빈도
    • 빈도 백분율
    • 데이터 그룹화
    • 데이터 처리 방법
    • 요약하자면
  • 슬라이드 6

    정의

    • 데이터 계열은 일부 측정에 대한 일련의 결과입니다.
    • 예:1) 사람의 키 측정
    • 2) 사람(동물)의 체중 측정
    • 3) 미터 판독값(전기, 물, 열...)
    • 4) 100m 달리기 결과
    • 등.
  • 슬라이드 7

    • 데이터 시리즈의 양은 모든 데이터의 양입니다.
    • 예를 들어, 일련의 숫자 1이 주어지면; 삼; 6; -4; 0
    • 그 부피는 5와 같습니다. 왜죠?
  • 슬라이드 8

    작업을 완료하세요

    • 이 시리즈의 볼륨을 결정합니다.
    • 답: 10
  • 슬라이드 9

    정의

    • 범위는 데이터 시리즈에서 가장 큰 숫자와 가장 작은 숫자의 차이입니다.
    • 예를 들어, 일련의 숫자 1이 주어지면; 삼; 6; -4; 0; 2이면 이 데이터 계열의 범위는 6과 같습니다(6 – 0 = 6이므로).
  • 슬라이드 10

    작업을 완료하세요

    • 연구소에서 우리는 고등 수학 시험을 보았습니다. 그룹에는 10명이 있었고 그들은 3, 5, 5, 4, 4, 4, 3, 2, 4, 5의 해당 등급을 받았습니다.
    • 이 시리즈의 범위를 결정하십시오.
    • 답: 3
  • 슬라이드 11

    정의

    • 데이터 계열의 최빈값은 해당 계열에서 가장 자주 나타나는 계열의 번호입니다.
    • 데이터 계열에는 모드가 있을 수도 있고 없을 수도 있습니다.
    • 따라서 데이터 시리즈 47, 46, 50, 52, 47, 52, 49, 45, 43, 53에서 숫자 47과 52는 각각 두 번 발생하고 나머지 숫자는 두 번 미만입니다. 이러한 경우 시리즈에는 47과 52의 두 가지 모드가 있다는 데 동의했습니다.
  • 슬라이드 12

    작업을 완료하세요

    • 그래서 데이터 계열에서는
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 47, 52라는 숫자는 각각 두 번 등장하고, 나머지 숫자는 두 번 미만이다. 이러한 경우 시리즈에는 47과 52의 두 가지 모드가 있다는 데 동의했습니다.
    • 연구소에서 우리는 고등 수학 시험을 보았습니다. 그룹에는 10명이 있었고 그들은 적절한 평가를 받았습니다.
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • 이 시리즈의 모드를 결정합니다.
    • 답: 4
  • 슬라이드 13

    정의

    • 홀수 개의 용어가 있는 중앙값은 가운데에 쓰여진 숫자입니다.
    • 짝수 항의 중앙값은 중앙에 적힌 두 숫자의 산술 평균입니다.
    • 예: 일련의 숫자의 중앙값 결정
    • 16; -4; 5; -2; -삼; 삼; 삼; -2; 3. 답: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. 답: 0
  • 슬라이드 14

    작업을 완료하세요

    • 연구소에서 우리는 고등 수학 시험을 보았습니다. 그룹에는 10명이 있었고 그들은 3, 5, 5, 4, 4, 4, 3, 2, 4, 5의 해당 등급을 받았습니다.
    • 이 계열의 중앙값을 결정합니다.
    • 답: 4
  • 슬라이드 15

    정의

    • 산술 평균은 계열에 있는 숫자의 합을 해당 숫자로 나눈 몫입니다.
    • 예를 들어, 일련의 숫자 -1이 주어지면; 0; 2; 1; -1; 0; 2; -1. 그러면 산술 평균은 다음과 같습니다: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0.25
  • 슬라이드 16

    작업을 완료하세요

    • 연구소에서 우리는 고등 수학 시험을 보았습니다. 그룹에는 10명이 있었고 그들은 3, 5, 5, 4, 4, 4, 3, 2, 4, 5의 해당 등급을 받았습니다.
    • 이 계열의 산술 평균을 결정합니다.
    • 답: 3.9
  • 슬라이드 17

    실무

    • 과제: Ivanov 학생의 4분기 수학 성적을 특성화합니다.
    • 작업 완료:
    • 1.정보의 수집:
    • 잡지에 적힌 성적은 5,4,5,3,3,5,4,4,4입니다.
    • 2. 수신된 데이터 처리:
    • 볼륨 = 9
    • 범위 = 5 - 3 = 2
    • 패션 = 4
    • 중앙값 = 3
    • 산술 평균 =(5+4+5+3+3+5+4+4+4) : 9 ≒ 4
    • 학업 성적의 특징: 학생이 항상 수업 준비가 되어 있는 것은 아닙니다.
    • 대부분 그는 "4"등급으로 공부합니다. 1/4이 "4"로 나옵니다.
  • 슬라이드 18

    스스로

    • 우리는 계열의 양, 계열의 범위, 최빈값, 중앙값 및 산술 평균을 찾아야 합니다.
    • 카드 1. 22.5; 23; 21.5; 22; 23.
    • 카드 2. 6; -4; 5; -2; -삼; 삼; 삼; -2; 삼.
    • 카드 3. 12.5; 12; 12; 12.5; 13; 12.5; 13.
    • 카드 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • 카드 5. 125; 130; 124; 131.
    • 카드 6. 120; 100; 110.
  • 슬라이드 19

    점검 해보자

    • 카드 1.
    • 행 볼륨 = 5
    • 행 범위 = 10
    • 패션 = 23
    • 중앙값 = 21.5
    • 산술 평균 = 13.3
    • 카드 3.
    • 행 볼륨 = 7
    • 계열의 범위 = 1
    • 모드 = 12.5
    • 중앙값 = 12.5
    • 산술 평균 = 12.5
    • 카드 2.
    • 행 볼륨 = 9
    • 행 범위 = 10
    • 패션 = 3
    • 중앙값 = -3
    • 산술 평균 = 1
    • 카드 4.
    • 행 볼륨 = 8
    • 행 범위 = 3
    • 모드 = -1
    • 중앙값 = 0
    • 산술 평균 = 0.25
  • 슬라이드 20

    • 카드 5.
    • 행 볼륨 = 4
    • 행 범위 = 7
    • 패션 = 아니
    • 중앙값 = 127
    • 산술 평균 =127.5
    • 카드 6.
    • 행 볼륨 = 3
    • 범위 범위 = 20
    • 패션 = 아니
    • 중앙값 = 100
    • 산술 평균 = 110
  • 슬라이드 21

    정의

    • 정렬된 데이터 시리즈는 데이터가 어떤 규칙에 따라 배열된 시리즈입니다.
    • 일련의 숫자를 정렬하는 방법은 무엇입니까? (각 후속 숫자가 이전 숫자보다 작지 않도록 숫자를 쓰십시오.) 아니면 "알파벳순으로" 이름을 적어보세요...
  • 슬라이드 22

    작업을 완료하세요

    • 일련의 숫자가 주어지면:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • 오름차순으로 정렬하세요.
    • 해결책:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • 결과는 순서가 지정된 시리즈입니다. 데이터 자체는 변경되지 않았으며 표시되는 순서만 변경되었습니다.
  • 슬라이드 23

    정의

    • 데이터 분포표는 같은 숫자를 반복하는 것이 아니라 반복 횟수를 기록하는 순서화된 계열의 테이블이다.
    • 반대로, 분포 테이블을 알고 있으면 순서가 지정된 일련의 데이터를 컴파일할 수 있습니다.
    • 예를 들어:
    • 그것으로부터 우리는 다음과 같은 순서의 시리즈를 얻습니다.
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • 슬라이드 24

    작업을 완료하세요

    • 한 여성 신발 매장에서 통계 조사를 수행하고 신발 가격과 판매량에 대한 해당 표를 작성했습니다.
    • 가격 (RUB): 500 1200 1500 1800 2000 2500
    • 수량: 8 9 14 15 3 1
    • 이러한 지표의 경우 통계적 특성을 찾아야 합니다.
    • 순서가 지정된 일련의 데이터 생성
    • 데이터 계열의 양
    • 시리즈 범위
    • 패션 시리즈
    • 시리즈의 중앙값
    • 데이터 계열의 산술 평균
  • 슬라이드 25

    그리고 다음 질문에 답해보세요.

    • 이러한 가격 범주 중에서 매장에서 신발을 판매하지 말아야 할 가격은 얼마입니까?
    • 신발, 어떤 가격에 유통해야 할까?
    • 어떤 가격을 목표로 해야 할까요?
  • 슬라이드 26

    요약하자면

    • 우리는 통계 데이터 처리가 어떻게 이루어지는지에 대한 초기 개념을 알게 되었습니다.
    • 데이터는 항상 측정의 결과입니다.
    • 다음과 같은 일부 데이터를 찾을 수 있습니다.
    • 볼륨, 범위, 모드, 중앙값 및
    • 평균
    • 3) 모든 데이터 계열이 가능합니다.
    • 정리하고 작곡하다
    • 데이터 배포 테이블
  • 슬라이드 27

    정의

    • 명목상의 데이터 계열은 숫자 데이터가 아니지만 예를 들어 이름입니다. 제목; 후보...
    • 예: 1930년 이후 월드컵 결승 진출자 목록: 아르헨티나, 체코슬로바키아, 헝가리, 브라질, 헝가리, 스웨덴, 체코슬로바키아, 독일, 이탈리아, 네덜란드, 네덜란드, 독일, 독일,
    • 아르헨티나, 이탈리아, 브라질, 독일, 프랑스
  • 슬라이드 28

    작업을 완료하세요

    • 이전 예에서 찾으십시오.
    • 행의 부피 2) 행의 모드
    • 3) 배포 테이블 생성
    • 해결책: 볼륨 = 18; 패션 – 독일 팀.
  • 실험실 작업 번호 3. MatLab 시스템의 통계 데이터 처리

    문제에 대한 일반적인 설명

    실행의 주요 목적 실험실 작업 MatLAB 환경에서 통계 데이터 처리 작업의 기본 사항을 익히는 것입니다.

    이론적인 부분

    1차 통계자료 처리

    통계적 데이터 처리는 1차 및 2차 정량적 방법을 기반으로 합니다. 통계 데이터의 기본 처리 목적은 얻은 정보를 구조화하는 것입니다. 여기에는 다양한 매개변수에 따라 데이터를 요약 테이블로 그룹화하는 작업이 포함됩니다. 1차 데이터는 결과 데이터 세트를 대략적으로 평가하고 데이터의 균질성 또는 압축성과 같은 결과 데이터 샘플의 데이터 분포에 대한 정보를 식별할 수 있는 형식으로 제시되어야 합니다. 1차 데이터 분석 후에는 기존 데이터 세트의 통계 패턴이 결정되는 기반으로 2차 통계 데이터 처리 방법이 적용됩니다.

    데이터 배열에 대한 기본 통계 분석을 수행하면 다음에 대한 지식을 얻을 수 있습니다.

    샘플에 가장 일반적인 값은 무엇입니까? 이 질문에 대답하기 위해 중심 경향의 측정값이 정의됩니다.

    이 특성 값에 비해 데이터의 확산은 얼마나 큽니까? 즉, 데이터의 "퍼지성"은 무엇입니까? 이 경우 변동성 측정이 결정됩니다.

    중심 경향과 변동성의 통계 지표는 정량적 데이터에 의해서만 결정된다는 사실은 주목할 가치가 있습니다.

    중심 경향 측정– 나머지 데이터가 그룹화되는 값 그룹 따라서 중심 경향 측정은 데이터 배열을 일반화하여 전체 표본에 대한 결론을 도출하고 수행할 수 있습니다. 비교 분석서로 다른 샘플.

    데이터 샘플이 있다고 가정하면 중심 경향 측정은 다음 지표로 평가됩니다.

    1. 표본 평균모든 샘플 값의 합을 숫자로 나눈 결과이며 공식 (3.1)에 의해 결정됩니다.

    (3.1)

    어디 - 선택 항목의 번째 요소입니다.

    N– 샘플 요소의 수.

    표본 평균은 중심 경향을 추정하는 과정에서 가장 큰 정확도를 제공합니다.

    20명의 표본이 있다고 가정해 보겠습니다. 표본 요소는 각 개인의 월평균 소득에 대한 정보입니다. 19명의 월평균 소득이 2만 루블이라고 가정해 보겠습니다. 소득이 300 tr인 사람 1명. 전체 샘플의 총 월 소득은 680 루블입니다. 이 경우 표본 평균은 S=34입니다.


    2. 중앙값– 서로 다른 값의 개수가 동일한 위와 아래의 값을 형성합니다. 즉, 이는 순차적인 데이터 계열의 중심 값입니다. 공식 (3.2) 또는 (3.3)을 사용하여 표본의 짝수/홀수 요소 수에 따라 결정됩니다. 데이터 표본의 중앙값을 추정하는 알고리즘:

    우선, 데이터는 내림차순/오름차순으로 순위가 매겨집니다.

    정렬된 표본에 홀수 개의 요소가 있는 경우 중앙값은 중앙값과 일치합니다.

    (3.2)

    어디 N

    요소 수가 짝수인 경우 중앙값은 두 중심 값의 산술 평균으로 정의됩니다.

    (3.3)

    주문된 샘플의 평균 요소는 어디에 있습니까?

    - 옆에 정렬된 선택 요소;

    샘플 요소의 수.

    모든 표본 요소가 다른 경우 표본 요소의 정확히 절반은 중앙값보다 크고 나머지 절반은 더 작습니다. 예를 들어 표본(1, 5, 9, 15, 16)의 경우 중앙값은 요소 9와 같습니다.

    통계 데이터 분석에서 중앙값은 표본 평균 값에 큰 영향을 미치는 표본 요소를 식별하는 데 도움이 됩니다.

    20명의 표본이 있다고 가정해 보겠습니다. 표본 요소는 각 개인의 월평균 소득에 대한 정보입니다. 19명의 월평균 소득이 2만 루블이라고 가정해 보겠습니다. 소득이 300 tr인 사람 1명. 전체 샘플의 총 월 소득은 680 루블입니다. 표본을 정렬한 후 중앙값은 표본의 10번째 및 11번째 요소의 산술 평균으로 정의되며 Me = 20 tr과 같습니다. 이 결과다음과 같이 해석됩니다. 중앙값은 표본을 두 그룹으로 나누어 첫 번째 그룹에서는 각 사람의 월 평균 소득이 20,000루블 이하이고 두 번째 그룹에서는 20,000루블 이상이라는 결론을 내릴 수 있습니다. . 안에 이 예에서는중앙값은 "평균" 사람이 버는 금액에 따라 결정된다고 말할 수 있습니다. 표본 평균의 값은 S=34를 상당히 초과하는데, 이는 평균 소득을 평가할 때 이러한 특성이 수용될 수 없음을 나타냅니다.

    따라서 중앙값과 표본 평균의 차이가 클수록 표본 데이터의 분산이 커집니다(고려된 예에서 소득이 300루블인 사람은 특정 표본의 평균 사람들과 분명히 다르며 상당한 평균 소득 추정에 영향을 미칩니다). 이러한 요소를 어떻게 처리할지는 개별 사례에 따라 결정됩니다. 그러나 일반적인 경우에는 통계 지표 평가에 큰 영향을 미치기 때문에 표본의 신뢰성을 보장하기 위해 제거됩니다.

    3. 패션(모)– 샘플에서 가장 자주 발생하는 값, 즉 가장 높은 빈도를 갖는 값을 생성합니다. 모드 추정 알고리즘:

    표본에 동일하게 자주 발생하는 요소가 포함되어 있는 경우 해당 표본에는 모드가 없다고 합니다.

    두 개라면 인접 요소샘플의 주파수가 샘플의 나머지 요소의 주파수보다 큰 동일한 주파수를 갖는 경우 모드는 이 두 값의 평균으로 정의됩니다.

    두 개의 샘플 요소가 나머지 샘플 요소의 주파수보다 큰 동일한 주파수를 갖고 이러한 요소가 인접하지 않은 경우 샘플에 두 가지 모드가 있다고 합니다.

    통계 분석 모드는 중심 경향 측정에 대한 빠른 평가가 필요하고 높은 정확도가 필요하지 않은 상황에서 사용됩니다. 예를 들어, 패션(사이즈 또는 브랜드별)은 고객 사이에서 가장 수요가 많은 옷과 신발을 결정하는 데 편리하게 사용될 수 있습니다.

    분산 측정(가변성)– 개별 샘플 값 간의 차이를 특성화하는 통계 지표 그룹입니다. 분산 측정 지표를 기반으로 샘플 요소의 균질성 및 소형화 정도를 평가할 수 있습니다. 분산 측정은 다음 지표 세트로 특징 지어집니다.

    1. 범위 -이는 관찰 결과(샘플 요소)의 최대값과 최소값 사이의 간격입니다. 범위 표시기는 데이터 세트에서 값의 분포를 나타냅니다. 범위가 크면 집계에 포함된 값이 매우 분산되어 있는 것이고, 그렇지 않으면(범위가 작으면) 집계에 포함된 값이 서로 가깝게 놓여 있다고 합니다. 범위는 공식 (3.4)에 의해 결정됩니다.

    (3.4)

    어디 - 최대 샘플 요소;

    - 최소 샘플 요소.

    2.평균 편차– 표본의 각 값과 표본 평균 사이의 산술 평균 차이(절대값)입니다. 평균 편차는 공식 (3.5)에 의해 결정됩니다.

    (3.5)

    어디 - 선택 항목의 번째 요소입니다.

    공식(3.1)을 사용하여 계산된 샘플 평균값입니다.

    샘플 요소의 수.

    기준 치수 각 특정 요소의 평균 편차가 긍정적일 수도 있고 부정적일 수도 있기 때문에 필요합니다. 결과적으로, 모듈을 선택하지 않으면 모든 편차의 합은 0에 가까워지고 데이터 변동성(표본 평균 주변의 데이터 밀집) 정도를 판단하는 것이 불가능해집니다. 통계분석을 수행할 때 표본평균 대신 최빈값과 중앙값을 취할 수도 있다.

    3. 분산- 데이터 값과 평균값 사이의 비교 편차를 설명하는 분산 척도입니다. 이는 평균값에서 각 샘플 요소의 편차 제곱의 합으로 계산됩니다. 표본 크기에 따라 분산이 추정됩니다. 다른 방법들:

    공식 (3.6)에 따른 대규모 샘플(n>30)의 경우

    (3.6)

    작은 샘플의 경우(n<30) по формуле (3.7)

    (3.7)

    여기서 X i는 i번째 샘플 요소입니다.

    S – 표본 평균;

    샘플 요소 수;

    (X i – S) - 데이터 세트의 각 값에 대한 평균값과의 편차입니다.

    4. 표준 편차- 평균에 비해 데이터 포인트가 얼마나 광범위하게 분산되어 있는지를 측정합니다.

    분산을 계산할 때 개별 편차를 제곱하는 과정은 결과 편차가 원래 편차에서 벗어나는 정도를 증가시키며, 이로 인해 추가 오류가 발생합니다. 따라서 평균에 대한 데이터 포인트의 분포 추정치를 평균 편차 값에 더 가깝게 만들기 위해 분산의 제곱근이 사용됩니다. 추출된 분산근은 평균 제곱근 또는 표준편차(3.8)라고 하는 변동성 측정값의 특성을 나타냅니다.

    (3.8)

    당신이 소프트웨어 개발 프로젝트의 관리자라고 가정해 보겠습니다. 당신의 지휘하에 5명의 프로그래머가 있습니다. 프로젝트 실행 프로세스를 관리함으로써 프로그래머들 사이에 작업을 분배할 수 있습니다. 예제를 단순화하기 위해 작업의 복잡성과 완료 시간이 동일하다는 사실부터 진행하겠습니다. 지난 10주 동안 각 프로그래머의 작업(한 주 동안 완료된 작업 수)을 분석하기로 결정했으며 그 결과 다음 샘플을 받았습니다.

    주 이름

    완료된 작업의 평균 수를 추정하면 다음과 같은 결과를 얻을 수 있습니다.

    주 이름 에스
    22,3
    22,4
    22,2
    22,1
    22,5

    S 지표에 따르면 모든 프로그래머는 평균적으로 동일한 효율성(주당 약 22개 작업)으로 작업합니다. 그러나 가변성 지표(범위)는 매우 높습니다(네 번째 프로그래머의 경우 5개 작업에서 다섯 번째 프로그래머의 경우 24개 작업까지).

    주 이름 에스
    22,3
    22,4
    22,2
    22,1
    22,5

    샘플의 값이 평균을 기준으로 어떻게 분포되어 있는지를 보여주는 표준 편차를 추정하고, 특히 우리의 경우 작업 완료 범위가 주별로 얼마나 큰지 추정해 보겠습니다.

    주 이름 에스 그래서
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    표준 편차의 추정 결과는 다음을 나타냅니다(프로그래머 4와 5라는 두 가지 극단적인 경우를 평가합니다).

    4명의 프로그래머 샘플의 각 값은 평균 값에서 평균 1.3 할당만큼 벗어납니다.

    프로그래머의 샘플 5의 각 값은 평균값에서 평균 5.3 항목만큼 벗어납니다.

    표준 편차가 0에 가까울수록 평균의 신뢰성이 더 높아집니다. 이는 표본의 각 값이 평균과 거의 동일하다는 것을 의미하기 때문입니다(이 예에서는 22.5개 항목). 따라서 프로그래머 4는 프로그래머 5와 달리 가장 일관성이 있습니다. 5번째 프로그래머의 주별 작업 완료 변동성은 5.3개 작업으로 상당한 차이가 있음을 나타냅니다. 5번째 프로그래머의 경우 평균을 신뢰할 수 없기 때문에 다음 주에 완료되는 작업 수를 예측하기 어렵고, 이로 인해 계획 절차와 작업 일정 준수가 복잡해집니다. 이 과정에서 어떤 관리 결정을 내리는지는 중요하지 않습니다. 적절한 관리 결정을 내릴 수 있는 기반이 되는 평가를 받는 것이 중요합니다.

    따라서 평균이 항상 데이터를 올바르게 평가하는 것은 아니라는 일반적인 결론을 내릴 수 있습니다. 평균 추정치의 정확성은 표준편차 값으로 판단할 수 있습니다.

    실험 결과를 통계적으로 처리하는 방법은 수학적 기법, 공식, 정량적 계산 방법으로, 실험 중에 얻은 지표를 일반화하고 시스템에 가져와 숨겨진 패턴을 드러낼 수 있습니다.

    우리는 실험에서 연구된 변수들 사이에 존재하는 통계적 성격의 패턴에 대해 이야기하고 있습니다.

    데이터 26 처리 목적으로 분류되거나 범주화되는 기본 요소입니다.

    수학적 통계 분석의 일부 방법을 사용하면 데이터의 샘플 분포를 특성화하는 소위 기본 수학적 통계를 계산할 수 있습니다. 예를 들면 다음과 같습니다.

    표본 평균,

    표본분산,

    중앙값 및 기타 여러 가지.

    다른 수학적 통계 방법을 사용하면 개별 표본 통계의 변화 역학을 판단할 수 있습니다. 예를 들면 다음과 같습니다.

    분산 분석,

    회귀 분석.

    세 번째 그룹의 샘플링 데이터 방법을 사용하면 이 실험에서 연구된 변수 사이에 존재하는 통계적 관계를 신뢰성 있게 판단할 수 있습니다.

    상관분석;

    요인 분석;

    비교 방법.

    모든 수학적 및 통계적 분석 방법은 일반적으로 기본 및 보조 27로 구분됩니다.

    기본 방법은 실험에서 수행된 측정 결과를 직접적으로 반영하는 지표를 얻는 데 사용할 수 있는 방법입니다.

    2차 방법은 통계 처리 방법이라고 하며, 이를 통해 1차 데이터를 기반으로 숨겨진 통계 패턴이 드러납니다.

    통계 처리의 주요 방법에는 다음이 포함됩니다.

    샘플 평균의 결정;

    표본분산

    선택적 패션;

    표본 중앙값.

    보조 방법에는 일반적으로 다음이 포함됩니다.

    상관분석;

    회귀 분석;

    두 개 이상의 표본에 대한 기본 통계를 비교하는 방법입니다.

    샘플 평균부터 시작하여 기본 수학적 통계를 계산하는 방법을 고려해 보겠습니다.

    산술 평균 – 모든 데이터 값의 합을 용어 수 28에 대한 비율입니다.

    통계 지표로서의 평균값은 실험에서 연구된 심리적 질의 평균 평가를 나타냅니다.

    이 평가는 정신 진단 검사를 받은 피험자 그룹에서 전체적으로 발달 정도를 나타냅니다. 두 개 이상의 샘플의 평균값을 직접 비교함으로써 이러한 샘플을 구성하는 사람들의 평가 품질의 상대적 발전 정도를 판단할 수 있습니다.

    표본 평균은 다음 공식 29를 사용하여 결정됩니다.

    여기서 x cf는 샘플 평균 또는 샘플의 산술 평균입니다.

    n은 평균값이 계산되는 기준이 되는 표본 또는 개인 정신진단 지표의 피험자 수입니다.

    x k - 개별 주제에 대한 지표의 개인 값. 이러한 지표는 총 n개 있으므로 이 변수의 인덱스 k는 1에서 n까지의 값을 취합니다.

    ∑는 이 기호 오른쪽에 있는 변수의 값을 합산하기 위해 수학에서 허용되는 기호입니다.

    분산 는 평균값 30을 기준으로 데이터의 확산을 측정한 것입니다.

    분산이 클수록 데이터의 편차나 확산도 커집니다. 평균은 동일하지만 산포도가 다른 값들을 서로 구별할 수 있도록 결정된다.

    분산은 다음 공식에 의해 결정됩니다.

    표본 분산 또는 단순히 분산은 어디에 있습니까?

    주어진 샘플의 처음부터 마지막까지의 모든 x k에 대해 부분 값과 평균 값 간의 차이를 계산하고 이러한 차이를 제곱한 후 합산해야 함을 의미하는 표현입니다.

    n은 분산이 계산되는 표본 또는 기본 값의 대상 수입니다.

    중앙값 는 연구 중인 특성의 값으로, 이 특성의 값에 따라 정렬된 샘플을 절반으로 나눕니다.

    중앙값을 아는 것은 연구된 특성의 부분 값 분포가 대칭적이고 소위 정규 분포에 근접하는지 확인하는 데 유용합니다. 정규 분포의 평균과 중앙값은 일반적으로 서로 동일하거나 거의 다릅니다.

    특징의 표본 분포가 정규적이면 데이터의 정규 분포를 기반으로 한 2차 통계 계산 방법을 적용할 수 있습니다. 그렇지 않으면 계산에 심각한 오류가 발생할 수 있으므로 이 작업을 수행할 수 없습니다.

    패션 또 다른 초등 수학 통계 및 실험 데이터 분포의 특성. 모드는 연구 대상 특성의 정량적 값으로, 샘플에서 가장 자주 발견됩니다.

    정규 분포를 포함한 대칭 특성 분포의 경우 모드 값은 평균 및 중앙값과 일치합니다. 다른 유형의 비대칭 분포의 경우 이는 일반적이지 않습니다.

    두 일련의 실험 데이터 간의 연결 또는 직접적인 의존성을 결정하는 2차 통계 처리 방법을 이라고 합니다. 상관 분석 방법. 이는 한 현상이 역학에서 다른 현상에 어떻게 영향을 미치거나 관련되는지를 보여줍니다. 예를 들어, 서로 인과 관계에 있는 수량 사이에는 이러한 종류의 종속성이 존재합니다. 두 현상이 통계적으로 유의미한 상관관계가 있다는 것이 밝혀지고, 그 중 하나가 다른 현상의 원인으로 작용할 수 있다는 확신이 있다면, 둘 사이에는 확실히 인과관계가 있다는 결론이 나옵니다. 다음과 같습니다.

    이 방법에는 여러 가지 종류가 있습니다.

    선형 상관 분석을 사용하면 절대값을 기반으로 변수 간의 직접적인 연결을 설정할 수 있습니다. 이러한 연결은 직선으로 그래픽적으로 표현되므로 "선형"이라는 이름이 붙었습니다.

    선형 상관 계수는 다음 공식 31을 사용하여 결정됩니다.

    여기서 r xy - 선형상관계수;

    x, y -비교된 값의 평균 샘플 값;

    엑스 ,와이 - 비교 수량의 비공개 샘플 값;

    피 -비교된 일련의 지표에 있는 총 값 수

    평균값과 비교된 값의 분산, 편차.

    순위 상관은 변수의 절대값 사이가 아니라 값에 따라 정렬된 계열에서 해당 변수가 차지하는 순위 또는 순위 사이의 종속성을 결정합니다. 순위 상관 계수의 공식은 다음과 같습니다.

    여기서 Rs는 Spearman 순위 상관 계수입니다.

    - 순서가 지정된 시리즈에서 동일한 주제의 지표 순위 간의 차이;

    피 -상관관계가 있는 계열의 주제 또는 디지털 데이터(순위) 수.

    수업의 목적:
    - 이해력과 일차 암기 수준에서 주제를 숙달하기 위한 조건을 조성합니다.
    - 학생 성격의 수학적 능력 형성을 위해.

    수업 목표
    교육적인:과학으로서의 통계에 대한 아이디어를 형성합니다. 학생들에게 기본 통계 특성의 개념을 익히십시오. 시리즈의 범위와 모드를 찾고, 데이터를 분석하고, 암산 능력을 향상시키는 능력을 개발합니다.
    교육적인:개념과 해석의 숙달을 촉진합니다. 분석, 비교, 체계화 및 일반화의 초주제 기술 개발; 주제 언어 형성을 계속하고, 수업의 다양한 단계에서 핵심 역량(인지, 정보, 의사소통) 형성을 촉진하고, 통계와 다양한 과학 사이의 학제간 연결을 식별하여 학생들 사이에 통일된 과학적 세계 그림 형성을 촉진합니다.
    교육적인:공부하는 주제, 정보 문화에 대한 관심을 키우십시오. 일반적으로 수용되는 규범 및 규칙, 높은 효율성 및 조직을 준수할 준비가 되어 있습니다.

    사용된 기술: 학생중심 학습기술, 정보통신기술.
    필요한 장비, 재료: 멀티미디어 프로젝터, 컴퓨터, 대화형 화이트보드.

    수업 중에는

    1. 조직적인 순간.

    학생들의 수업 준비 상태 확인

    출석체크

    2. 목표 설정.

    이 주제를 연구해야 하는 이유

    수업 목표를 설정하는 과정에 학생들을 참여시킵니다.

    우리는 어떤 출처로부터 정보를 받고 수집합니까? (제안된 답변: 라디오, 텔레비전, 신문, 잡지, 전화, 사람, 인터넷, 편지).

    사람들은 정보를 어디에 저장하나요? (제안된 답변 : 메모리 및 외부 미디어).
    정보를 얻기 위해 전문학교에서 공부하고 있습니까? 학교에서는 교양과목을 공부했는데, 기술학교에서 공부하면 또 무엇을 배우나요? (제안된 답변: s 전문 지식).우리가 더 많이 배울수록 우리의 기억에는 더 많은 정보가 포함됩니다.

    오늘은 또 다른 정보를 알려드리겠습니다. 당신은 광산 운영자 교육을 받았으며 EKG-8I 굴착기에서 작업하게 됩니다. 이 굴삭기의 성능은 어떻습니까? 내 요청에 따라 공장에서는 다음과 같은 정보를 제공했습니다. (굴삭기 성능 - 테이블)

    폐석별(천톤)

    여러분, 정보가 많으면 좋은가요? 모든 정보가 유용하고 고품질일 수 있습니까? 정보의 미로 속에서 길을 잃지 않으려면 우리는 무엇을 할 수 있어야 할까요? (학생들의 예상 답변: “유용한 고품질 정보와 낮은 품질의 정보를 분리할 수 있어야 합니다.”) 저것들. 처리할 수 있습니다.

    결론: 오늘 수업에서는 정보를 처리하는 방법을 배웁니다.

    3. 새로운 자료를 연구하기 위한 활동 조직.(학생들은 설명 과정에서 노트에 메모하고 과제를 완료합니다.)

    1. 통계의 정의

    통계란 무엇입니까? 이 질문에 영국 총리 벤자민 디즈레일리(1804∼1881)는 “거짓말에는 거짓말, 저주받은 거짓말, 통계의 세 가지 종류가 있다”고 답했다고 한다.

    통계대중 행동, 현상 및 프로세스를 설명하는 데이터를 수집, 분석 및 처리하는 방법을 연구하는 정확한 과학입니다.

    (Ilf와 Petrov의 소설 "The Twelve Chairs"에서 발췌 한 내용을 읽습니다.

    "통계는 모든 것을 알고 있습니다", 공화국의 평균 시민이 연간 얼마나 많은 음식을 먹는지 알려져 있습니다. 국가의 사냥꾼, 발레리나: 기계, 자전거, 기념물, 등대 및 재봉틀이 얼마나 많은지 알려져 있습니다. 열정, 열정, 생각이 통계표에서 우리를 바라봅니다!..”

    그 이름은 라틴어 "status"(상태)에서 유래되었으며, 이 어근에서 stato(이탈리아어), statistik(독일어), state(영어) - state라는 단어가 유래되었습니다.

    통계 연구:

    통계 요소를 연구하는 주요 목표는 다음과 같습니다.

    • 국가 및 해당 지역의 개별 인구 그룹 수,
    • 다양한 종류의 제품을 생산하고 소비하며,
    • 다양한 운송 수단을 통한 물품 및 승객 운송,
    • 천연 자원 등.

    통계 관행이 어느 나라에서 시작되었는지(중국에서) 아십니까? 중국 최초의 인구 조사는 5세기로 거슬러 올라갑니다. 기원전 2천년

    19세기에는 공식, 수학법칙, 특수한 특성을 이용해 데이터를 처리하는 것이 가능해졌습니다. 이것?.... ( 매트. 통계).

    2. 수학통계

    수학통계기존 패턴을 식별하기 위해 무작위 질량 현상의 관찰 결과를 수집, 체계화 및 처리하는 방법을 연구하는 수학의 한 분야입니다.

    그렇다면 Disraeli는 왜 통계를 거짓말과 비교했습니까? (과학적이고 엄격한 정보 처리가 없었습니다. 데이터는 누구나 원하는 대로 해석되었습니다.)

    수학적 통계에는 정보 처리의 보편적인 방법이 있습니다.
    이것이 바로 영화 '오피스 로맨스'의 주인공들이 통계에 대해 다음과 같은 말을 할 수 있었던 이유입니다. 영화 '오피스 로맨스'의 일부).
    결론: 통계는 시스템에 정보를 가져옵니다.

    3. 정보의 그래픽 표현

    분포 다각형

    분포 히스토그램

    파이 차트

    4. 측정특성
    1. 일련의 데이터는 모든 측정에 대한 일련의 결과입니다.

    예를 들어: 1) 사람의 키 측정

    2) 사람(동물)의 체중 측정

    3) 미터 판독값(전기, 물, 열...)

    4) 100m 달리기 결과

    2. 데이터 시리즈의 양 - 데이터 시리즈의 양은 전체 데이터의 양입니다.

    예를 들어:일련의 숫자 1이 주어지면; 삼; 6; -4; 0

    그 부피는 5와 같습니다. 왜죠?

    3. 데이터 시리즈의 범위는 데이터 시리즈의 가장 큰 숫자와 가장 작은 숫자의 차이입니다.

    예를 들어:일련의 숫자 1이 주어지면; 삼; 6; -4; 0; 2, 그럼 범위이 데이터 계열은 6과 같습니다(6 - 0 = 6이므로).

    4. 데이터 시리즈의 모드 - 데이터 시리즈의 모드는 이 시리즈에서 가장 자주 나타나는 시리즈의 번호입니다.

    예: p데이터 독에는 모드가 있을 수도 있고 없을 수도 있습니다.

    따라서 데이터 시리즈 47, 46, 50, 52, 47, 52, 49, 45, 43, 53에서 숫자 47과 52는 각각 두 번 발생하고 나머지 숫자는 두 번 미만입니다. 이러한 경우 시리즈에는 47과 52의 두 가지 모드가 있다는 데 동의했습니다.

    5. 계열의 중앙값

    홀수 개의 용어가 있는 중앙값은 가운데에 쓰여진 숫자입니다.

    짝수의 항이 있는 중앙값 - 이것은 가운데 적힌 두 숫자의 산술평균이다.

    예를 들어: 일련의 숫자의 중앙값을 결정합니다.

    16; -4; 5; -2; -삼; 삼; 삼; -2; 3. 답: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. 답: 0

    6. 산술 평균은 계열의 숫자의 합을 해당 숫자로 나눈 몫입니다.

    예를 들어: 일련의 숫자 -1이 주어집니다. 0; 2; 1; -1; 0; 2; -1. 그러면 산술 평균은 다음과 같습니다: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0.25

    4. 연구 자료의 통합.

    실무

    운동: 4분기 수학 부문에서 학생 Peter Ivanov의 성과를 특성화하십시오.

    작업 완료:

    1. 정보의 수집:

    잡지에 적힌 성적은 5,4,5,3,3,5,4,4,4입니다.

    2. 수신된 데이터 처리:

    강의 12. 결과의 통계 처리 방법.

    결과를 통계적으로 처리하는 방법을 수학적 기술, 공식, 정량적 계산 방법이라고 하며, 이를 통해 실험 중에 얻은 지표를 일반화하고 시스템에 가져와 숨겨진 패턴을 드러낼 수 있습니다. 우리는 실험에서 연구된 변수들 사이에 존재하는 통계적 성격의 패턴에 대해 이야기하고 있습니다.

    1. 실험결과의 일차적인 통계처리 방법

    모든 수학적 및 통계적 분석 방법은 일반적으로 1차 및 2차로 구분됩니다. 기본 방법은 실험에서 수행된 측정 결과를 직접적으로 반영하는 지표를 얻는 데 사용할 수 있는 방법입니다. 따라서 기본 통계 지표란 정신 진단 방법 자체에 사용되는 지표와 정신 진단 결과의 초기 통계 처리 결과를 의미합니다. 2차 방법은 통계 처리 방법이라고 하며, 이를 통해 1차 데이터를 기반으로 숨겨진 통계 패턴이 드러납니다.

    통계 처리의 기본 방법에는 예를 들어 표본 평균, 표본 분산, 표본 모드 및 표본 중앙값 결정이 포함됩니다. 2차 방법에는 일반적으로 상관 분석, 회귀 분석 및 두 개 이상의 표본에 대한 1차 통계를 비교하는 방법이 포함됩니다.

    기본 수학적 통계를 계산하는 방법을 고려해 보겠습니다.

    패션그들은 표본에서 가장 자주 발견되는 연구 대상 특성의 정량적 가치를 부릅니다.

    중앙값는 연구 중인 특성의 값으로, 이 특성의 값에 따라 정렬된 샘플을 절반으로 나눕니다.

    표본 평균(산술 평균) 값은 통계 지표로서 실험에서 연구된 심리적 질의 평균 평가를 나타냅니다.

    흩어지게하다(때때로 이 값을 범위라고 함) 샘플은 문자 R로 표시됩니다. 이는 샘플에 대해 얻을 수 있는 가장 간단한 지표, 즉 이 특정 변형 계열의 최대값과 최소값 간의 차이입니다.

    분산평균값에서 변수 값의 제곱 편차의 산술 평균입니다.

    2. 실험결과의 2차 통계처리 방법

    실험 데이터를 통계적으로 처리하는 2차 방법을 사용하여 실험과 관련된 가설을 직접 테스트하고 입증하거나 반증합니다. 일반적으로 이러한 방법은 기본 통계 처리 방법보다 더 복잡하며 연구자는 초등 수학과 통계에 대한 충분한 교육을 받아야 합니다.

    논의 중인 방법 그룹은 여러 하위 그룹으로 나눌 수 있습니다.

    1 회귀 미적분학

    회귀 미적분은 개인적이고 분산된 데이터를 내부 관계를 대략적으로 반영하는 일부 선형 그래프로 줄이고 변수 중 하나의 값을 기반으로 다른 변수의 가능한 값을 대략적으로 추정할 수 있는 수학적 통계 방법입니다. .

    2.상관관계

    두 일련의 실험 데이터 간의 연결 또는 직접적인 의존성을 결정하는 2차 통계 처리의 다음 방법을 상관 방법이라고 합니다. 이는 한 현상이 역학에서 다른 현상에 어떻게 영향을 미치거나 관련되는지를 보여줍니다. 예를 들어, 서로 인과 관계에 있는 수량 사이에는 이러한 종류의 종속성이 존재합니다. 두 현상이 통계적으로 유의미한 상관관계가 있다는 것이 밝혀지고, 그 중 하나가 다른 현상의 원인으로 작용할 수 있다는 확신이 있다면, 둘 사이에는 확실히 인과관계가 있다는 결론이 나옵니다. 다음과 같습니다.

    3요인 분석

    요인 분석은 대량의 실험 데이터를 처리할 때 사용되는 통계적 방법입니다. 요인 분석의 목적은 변수 수를 줄이고(데이터 축소) 변수 간의 관계 구조를 결정하는 것입니다. 요인분석은 변수를 분류하는 방법이므로 데이터 축소 방법이나 구조적 분류 방법으로 사용됩니다.

    질문 검토

    1.통계처리방법이란 무엇인가요?

    2.2차 통계 처리 방법은 어떤 하위 그룹으로 나뉘나요?

    3.상관분석법의 본질을 설명해주세요.

    4. 통계처리 방법은 어떤 경우에 사용되나요?

    5. 과학 연구에서 통계 처리 방법을 사용하는 것이 얼마나 효과적이라고 생각하십니까?

    2. 통계자료 처리방법의 특징을 고려한다.

    문학

    1.. 고르바토프 D.S. 심리학 연구 워크숍: Proc. 용돈. - 사마라: "BAKHRAH - M", 2003. - 272 p.

    2. Ermolaev A.Yu. 심리학자를 위한 수학적 통계. - M.: 모스크바 심리사회연구소: Flinta, 2003.336p.

    3. 코르닐로바 T.V. 심리학 실험 소개. 대학을 위한 교과서. M .: CheRo 출판사, 2001.