Štatistické spracovanie údajov. Štatistické spracovanie údajov Definícia spracovania štatistických údajov

  • Snímka 2

    • Štatistika je exaktná veda, ktorá študuje metódy zberu, analýzy a spracovania údajov, ktoré popisujú hromadné akcie, javy a procesy.
    • Matematická štatistika je odvetvie matematiky, ktoré študuje metódy zhromažďovania, systematizácie a spracovania výsledkov pozorovaní náhodných hromadných javov s cieľom identifikovať existujúce vzorce.
  • Snímka 3

    Štatistické štúdie

    • počet jednotlivých skupín obyvateľstva krajiny a jej krajov,
    • výroba a spotreba rôznych druhov výrobkov,
    • preprava tovaru a osôb rôznymi druhmi dopravy,
    • prírodné zdroje a oveľa viac.
    • Výsledky štatistických štúdií sa široko využívajú na praktické a vedecké závery.
    • V súčasnosti sa štatistika začína študovať už v r stredná škola, na vysokých školách je to povinný predmet, pretože sa spája s mnohými vedami a odbormi.
    • Na zvýšenie počtu predajov v obchode, na zlepšenie kvality vedomostí v škole, na posun krajiny smerom k ekonomickému rastu je potrebné vykonať štatistické štúdie a vyvodiť príslušné závery. A toto by mal zvládnuť každý.
  • Snímka 4

    Hlavné ciele štúdia prvkov štatistiky

    • Formovanie zručností v primárnom spracovaní štatistických údajov;
    • obraz a analýza kvantitatívnych informácií prezentovaných v rôznych formách (vo forme tabuliek, diagramov, grafov skutočných závislostí);
    • rozvíjanie myšlienok o dôležitých štatistických nápadoch, menovite: myšlienka odhadu a myšlienka testovania štatistických hypotéz;
    • rozvíjanie schopnosti porovnávať pravdepodobnosti náhodných udalostí vyskytujúcich sa s výsledkami konkrétnych experimentov.
  • Snímka 5

    • Rad údajov
    • Objem série údajov
    • Rozsah dátových radov
    • Režim dátovej série
    • Medián série
    • Priemerná
    • Rad objednaných údajov
    • Tabuľka distribúcie údajov
    • Poďme si to zhrnúť
    • Nominatívne dátové rady
    • Frekvencia výsledkov
    • Percentuálna frekvencia
    • Zoskupovanie údajov
    • Metódy spracovania údajov
    • Poďme si to zhrnúť
  • Snímka 6

    Definícia

    • Séria údajov je séria výsledkov niektorých meraní.
    • Napríklad: 1) meranie ľudskej výšky
    • 2) Meranie hmotnosti ľudí (zvierat).
    • 3) Stavy meračov (elektrina, voda, teplo...)
    • 4) Výsledky v behu na 100 metrov
    • Atď.
  • Snímka 7

    • Objem série údajov je množstvo všetkých údajov.
    • Napríklad: daný rad čísel 1; 3; 6; -4; 0
    • jeho objem bude rovný 5. Prečo?
  • Snímka 8

    Dokončite úlohu

    • Určte objem tejto série.
    • odpoveď: 10
  • Snímka 9

    Definícia

    • Rozsah je rozdiel medzi najväčším a najmenším číslom v rade údajov.
    • Napríklad: ak je daný rad čísel 1; 3; 6; -4; 0; 2, potom sa rozsah tohto radu údajov bude rovnať 6 (keďže 6 – 0 = 6)
  • Snímka 10

    Dokončite úlohu

    • V ústave sme robili test z vyššej matematiky. V skupine bolo 10 ľudí a dostali zodpovedajúce hodnotenia: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určte rozsah tohto radu.
    • odpoveď: 3
  • Snímka 11

    Definícia

    • Režim série údajov je číslo série, ktorá sa v tejto sérii vyskytuje najčastejšie.
    • Rad údajov môže alebo nemusí mať režim.
    • V dátovom rade 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 sa teda každé z čísel 47 a 52 vyskytuje dvakrát a zvyšné čísla menej ako dvakrát. V takýchto prípadoch sa dohodlo, že séria má dva režimy: 47 a 52.
  • Snímka 12

    Dokončite úlohu

    • Takže v sérii údajov
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 každé z čísel 47 a 52 sa objaví dvakrát a ostatné čísla menej ako dvakrát. V takýchto prípadoch sa dohodlo, že séria má dva režimy: 47 a 52.
    • V ústave sme robili test z vyššej matematiky. V skupine bolo 10 ľudí a dostali príslušné hodnotenia:
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určte režim tejto série.
    • odpoveď: 4
  • Snímka 13

    Definícia

    • Medián s nepárnym počtom členov je číslo napísané v strede.
    • Medián s párnym počtom členov je aritmetický priemer dvoch čísel napísaných v strede.
    • Napríklad: určte medián radu čísel
    • 16; -4; 5; -2; -3; 3; 3; -2; 3. Odpoveď: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. odpoveď: 0
  • Snímka 14

    Dokončite úlohu

    • V ústave sme robili test z vyššej matematiky. V skupine bolo 10 ľudí a dostali zodpovedajúce hodnotenia: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určte medián tohto radu.
    • odpoveď: 4
  • Snímka 15

    Definícia

    • Aritmetický priemer je podiel delenia súčtu čísel v rade ich počtom.
    • Napríklad: daný rad čísel -1; 0; 2; 1; -1; 0; 2; -1. Potom sa aritmetický priemer bude rovnať: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0,25
  • Snímka 16

    Dokončite úlohu

    • V ústave sme robili test z vyššej matematiky. V skupine bolo 10 ľudí a dostali zodpovedajúce hodnotenia: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určte aritmetický priemer tohto radu.
    • Odpoveď: 3.9
  • Snímka 17

    Praktická práca

    • Zadanie: charakterizujte výkon študenta Ivanova v matematike za štvrtý štvrťrok.
    • DOKONČENIE PRÁCE:
    • 1. Zhromažďovanie informácií:
    • Známky vypísané z časopisu sú: 5,4,5,3,3,5,4,4,4.
    • 2. Spracovanie prijatých údajov:
    • objem = 9
    • rozsah = 5 - 3 = 2
    • móda = 4
    • medián = 3
    • aritmetický priemer =(5+4+5+3+3+5+4+4+4) : 9 ≈ 4
    • Charakteristika študijného výkonu: študent nie je vždy pripravený na vyučovaciu hodinu.
    • Väčšinou sa učí so známkami „4“. Štvrtina vyjde na „4“.
  • Snímka 18

    Sám za seba

    • Musíme nájsť objem série, rozsah série, režim, medián a aritmetický priemer:
    • Karta 1. 22,5; 23; 21,5; 22; 23.
    • Karta 2. 6; -4; 5; -2; -3; 3; 3; -2; 3.
    • Karta 3. 12,5; 12; 12; 12,5; 13; 12,5; 13.
    • Karta 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • Karta 5. 125; 130; 124; 131.
    • Karta 6. 120; 100; 110.
  • Snímka 19

    Skontrolujme to

    • Karta 1.
    • objem riadkov = 5
    • rozsah riadkov = 10
    • móda = 23
    • medián = 21,5
    • aritmetický priemer = 13,3
    • karta 3.
    • objem riadkov = 7
    • rozsah série = 1
    • režim = 12,5
    • medián = 12,5
    • aritmetický priemer = 12,5
    • karta 2.
    • objem riadkov = 9
    • rozsah riadkov = 10
    • móda = 3
    • medián = -3
    • aritmetický priemer = 1
    • Karta 4.
    • objem riadkov = 8
    • rozsah riadkov = 3
    • režim = -1
    • medián = 0
    • aritmetický priemer = 0,25
  • Snímka 20

    • Karta 5.
    • objem riadkov = 4
    • rozsah riadkov = 7
    • móda = nie
    • medián = 127
    • aritmetický priemer = 127,5
    • Karta 6.
    • objem riadkov = 3
    • rozsah rozsahu = 20
    • móda = nie
    • medián = 100
    • aritmetický priemer = 110
  • Snímka 21

    Definícia

    • Usporiadané rady údajov sú série, v ktorých sú údaje usporiadané podľa nejakého pravidla.
    • Ako usporiadať sériu čísel? (Čísla napíšte tak, aby každé nasledujúce číslo nebolo menšie (nie viac) ako predchádzajúce); alebo napíšte niektoré mená "abecedne"...
  • Snímka 22

    Dokončite úlohu

    • Vzhľadom na sériu čísel:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • Zoraďte to vzostupne.
    • Riešenie:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • Výsledkom je usporiadaná séria. Samotné údaje sa nezmenili, zmenilo sa len poradie, v akom sa zobrazujú.
  • Snímka 23

    Definícia

    • Tabuľka rozloženia údajov je tabuľka usporiadanej série, v ktorej sa namiesto opakovania rovnakého počtu zaznamenáva počet opakovaní.
    • Naopak, ak je známa distribučná tabuľka, potom je možné zostaviť usporiadanú sériu údajov.
    • Napríklad:
    • Z toho dostaneme nasledujúce zoradené série:
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • Snímka 24

    Dokončite úlohu

    • V predajni dámskej obuvi bol vykonaný štatistický prieskum a zostavená zodpovedajúca tabuľka pre cenu obuvi a počet predajov:
    • Cena (RUB): 500 1200 1500 1800 2000 2500
    • Množstvo: 8 9 14 15 3 1
    • Pre tieto ukazovatele musíte nájsť štatistické charakteristiky:
    • vytvorte usporiadanú sériu údajov
    • objem dátových radov
    • sériový rozsah
    • módna séria
    • medián série
    • aritmetický priemer radu údajov
  • Snímka 25

    A odpovedzte na nasledujúce otázky

    • Z týchto cenových kategórií, za akú cenu by obchod nemal topánky predávať?
    • Topánky, za akú cenu by sa mali distribuovať?
    • Na akú cenu by ste sa mali zamerať?
  • Snímka 26

    Poďme si to zhrnúť

    • Oboznámili sme sa s prvotnými konceptmi, ako prebieha štatistické spracovanie údajov:
    • údaje sú vždy výsledkom nejakého merania
    • Je možné nájsť niekoľko údajov:
    • objem, rozsah, režim, medián a
    • priemer
    • 3) môže byť akýkoľvek dátový rad
    • organizovať a skladať
    • tabuľka distribúcie údajov
  • Snímka 27

    Definícia

    • Nominačný rad údajov NIE SÚ ČÍSELNÉ ÚDAJE, ale napríklad mená; tituly; nominácie...
    • Napríklad: zoznam finalistov MS od roku 1930: Argentína, Československo, Maďarsko, Brazília, Maďarsko, Švédsko, Československo, Nemecko, Taliansko, Holandsko, Holandsko, Nemecko, Nemecko,
    • Argentína, Taliansko, Brazília, Nemecko, Francúzsko
  • Snímka 28

    Dokončite úlohu

    • Nájdite z predchádzajúceho príkladu:
    • objem riadku 2) režim riadku
    • 3) vytvorte distribučnú tabuľku
    • Riešenie: objem = 18; móda – nemecký tím.
  • Laboratórna práca č.3. Štatistické spracovanie údajov v systéme MatLab

    Všeobecné vyjadrenie problému

    Hlavný účel vykonania laboratórne práce je oboznámenie sa so základmi práce so štatistickým spracovaním údajov v prostredí MatLAB.

    Teoretická časť

    Primárne štatistické spracovanie údajov

    Štatistické spracovanie údajov je založené na primárnych a sekundárnych kvantitatívnych metódach. Účelom primárneho spracovania štatistických údajov je štruktúrovanie získaných informácií, čo zahŕňa zoskupovanie údajov do súhrnných tabuliek podľa rôznych parametrov. Primárne údaje musia byť prezentované vo formáte, ktorý umožňuje osobe urobiť približné posúdenie výsledného súboru údajov a identifikovať informácie o rozložení údajov vo výslednej vzorke údajov, ako je napríklad homogenita alebo kompaktnosť údajov. Po primárnej analýze údajov sa aplikujú metódy sekundárneho štatistického spracovania údajov, na základe ktorých sa určia štatistické vzorce v existujúcom súbore údajov.

    Vykonanie primárnej štatistickej analýzy na dátovom poli vám umožňuje získať znalosti o nasledujúcich veciach:

    Ktorá hodnota je pre vzorku najtypickejšia? Na zodpovedanie tejto otázky sú definované miery centrálnej tendencie.

    Aký veľký je rozptyl údajov vo vzťahu k tejto charakteristickej hodnote, t. j. aká je „rozmazanosť“ údajov? IN v tomto prípade určujú sa miery variability.

    Za zmienku stojí skutočnosť, že štatistické ukazovatele centrálnej tendencie a variability sa stanovujú iba na kvantitatívnych údajoch.

    Miery centrálnej tendencie– skupina hodnôt, okolo ktorej je zoskupený zvyšok údajov. Miery centrálnej tendencie teda zovšeobecňujú pole údajov, čo umožňuje vytvárať závery o vzorke ako celku a viesť komparatívna analýza rôzne vzorky navzájom.

    Predpokladajme, že máme vzorku údajov, potom sa miery centrálnej tendencie hodnotia pomocou nasledujúcich ukazovateľov:

    1. Ukážkový priemer je výsledkom vydelenia súčtu všetkých hodnôt vzorky ich počtom. Určené vzorcom (3.1).

    (3.1)

    Kde - i prvok výberu;

    n– počet prvkov vzorky.

    Priemer vzorky poskytuje najväčšiu presnosť v procese odhadu centrálnej tendencie.

    Povedzme, že máme vzorku 20 ľudí. Vzorovými prvkami sú informácie o priemernom mesačnom príjme každého človeka. Predpokladajme, že 19 ľudí má priemerný mesačný príjem 20 tisíc rubľov. a 1 osoba s príjmom 300 tr. Celkový mesačný príjem celej vzorky je 680 rubľov. Priemer vzorky je v tomto prípade S=34.


    2. Medián– tvorí hodnotu, nad a pod ktorou je počet rôznych hodnôt rovnaký, t.j. toto je centrálna hodnota v sekvenčnej sérii údajov. Určené v závislosti od párneho/nepárneho počtu prvkov vo vzorke pomocou vzorcov (3.2) alebo (3.3). Algoritmus na odhad mediánu pre vzorku údajov:

    V prvom rade sú údaje zoradené (zoradené) v zostupnom/vzostupnom poradí.

    Ak má objednaná vzorka nepárny počet prvkov, potom sa medián zhoduje s centrálnou hodnotou.

    (3.2)

    Kde n

    V prípade párneho počtu prvkov je medián definovaný ako aritmetický priemer dvoch centrálnych hodnôt.

    (3.3)

    kde je priemerný prvok usporiadanej vzorky;

    - prvok usporiadaného výberu vedľa ;

    Počet prvkov vzorky.

    Ak sú všetky prvky vzorky odlišné, potom je presne polovica prvkov vzorky väčšia ako medián a druhá polovica je menšia. Napríklad pre vzorku (1, 5, 9, 15, 16) sa medián rovná prvku 9.

    Pri štatistickej analýze údajov medián pomáha identifikovať prvky vzorky, ktoré výrazne ovplyvňujú hodnotu priemeru vzorky.

    Povedzme, že máme vzorku 20 ľudí. Vzorovými prvkami sú informácie o priemernom mesačnom príjme každého človeka. Predpokladajme, že 19 ľudí má priemerný mesačný príjem 20 tisíc rubľov. a 1 osoba s príjmom 300 tr. Celkový mesačný príjem celej vzorky je 680 rubľov. Medián po zoradení vzorky je definovaný ako aritmetický priemer desiateho a jedenásteho prvku vzorky) a rovná sa Me = 20 tr. Tento výsledok sa interpretuje nasledovne: medián rozdeľuje vzorku do dvoch skupín, takže môžeme dospieť k záveru, že v prvej skupine má každá osoba priemerný mesačný príjem nie viac ako 20 000 rubľov a v druhej skupine nie menej ako 20 000 rubľov. . IN v tomto príklade môžeme povedať, že medián je charakterizovaný tým, koľko zarába „priemerný“ človek. Pričom hodnota výberového priemeru je výrazne prekročená S=34, čo poukazuje na neprijateľnosť tejto charakteristiky pri hodnotení priemerného zárobku.

    Čím väčší je teda rozdiel medzi mediánom a priemerom vzorky, tým väčší je rozptyl údajov vzorky (v uvažovanom príklade sa osoba s príjmom 300 rubľov jasne líši od priemerných ľudí v konkrétnej vzorke a má významný vplyv na odhad priemerného príjmu). Čo robiť s takýmito prvkami, sa rozhoduje v každom jednotlivom prípade. Vo všeobecnosti sú však na zabezpečenie spoľahlivosti vzorky odstránené, pretože majú silný vplyv na hodnotenie štatistických ukazovateľov.

    3. Móda (Po)– generuje hodnotu, ktorá sa vo vzorke vyskytuje najčastejšie, t.j. hodnotu s najvyššou frekvenciou Algoritmus odhadu režimu:

    V prípade, že vzorka obsahuje prvky, ktoré sa vyskytujú rovnako často, hovorí sa, že v takejto vzorke neexistuje mód.

    Ak dve susedné prvky vzorky majú rovnakú frekvenciu, ktorá je väčšia ako frekvencia zostávajúcich prvkov vzorky, potom je režim definovaný ako priemer týchto dvoch hodnôt.

    Ak dva prvky vzorky majú rovnakú frekvenciu, ktorá je väčšia ako frekvencia zostávajúcich prvkov vzorky, a tieto prvky nie sú susediace, potom sa hovorí, že vzorka má dva režimy.

    Režim v štatistickej analýze sa používa v situáciách, keď je potrebné rýchle vyhodnotenie miery centrálnej tendencie a nevyžaduje sa vysoká presnosť. Napríklad móda (podľa veľkosti alebo značky) sa dá pohodlne použiť na určenie oblečenia a obuvi, po ktorých je medzi zákazníkmi najväčší dopyt.

    Miery rozptylu (variability)– skupina štatistických ukazovateľov charakterizujúcich rozdiely medzi hodnotami jednotlivých vzoriek. Na základe ukazovateľov miery disperzie možno posúdiť stupeň homogenity a kompaktnosti prvkov vzorky. Miery rozptylu sú charakterizované týmto súborom ukazovateľov:

    1. Rozsah - toto je interval medzi maximálnymi a minimálnymi hodnotami výsledkov pozorovania (prvky vzorky). Indikátor rozsahu označuje rozpätie hodnôt v súbore údajov. Ak je rozsah veľký, potom sú hodnoty v súhrne veľmi rozptýlené, inak (rozsah je malý) sa hovorí, že hodnoty v súhrne ležia blízko seba. Rozsah je určený vzorcom (3.4).

    (3.4)

    Kde - maximálny prvok vzorky;

    - minimálny prvok vzorky.

    2.Priemerná odchýlka– rozdiel aritmetického priemeru (v absolútnej hodnote) medzi každou hodnotou vo vzorke a jej priemerom vzorky. Priemerná odchýlka je určená vzorcom (3.5).

    (3.5)

    Kde - i prvok výberu;

    stredná hodnota vzorky vypočítaná pomocou vzorca (3.1);

    Počet prvkov vzorky.

    modul potrebné vzhľadom na skutočnosť, že odchýlky od priemeru pre každý konkrétny prvok môžu byť pozitívne aj negatívne. Ak teda modul nezoberiete, súčet všetkých odchýlok bude blízky nule a nebude možné posúdiť mieru variability údajov (nahustenie údajov okolo priemeru vzorky). Pri vykonávaní štatistickej analýzy sa namiesto priemeru vzorky môže použiť režim a medián.

    3. Disperzia- miera rozptylu, ktorá popisuje porovnávaciu odchýlku medzi hodnotami údajov a priemernou hodnotou. Vypočíta sa ako súčet štvorcových odchýlok každého prvku vzorky od priemernej hodnoty. V závislosti od veľkosti vzorky sa odhaduje rozptyl rôzne cesty:

    Pre veľké vzorky (n>30) podľa vzorca (3.6)

    (3.6)

    Pre malé vzorky (č<30) по формуле (3.7)

    (3.7)

    kde Xi je i-tý prvok vzorky;

    S – výberový priemer;

    Počet prvkov vzorky;

    (X i – S) - odchýlka od priemernej hodnoty pre každú hodnotu súboru údajov.

    4. Smerodajná odchýlka- miera toho, do akej miery sú dátové body rozptýlené v porovnaní s ich priemerom.

    Proces kvadratúry jednotlivých odchýlok pri výpočte rozptylu zvyšuje mieru odchýlky výslednej odchýlky od pôvodných odchýlok, čo následne prináša ďalšie chyby. Aby sa teda odhad rozptylu údajových bodov vzhľadom na ich priemer priblížil k hodnote strednej odchýlky, berie sa druhá odmocnina rozptylu. Extrahovaná odmocnina rozptylu charakterizuje mieru variability nazývanú stredná odmocnina alebo štandardná odchýlka (3.8).

    (3.8)

    Povedzme, že ste manažérom projektu vývoja softvéru. Máte pod velením päť programátorov. Riadením procesu realizácie projektu rozdeľujete úlohy medzi programátorov. Pre zjednodušenie príkladu budeme vychádzať zo skutočnosti, že úlohy sú rovnaké v zložitosti a čase dokončenia. Rozhodli ste sa analyzovať prácu každého programátora (počet dokončených úloh počas týždňa) za posledných 10 týždňov, v dôsledku čoho ste dostali nasledujúce vzorky:

    Názov týždňa

    Odhadom priemerného počtu dokončených úloh získate nasledujúci výsledok:

    Názov týždňa S
    22,3
    22,4
    22,2
    22,1
    22,5

    Na základe indikátora S pracujú všetci programátori v priemere s rovnakou efektivitou (asi 22 úloh za týždeň). Ukazovateľ variability (rozsah) je však veľmi vysoký (od 5 úloh pre štvrtého programátora po 24 úloh pre piateho).

    Názov týždňa S P
    22,3
    22,4
    22,2
    22,1
    22,5

    Poďme odhadnúť smerodajnú odchýlku, ktorá ukazuje, ako sú hodnoty vo vzorkách rozdelené vzhľadom k priemeru, a konkrétne v našom prípade odhadnite, aké veľké je rozpätie dokončenia úlohy z týždňa na týždeň.

    Názov týždňa S P SO
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    Výsledný odhad smerodajnej odchýlky naznačuje nasledovné (vyhodnotíme dva extrémne prípady, programátori 4 a 5):

    Každá hodnota vo vzorke 4 programátorov sa od priemernej hodnoty odchyľuje v priemere o 1,3 zadania.

    Každá hodnota v programátorskej vzorke 5 sa od priemernej hodnoty odchyľuje v priemere o 5,3 položky.

    Čím bližšie je smerodajná odchýlka k 0, tým je priemer spoľahlivejší, pretože naznačuje, že každá hodnota vo vzorke sa takmer rovná priemeru (v našom príklade 22,5 položiek). Preto je programátor 4 najkonzistentnejší, na rozdiel od programátora 5. Variabilita plnenia úloh z týždňa na týždeň u 5. programátora je 5,3 úlohy, čo svedčí o značnom rozptyle. V prípade 5. programátora sa nedá veriť priemeru, a preto je ťažké predpovedať počet dokončených úloh na nasledujúci týždeň, čo následne komplikuje plánovanie a dodržiavanie harmonogramov práce. Nezáleží na tom, aké manažérske rozhodnutie urobíte v tomto kurze. Je dôležité, aby ste dostali hodnotenie, na základe ktorého môžete prijímať vhodné manažérske rozhodnutia.

    Dá sa teda vyvodiť všeobecný záver, že priemer nie vždy vyhodnocuje údaje správne. Správnosť priemerného odhadu možno posúdiť podľa hodnoty smerodajnej odchýlky.

    Metódy štatistického spracovania experimentálnych výsledkov sú matematické techniky, vzorce, metódy kvantitatívnych výpočtov, pomocou ktorých možno ukazovatele získané počas experimentu zovšeobecniť, uviesť do systému a odhaliť v nich skryté vzorce.

    Hovoríme o vzoroch štatistickej povahy, ktoré existujú medzi premennými študovanými v experimente.

    Údaje sú základné prvky, ktoré sa majú klasifikovať alebo kategorizovať na účely spracovania26.

    Niektoré z metód matematicko-štatistickej analýzy umožňujú vypočítať takzvanú elementárnu matematickú štatistiku, ktorá charakterizuje výberové rozdelenie údajov, napr.

    Ukážkový priemer,

    Ukážkový rozptyl,

    Medián a množstvo ďalších.

    Iné metódy matematickej štatistiky umožňujú posúdiť dynamiku zmien v jednotlivých výberových štatistikách, napr.

    analýza rozptylu,

    Regresná analýza.

    Pomocou tretej skupiny metód vzorkovania údajov je možné spoľahlivo posúdiť štatistické vzťahy, ktoré existujú medzi premennými, ktoré sa študujú v tomto experimente:

    Korelačná analýza;

    Faktorová analýza;

    Porovnávacie metódy.

    Všetky metódy matematickej a štatistickej analýzy sa konvenčne delia na primárne a sekundárne 27 .

    Primárne metódy sú tie, ktoré možno použiť na získanie ukazovateľov, ktoré priamo odrážajú výsledky meraní uskutočnených v experimente.

    Sekundárne metódy sa nazývajú metódy štatistického spracovania, pomocou ktorých sa na základe primárnych údajov odhaľujú štatistické vzorce v nich skryté.

    Medzi primárne metódy štatistického spracovania patria napr.

    Stanovenie priemeru vzorky;

    Ukážkový rozptyl;

    Selektívna móda;

    Ukážkový medián.

    Sekundárne metódy zvyčajne zahŕňajú:

    Korelačná analýza;

    Regresná analýza;

    Metódy na porovnávanie primárnych štatistík v dvoch alebo viacerých vzorkách.

    Uvažujme o metódach na výpočet elementárnej matematickej štatistiky, počnúc priemerom vzorky.

    Aritmetický priemer - je to pomer súčtu všetkých hodnôt údajov k počtu výrazov 28.

    Priemerná hodnota ako štatistický ukazovateľ predstavuje priemerné hodnotenie psychologickej kvality skúmanej v experimente.

    Toto hodnotenie charakterizuje stupeň jeho vývoja ako celku v skupine subjektov, ktoré boli podrobené psychodiagnostickému vyšetreniu. Priamym porovnaním priemerných hodnôt dvoch alebo viacerých vzoriek môžeme posúdiť relatívny stupeň vývoja hodnotenej kvality u ľudí tvoriacich tieto vzorky.

    Priemer vzorky sa určí pomocou tohto vzorca 29:

    kde x cf je priemer vzorky alebo aritmetický priemer vzorky;

    n je počet subjektov vo výberovom súbore alebo súkromných psychodiagnostických ukazovateľov, na základe ktorých sa vypočítava priemerná hodnota;

    x k - súkromné ​​hodnoty ukazovateľov pre jednotlivé subjekty. Takýchto ukazovateľov je celkovo n, takže index k tejto premennej nadobúda hodnoty od 1 do n;

    ∑ je znamienko akceptované v matematike na sčítanie hodnôt tých premenných, ktoré sú napravo od tohto znamienka.

    Disperzia je miera rozšírenia údajov vo vzťahu k strednej hodnote 30.

    Čím väčší rozptyl, tým väčšia odchýlka alebo rozptyl údajov. Je určená tak, aby bolo možné od seba odlíšiť hodnoty, ktoré majú rovnaký priemer, ale odlišný rozptyl.

    Rozptyl je určený nasledujúcim vzorcom:

    kde je rozptyl vzorky alebo jednoducho rozptyl;

    Výraz, ktorý znamená, že pre všetky x k od prvého do posledného v danej vzorke je potrebné vypočítať rozdiely medzi čiastočnými a priemernými hodnotami, umocniť tieto rozdiely a sčítať ich;

    n je počet subjektov vo vzorke alebo primárnych hodnôt, z ktorých sa počíta rozptyl.

    Medián je hodnota skúmanej charakteristiky, ktorá delí vzorku zoradenú podľa hodnoty tejto charakteristiky na polovicu.

    Poznanie mediánu je užitočné na určenie, či je rozdelenie čiastkových hodnôt študovanej charakteristiky symetrické a aproximuje takzvané normálne rozdelenie. Priemer a medián normálneho rozdelenia sú zvyčajne rovnaké alebo sa od seba veľmi málo líšia.

    Ak je vzorová distribúcia znakov normálna, možno na ňu aplikovať metódy sekundárnych štatistických výpočtov založených na normálnom rozdelení údajov. Inak to nie je možné, pretože do výpočtov sa môžu vkradnúť vážne chyby.

    Móda ďalšia elementárna matematická štatistika a charakteristika rozloženia experimentálnych údajov. Modus je kvantitatívna hodnota sledovanej charakteristiky, ktorá sa najčastejšie nachádza vo vzorke.

    V prípade symetrického rozdelenia funkcií vrátane normálneho rozdelenia sa hodnoty režimu zhodujú s hodnotami priemeru a mediánu. Pre iné typy rozvodov, asymetrické, to nie je typické.

    Metóda sekundárneho štatistického spracovania, pomocou ktorej sa zisťuje súvislosť alebo priama závislosť medzi dvoma sériami experimentálnych údajov, sa nazýva metóda korelačnej analýzy. Ukazuje, ako jeden jav ovplyvňuje alebo súvisí s iným vo svojej dynamike. Závislosti tohto druhu existujú napríklad medzi veličinami, ktoré sú vo vzájomnom vzťahu príčina-následok. Ak sa ukáže, že dva javy spolu štatisticky významne korelujú a ak existuje istota, že jeden z nich môže pôsobiť ako príčina druhého javu, potom záver, že medzi nimi existuje vzťah príčiny a následku, je určite nasleduje.

    Existuje niekoľko odrôd tejto metódy:

    Lineárna korelačná analýza vám umožňuje vytvoriť priame spojenie medzi premennými na základe ich absolútnych hodnôt. Tieto spojenia sú graficky vyjadrené priamkou, preto názov „lineárne“.

    Koeficient lineárnej korelácie sa určí pomocou tohto vzorca 31:

    kde r xy - lineárny korelačný koeficient;

    x, y - priemerné vzorové hodnoty porovnávaných hodnôt;

    X i ,y i - hodnoty súkromnej vzorky porovnávaných veličín;

    P - celkový počet hodnôt v porovnávanej sérii ukazovateľov;

    Disperzie, odchýlky porovnávaných hodnôt od priemerných hodnôt.

    Ranková korelácia určuje závislosť nie medzi absolútnymi hodnotami premenných, ale medzi poradovými miestami alebo poradiami, ktoré obsadzujú v rade zoradených podľa hodnoty. Vzorec pre koeficient poradovej korelácie je nasledujúci 32:

    kde Rs je Spearmanov koeficient poradovej korelácie;

    d i - rozdiel medzi radmi ukazovateľov tých istých subjektov v usporiadaných radoch;

    P - počet subjektov alebo digitálnych údajov (poradí) v korelovaných sériách.

    Účel lekcie:
    - vytváranie podmienok na zvládnutie témy na úrovni porozumenia a primárneho zapamätania;
    - na formovanie matematickej kompetencie osobnosti študenta.

    Ciele lekcie
    Vzdelávacie: vytvoriť si predstavu o štatistike ako vede; oboznámiť študentov s pojmami základných štatistických charakteristík; rozvíjať schopnosť nájsť rozsah a režim série, analyzovať údaje a zlepšiť mentálne výpočty.
    Vzdelávacie: podporovať zvládnutie pojmov a ich interpretáciu; rozvoj nadpredmetových schopností analýzy, porovnávania, systematizácie a zovšeobecňovania; pokračovať vo formovaní jazyka predmetu, podporovať formovanie kľúčových kompetencií (kognitívne, informačné, komunikatívne) v rôznych fázach vyučovacej hodiny, podporovať vytváranie jednotného vedeckého obrazu sveta medzi študentmi identifikáciou interdisciplinárnych súvislostí medzi štatistikou a rôznymi vedami.
    Vzdelávacie: pestovať záujem o študovaný predmet, informačnú kultúru; pripravenosť dodržiavať všeobecne uznávané normy a pravidlá, vysoká efektívnosť a organizácia.

    Použité technológie: Technológia vzdelávania zameraného na študenta, informačné a komunikačné technológie.
    Potrebné vybavenie, materiálov: multimediálny projektor, počítač, interaktívna tabuľa.

    Počas vyučovania

    1. Organizačný moment.

    Kontrola pripravenosti žiakov na vyučovanie

    Kontrola dochádzky

    2. Stanovenie cieľa.

    Zdôvodnenie potreby naštudovať si túto tému

    Zapojenie študentov do procesu stanovovania cieľov vyučovacej hodiny

    Z akých zdrojov získavame a zhromažďujeme informácie? (Navrhované odpovede: rádio, televízia, noviny, časopisy, telefón, ľudia, internet, listy).

    Kde ľudia ukladajú informácie? (Navrhované odpovede : v pamäti a na externých médiách).
    Je štúdium na technickej škole o získavaní informácií? V škole ste študovali všeobecnovzdelávacie predmety, ale keď študujete na technickej škole, čo ešte získate? (Navrhovaná odpoveď: s odborné znalosti).Čím viac sa učíme, tým viac informácií obsahuje naša pamäť.

    Dnes vám ponúkam ďalšiu informáciu. Vyučil si sa ako banský operátor, budeš pracovať na bagroch EKG-8I. Aký je výkon tohto rýpadla. Na moju žiadosť mi závod poskytol nasledujúce informácie. (Výkon rýpadla - tabuľka)

    Odpadovou horninou (tisíc ton)

    Chlapci, je veľa informácií dobrých? Môžu byť všetky informácie užitočné a kvalitné? Čo by sme mali vedieť urobiť, aby sme sa nestratili v spleti informácií? (Očakávaná odpoveď študentov: "Musí byť schopný oddeliť užitočné, vysokokvalitné informácie od nekvalitných informácií.") Tie. vedieť to spracovať.

    ZÁVER: dnes sa na lekcii naučíme spracovávať informácie.

    3. Organizácia aktivít na štúdium nového materiálu.(študenti si robia poznámky do zošitov a počas vysvetľovania plnia úlohy)

    1. Definícia štatistiky

    Čo sú štatistiky? Hovorí sa, že anglický premiér Benjamin Disraeli (1804 - 1881) odpovedal na túto otázku takto: "Existujú tri druhy klamstiev: klamstvá, prekliate klamstvá a štatistiky."

    Štatistiky je exaktná veda, ktorá študuje metódy zberu, analýzy a spracovania údajov, ktoré popisujú hromadné akcie, javy a procesy.

    (Prečíta sa úryvok z románu „Dvanásť stoličiek“ od Ilfa a Petrova.

    „Štatistika vie všetko“, je známe, koľko jedla priemerný občan republiky za rok zje: je známe, koľko poľovníkov, baletiek: strojov, bicyklov, pamätníkov, majákov a šijacích strojov v krajine: Koľko života, plný náruživosti, vášní a myšlienok, pozerá na nás zo štatistických tabuliek!...“

    Jeho názov pochádza z latinského slova „status“ - štát, z tohto koreňa slová stato (taliansky), statistik (nemecky), state (anglicky) - štát.

    Štatistické štúdie:

    Hlavné ciele štúdia prvkov štatistiky:

    • počet jednotlivých skupín obyvateľstva krajiny a jej krajov,
    • výroba a spotreba rôznych druhov výrobkov,
    • preprava tovaru a osôb rôznymi druhmi dopravy,
    • prírodné zdroje a oveľa viac.

    Viete, v ktorej krajine sa začala štatistická prax (v Číne); prvé sčítanie obyvateľstva v krajine sa datuje do 5. storočia. II tisícročie pred naším letopočtom

    V 19. storočí bolo možné spracovávať údaje pomocou vzorcov, matematických zákonov a špeciálnych charakteristík. Toto?....( mat. štatistiky).

    2. Matematické štatistiky

    Matematické štatistiky je odvetvie matematiky, ktoré študuje metódy zhromažďovania, systematizácie a spracovania výsledkov pozorovaní náhodných hromadných javov s cieľom identifikovať existujúce vzorce.

    Prečo teda Disraeli porovnával štatistiky s klamstvami? (Neexistovalo žiadne vedecké, dôsledné spracovanie informácií, údaje si interpretoval ktokoľvek, ako chcel).

    Matematická štatistika má univerzálne metódy spracovania informácií
    To umožnilo hrdinom filmu „Office Romance“ povedať nasledujúce slová o štatistikách ( fragment filmu "Office Romance").
    ZÁVER: Štatistiky prinášajú informácie do systému.

    3. Grafické znázornenie informácií

    Distribučný polygón

    Histogram distribúcie

    Koláčový graf

    4. Charakteristiky merania
    1. Séria údajov je séria výsledkov akýchkoľvek meraní.

    Napríklad: 1) meranie ľudskej výšky

    2) Meranie hmotnosti ľudí (zvierat).

    3) Stavy meračov (elektrina, voda, teplo...)

    4) Výsledky v behu na 100 metrov

    2. Objem dátového radu - objem dátového radu je množstvo všetkých dát.

    Napríklad: daný rad čísel 1; 3; 6; -4; 0

    jeho objem bude rovný 5. Prečo?

    3. Rozsah radu údajov je rozdiel medzi najväčším a najmenším číslom z radu údajov.

    Napríklad: ak je daný rad čísel 1; 3; 6; -4; 0; 2, potom rozsah tento rad údajov sa bude rovnať 6 (pretože 6 – 0 = 6)

    4. Režim radu údajov - režim radu údajov je číslo radu, ktorý sa v tomto rade vyskytuje najčastejšie.

    Napríklad: p data jed môže alebo nemusí mať režim.

    V dátovom rade 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 sa teda každé z čísel 47 a 52 vyskytuje dvakrát a zvyšné čísla menej ako dvakrát. V takýchto prípadoch sa dohodlo, že séria má dva režimy: 47 a 52.

    5. Medián série

    Medián s nepárnym počtom členov je číslo napísané v strede.

    Medián s párnym počtom členov - toto je aritmetický priemer dvoch čísel napísaných v strede.

    Napríklad: určiť medián radu čísel

    16; -4; 5; -2; -3; 3; 3; -2; 3. Odpoveď: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. odpoveď: 0

    6. Aritmetický priemer je podiel delenia súčtu čísel v rade ich počtom.

    Napríklad: daný rad čísel -1; 0; 2; 1; -1; 0; 2; -1. Potom sa aritmetický priemer bude rovnať: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0,25

    4. Konsolidácia študovaného materiálu.

    Praktická práca

    Cvičenie: charakterizovať výkon študenta Petra Ivanova v matematike za štvrtý štvrťrok.

    Ukončenie práce:

    1. Zber informácií:

    Známky vypísané z časopisu sú: 5,4,5,3,3,5,4,4,4.

    2. Spracovanie prijatých údajov:

    Prednáška 12. Metódy štatistického spracovania výsledkov.

    Metódy štatistického spracovania výsledkov sa nazývajú matematické techniky, vzorce, metódy kvantitatívnych výpočtov, pomocou ktorých možno ukazovatele získané počas experimentu zovšeobecniť, uviesť do systému a odhaliť v nich skryté vzorce. Hovoríme o vzoroch štatistickej povahy, ktoré existujú medzi premennými študovanými v experimente.

    1. Metódy primárneho štatistického spracovania experimentálnych výsledkov

    Všetky metódy matematickej a štatistickej analýzy sa konvenčne delia na primárne a sekundárne. Primárne metódy sú tie, ktoré možno použiť na získanie ukazovateľov, ktoré priamo odrážajú výsledky meraní uskutočnených v experimente. Primárnymi štatistickými ukazovateľmi teda rozumieme tie, ktoré sa používajú v samotných psychodiagnostických metódach a sú výsledkom prvotného štatistického spracovania psychodiagnostických výsledkov. Sekundárne metódy sa nazývajú metódy štatistického spracovania, pomocou ktorých sa na základe primárnych údajov odhaľujú štatistické vzorce v nich skryté.

    Primárne metódy štatistického spracovania zahŕňajú napríklad stanovenie priemeru vzorky, rozptylu vzorky, módu vzorky a mediánu vzorky. Sekundárne metódy zvyčajne zahŕňajú korelačnú analýzu, regresnú analýzu a metódy na porovnávanie primárnych štatistík v dvoch alebo viacerých vzorkách.

    Uvažujme o metódach na výpočet elementárnej matematickej štatistiky.

    Móda Nazývajú kvantitatívnu hodnotu študovanej charakteristiky, ktorá sa najčastejšie nachádza vo vzorke.

    Medián je hodnota skúmanej charakteristiky, ktorá delí vzorku zoradenú podľa hodnoty tejto charakteristiky na polovicu.

    Ukážkový priemer(aritmetický priemer) ako štatistický ukazovateľ predstavuje priemerné hodnotenie psychologickej kvality študovanej v experimente.

    Rozptyľovať(niekedy sa táto hodnota nazýva rozsah) vzorky je označená písmenom R. Toto je najjednoduchší ukazovateľ, ktorý možno pre vzorku získať - rozdiel medzi maximálnymi a minimálnymi hodnotami tejto konkrétnej série variácií.

    Disperzia je aritmetický priemer druhej mocniny odchýlok hodnôt premennej od jej strednej hodnoty.

    2. Metódy sekundárneho štatistického spracovania experimentálnych výsledkov

    Pomocou sekundárnych metód štatistického spracovania experimentálnych dát sa hypotézy spojené s experimentom priamo testujú, dokazujú alebo vyvracajú. Tieto metódy sú spravidla zložitejšie ako metódy primárneho štatistického spracovania a vyžadujú si od výskumníka dobrú prípravu v elementárnej matematike a štatistike.

    Skupinu diskutovaných metód možno rozdeliť do niekoľkých podskupín:

    1 Regresný počet

    Regresný počet je metóda matematickej štatistiky, ktorá umožňuje zredukovať súkromné, rozptýlené údaje na nejaký lineárny graf, ktorý približne odráža ich vnútorný vzťah, a na základe hodnoty jednej z premenných vedieť približne odhadnúť pravdepodobnú hodnotu inej premennej. .

    2. Korelácia

    Ďalšia metóda sekundárneho štatistického spracovania, prostredníctvom ktorej sa zisťuje súvislosť alebo priama závislosť medzi dvoma sériami experimentálnych údajov, sa nazýva metóda korelácií. Ukazuje, ako jeden jav ovplyvňuje alebo súvisí s iným vo svojej dynamike. Závislosti tohto druhu existujú napríklad medzi veličinami, ktoré sú vo vzájomnom vzťahu príčina-následok. Ak sa ukáže, že dva javy spolu štatisticky významne korelujú a ak existuje istota, že jeden z nich môže pôsobiť ako príčina druhého javu, potom záver, že medzi nimi existuje vzťah príčiny a následku, je určite nasleduje.

    3 Faktorová analýza

    Faktorová analýza je štatistická metóda, ktorá sa používa pri spracovaní veľkého množstva experimentálnych údajov. Ciele faktorovej analýzy sú: zníženie počtu premenných (redukcia údajov) a určenie štruktúry vzťahov medzi premennými, t.j. klasifikácia premenných, preto sa faktorová analýza používa ako metóda redukcie údajov alebo ako metóda štrukturálnej klasifikácie.

    Kontrolné otázky

    1.Čo sú metódy štatistického spracovania?

    2.Na aké podskupiny sa delia sekundárne metódy štatistického spracovania?

    3.Vysvetlite podstatu korelačnej metódy?

    4. V akých prípadoch sa používajú štatistické metódy spracovania?

    5. Nakoľko efektívne je podľa vás využívanie metód štatistického spracovania vo vedeckom výskume?

    2. Zvážte vlastnosti metód štatistického spracovania údajov.

    Literatúra

    1.. Gorbatov D.S. Workshop o psychologickom výskume: Proc. príspevok. - Samara: "BAKHRAH - M", 2003. - 272 s.

    2. Ermolaev A.Yu. Matematická štatistika pre psychológov. - M.: Moskovský psychologický a sociálny inštitút: Flinta, 2003.336s.

    3. Kornilová T.V. Úvod do psychologického experimentu. Učebnica pre vysoké školy. M.: Vydavateľstvo CheRo, 2001.