Statistické zpracování dat. Statistické zpracování dat Definice statistického zpracování dat

  • Snímek 2

    • Statistika je exaktní věda, která studuje metody sběru, analýzy a zpracování dat popisujících hromadné akce, jevy a procesy.
    • Matematická statistika je odvětví matematiky, které studuje metody sběru, systematizace a zpracování výsledků pozorování náhodných hromadných jevů za účelem identifikace existujících vzorců.
  • Snímek 3

    Statistické studie

    • počet jednotlivých skupin obyvatelstva země a jejích regionů,
    • výroba a spotřeba různých druhů výrobků,
    • přeprava zboží a cestujících různými druhy dopravy,
    • přírodní zdroje a mnoho dalšího.
    • Výsledky statistických studií jsou široce využívány pro praktické a vědecké závěry.
    • V současné době se statistika začíná studovat již v r střední škola, na vysokých školách je to povinný předmět, protože je spojen s mnoha vědami a obory.
    • Pro zvýšení počtu prodejů v obchodě, pro zlepšení kvality znalostí ve škole, pro posun země k ekonomickému růstu je nutné provést statistické studie a vyvodit příslušné závěry. A tohle by měl umět každý.
  • Snímek 4

    Hlavní cíle studia prvků statistiky

    • Formování dovedností v primárním zpracování statistických dat;
    • zobrazení a analýza kvantitativních informací prezentovaných v různých formách (ve formě tabulek, diagramů, grafů reálných závislostí);
    • rozvoj myšlenek o důležitých statistických myšlenkách, jmenovitě: myšlenka odhadu a myšlenka testování statistických hypotéz;
    • rozvíjení schopnosti porovnávat pravděpodobnosti výskytu náhodných událostí s výsledky konkrétních experimentů.
  • Snímek 5

    • Datová řada
    • Objem datové řady
    • Rozsah datových řad
    • Režim datové řady
    • Medián série
    • Průměrný
    • Objednané datové řady
    • Tabulka distribuce dat
    • Pojďme si to shrnout
    • Nominativní datové řady
    • Frekvence výsledku
    • Procentní frekvence
    • Seskupování dat
    • Metody zpracování dat
    • Pojďme si to shrnout
  • Snímek 6

    Definice

    • Datová řada je řada výsledků některých měření.
    • Například: 1) měření lidské výšky
    • 2) Měření hmotnosti lidí (zvířat).
    • 3) Stavy měřidel (elektřina, voda, teplo...)
    • 4) Výsledky v běhu na 100 metrů
    • Atd.
  • Snímek 7

    • Objem datové řady je množství všech dat.
    • Například: daná řada čísel 1; 3; 6; -4; 0
    • jeho objem bude roven 5. Proč?
  • Snímek 8

    Dokončete úkol

    • Určete objem této řady.
    • Odpověď: 10
  • Snímek 9

    Definice

    • Rozsah je rozdíl mezi největším a nejmenším číslem v datové řadě.
    • Například: pokud je uvedena řada čísel 1; 3; 6; -4; 0; 2, pak bude rozsah této datové řady roven 6 (protože 6 – 0 = 6)
  • Snímek 10

    Dokončete úkol

    • V ústavu jsme dělali test z vyšší matematiky. Ve skupině bylo 10 lidí a dostali odpovídající hodnocení: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určete rozsah této řady.
    • Odpověď: 3
  • Snímek 11

    Definice

    • Režim datové řady je číslo řady, která se v této řadě vyskytuje nejčastěji.
    • Datová řada může nebo nemusí mít režim.
    • V datové řadě 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 se tedy každé z čísel 47 a 52 vyskytuje dvakrát a zbývající čísla méně než dvakrát. V takových případech bylo dohodnuto, že série má dva režimy: 47 a 52.
  • Snímek 12

    Dokončete úkol

    • Tedy v datové řadě
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 každé z čísel 47 a 52 se objeví dvakrát a zbývající čísla méně než dvakrát. V takových případech bylo dohodnuto, že série má dva režimy: 47 a 52.
    • V ústavu jsme dělali test z vyšší matematiky. Ve skupině bylo 10 lidí a dostali příslušná hodnocení:
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určete režim této řady.
    • Odpověď: 4
  • Snímek 13

    Definice

    • Medián s lichým počtem členů je číslo napsané uprostřed.
    • Medián se sudým počtem členů je aritmetický průměr dvou čísel zapsaných uprostřed.
    • Například: určete medián řady čísel
    • 16; -4; 5; -2; -3; 3; 3; -2; 3. Odpověď: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. Odpověď: 0
  • Snímek 14

    Dokončete úkol

    • V ústavu jsme dělali test z vyšší matematiky. Ve skupině bylo 10 lidí a dostali odpovídající hodnocení: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určete medián této řady.
    • Odpověď: 4
  • Snímek 15

    Definice

    • Aritmetický průměr je podíl dělení součtu čísel v řadě jejich počtem.
    • Například: daná řada čísel -1; 0; 2; 1; -1; 0; 2; -1. Potom se aritmetický průměr bude rovnat: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0,25
  • Snímek 16

    Dokončete úkol

    • V ústavu jsme dělali test z vyšší matematiky. Ve skupině bylo 10 lidí a dostali odpovídající hodnocení: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Určete aritmetický průměr této řady.
    • Odpověď: 3.9
  • Snímek 17

    Praktická práce

    • Zadání: charakterizujte výkon studenta Ivanova v matematice za čtvrté čtvrtletí.
    • DOKONČENÍ PRÁCE:
    • 1. Sběr informací:
    • Známky vypsané z časopisu jsou: 5,4,5,3,3,5,4,4,4.
    • 2. Zpracování přijatých dat:
    • objem = 9
    • rozsah = 5 - 3 = 2
    • móda = 4
    • medián = 3
    • aritmetický průměr =(5+4+5+3+3+5+4+4+4) : 9 ≈ 4
    • Charakteristika studijního výkonu: student není vždy připraven na hodinu.
    • Většinou se učí se známkami „4“. Čtvrtina vyjde na „4“.
  • Snímek 18

    Na vlastní pěst

    • Musíme najít objem série, rozsah série, modus, medián a aritmetický průměr:
    • Karta 1. 22,5; 23; 21,5; 22; 23.
    • Karta 2. 6; -4; 5; -2; -3; 3; 3; -2; 3.
    • Karta 3. 12,5; 12; 12; 12,5; 13; 12,5; 13.
    • Karta 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • Karta 5. 125; 130; 124; 131.
    • Karta 6. 120; 100; 110.
  • Snímek 19

    Pojďme zkontrolovat

    • Karta 1.
    • objem řady = 5
    • rozsah řádků = 10
    • móda = 23
    • medián = 21,5
    • aritmetický průměr = 13,3
    • Karta 3.
    • objem řady = 7
    • rozsah série = 1
    • režim = 12,5
    • medián = 12,5
    • aritmetický průměr = 12,5
    • Karta 2.
    • objem řady = 9
    • rozsah řádků = 10
    • móda = 3
    • medián = -3
    • aritmetický průměr = 1
    • Karta 4.
    • objem řad = 8
    • rozsah řádku = 3
    • režim = -1
    • medián = 0
    • aritmetický průměr = 0,25
  • Snímek 20

    • Karta 5.
    • objem řady = 4
    • rozsah řádků = 7
    • móda = ne
    • medián = 127
    • aritmetický průměr = 127,5
    • Karta 6.
    • objem řady = 3
    • rozsah rozsahu = 20
    • móda = ne
    • medián = 100
    • aritmetický průměr = 110
  • Snímek 21

    Definice

    • Seřazené datové řady jsou řady, ve kterých jsou data uspořádána podle nějakého pravidla.
    • Jak uspořádat řadu čísel? (Zapište čísla tak, aby každé následující číslo nebylo menší (ne více) než předchozí); nebo si zapište některá jména „abecedně“...
  • Snímek 22

    Dokončete úkol

    • Vzhledem k řadě čísel:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • Seřaďte to vzestupně.
    • Řešení:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • Výsledkem je uspořádaná série. Data samotná se nezměnila, změnilo se pouze pořadí, ve kterém se zobrazují.
  • Snímek 23

    Definice

    • Tabulka rozložení dat je tabulka uspořádané série, ve které se místo opakování stejného čísla zaznamenává počet opakování.
    • Naopak, pokud je známa distribuční tabulka, lze sestavit uspořádanou řadu dat.
    • Například:
    • Z toho dostaneme následující uspořádané série:
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • Snímek 24

    Dokončete úkol

    • V prodejně dámské obuvi byl proveden statistický průzkum a byla sestavena odpovídající tabulka pro cenu obuvi a počet prodejů:
    • Cena (RUB): 500 1200 1500 1800 2000 2500
    • Množství: 8 9 14 15 3 1
    • Pro tyto ukazatele musíte najít statistické charakteristiky:
    • vytvořit uspořádanou řadu dat
    • objem datových řad
    • sériový rozsah
    • módní série
    • medián série
    • aritmetický průměr datové řady
  • Snímek 25

    A odpovězte na následující otázky

    • Z těchto cenových kategorií, za jakou cenu by obchod boty neměl prodávat?
    • Boty, za jakou cenu by se měly distribuovat?
    • Na jakou cenu byste se měli zaměřit?
  • Snímek 26

    Pojďme si to shrnout

    • Seznámili jsme se s počátečními koncepty, jak dochází ke statistickému zpracování dat:
    • data jsou vždy výsledkem nějakého měření
    • Lze najít řadu některých údajů:
    • objem, rozsah, režim, medián a
    • průměrný
    • 3) jakákoliv datová řada může být
    • organizovat a skládat
    • tabulka distribuce dat
  • Snímek 27

    Definice

    • Nominativní řada dat NENÍ ČÍSELNÁ ÚDAJE, ale např. jména; tituly; nominace...
    • Například: seznam finalistů mistrovství světa od roku 1930: Argentina, Československo, Maďarsko, Brazílie, Maďarsko, Švédsko, Československo, Německo, Itálie, Nizozemsko, Nizozemsko, Německo, Německo,
    • Argentina, Itálie, Brazílie, Německo, Francie
  • Snímek 28

    Dokončete úkol

    • Najít z předchozího příkladu:
    • objem řádku 2) režim řádku
    • 3) vytvořte distribuční tabulku
    • Řešení: objem = 18; móda – německý tým.
  • Laboratorní práce č. 3. Statistické zpracování dat v systému MatLab

    Obecné vyjádření problému

    Hlavní účel provedení laboratorní práce je seznámit se se základy práce se statistickým zpracováním dat v prostředí MatLAB.

    Teoretická část

    Primární statistické zpracování dat

    Statistické zpracování dat je založeno na primárních a sekundárních kvantitativních metodách. Účelem primárního zpracování statistických dat je strukturovat získané informace, což zahrnuje seskupování dat do souhrnných tabulek podle různých parametrů. Primární data musí být prezentována ve formátu, který osobě umožňuje provést přibližné posouzení výsledného souboru dat a identifikovat informace o rozložení dat ve výsledném vzorku dat, jako je homogenita nebo kompaktnost dat. Po primární analýze dat jsou aplikovány metody sekundárního statistického zpracování dat, na jejichž základě jsou stanoveny statistické vzorce v existujícím souboru dat.

    Provádění primární statistické analýzy na poli dat vám umožní získat znalosti o následujícím:

    Která hodnota je pro vzorek nejtypičtější? K zodpovězení této otázky jsou definovány míry centrální tendence.

    Jak velký je rozptyl dat vzhledem k této charakteristické hodnotě, tedy jaká je „fuzziness“ dat? V tomto případě se stanoví míry variability.

    Za zmínku stojí skutečnost, že statistické ukazatele centrální tendence a variability jsou stanoveny pouze na kvantitativních datech.

    Míry centrální tendence– skupina hodnot, kolem které je seskupen zbytek dat. Míry centrální tendence tedy zobecňují pole dat, což umožňuje vytvářet závěry jak o vzorku jako celku, tak o srovnávací analýza různé vzorky mezi sebou.

    Předpokládejme, že máme vzorek dat, pak jsou míry centrální tendence hodnoceny pomocí následujících ukazatelů:

    1. Ukázkový průměr je výsledkem dělení součtu všech hodnot vzorku jejich počtem. Určeno vzorcem (3.1).

    (3.1)

    kde - i prvek výběru;

    n– počet prvků vzorku.

    Výběrový průměr poskytuje největší přesnost v procesu odhadu centrální tendence.

    Řekněme, že máme vzorek 20 lidí. Vzorové prvky jsou informace o průměrném měsíčním příjmu každého člověka. Předpokládejme, že 19 lidí má průměrný měsíční příjem 20 tisíc rublů. a 1 osoba s příjmem 300 tr. Celkový měsíční příjem celého vzorku je 680 rublů. Průměr vzorku je v tomto případě S=34.


    2. Medián– tvoří hodnotu, nad a pod kterou je počet různých hodnot stejný, tj. jedná se o centrální hodnotu v sekvenční řadě dat. Určeno v závislosti na sudém/lichém počtu prvků ve vzorku pomocí vzorců (3.2) nebo (3.3).Algoritmus pro odhad mediánu pro vzorek dat:

    Nejprve jsou data seřazena (řazena) v sestupném/vzestupném pořadí.

    Pokud má uspořádaný vzorek lichý počet prvků, pak se medián shoduje s centrální hodnotou.

    (3.2)

    Kde n

    V případě sudého počtu prvků je medián definován jako aritmetický průměr dvou centrálních hodnot.

    (3.3)

    kde je průměrný prvek uspořádaného vzorku;

    - prvek uspořádaného výběru vedle ;

    Počet prvků vzorku.

    Pokud jsou všechny prvky vzorku různé, pak je přesně polovina prvků vzorku větší než medián a druhá polovina je menší. Například pro vzorek (1, 5, 9, 15, 16) je medián roven prvku 9.

    Při statistické analýze dat pomáhá medián identifikovat prvky vzorku, které výrazně ovlivňují hodnotu průměru vzorku.

    Řekněme, že máme vzorek 20 lidí. Vzorové prvky jsou informace o průměrném měsíčním příjmu každého člověka. Předpokládejme, že 19 lidí má průměrný měsíční příjem 20 tisíc rublů. a 1 osoba s příjmem 300 tr. Celkový měsíční příjem celého vzorku je 680 rublů. Medián je po seřazení vzorku definován jako aritmetický průměr desátého a jedenáctého prvku vzorku) a je roven Me = 20 tr. Tento výsledek se interpretuje následovně: medián rozděluje vzorek do dvou skupin, takže můžeme dojít k závěru, že v první skupině má každá osoba průměrný měsíční příjem ne více než 20 tisíc rublů a ve druhé skupině ne méně než 20 tisíc rublů . V v tomto příkladu můžeme říci, že medián je charakterizován tím, kolik vydělává „průměrný“ člověk. Hodnota výběrového průměru je přitom výrazně překročena S=34, což svědčí o nepřijatelnosti této charakteristiky při posuzování průměrného výdělku.

    Čím větší je tedy rozdíl mezi mediánem a průměrem vzorku, tím větší je rozptyl dat vzorku (v uvažovaném příkladu se osoba s příjmem 300 rublů jasně liší od průměrných lidí v konkrétním vzorku a má významný dopad na odhad průměrného příjmu). Co dělat s takovými prvky, se rozhoduje v každém jednotlivém případě. Ale v obecném případě, aby byla zajištěna spolehlivost vzorku, jsou odstraněny, protože mají silný vliv na hodnocení statistických ukazatelů.

    3. móda (po)– generuje hodnotu, která se ve vzorku vyskytuje nejčastěji, tj. hodnotu s nejvyšší frekvencí. Algoritmus odhadu režimu:

    V případě, že vzorek obsahuje prvky, které se vyskytují stejně často, říká se, že v takovém vzorku není žádný mód.

    Pokud dva sousední prvky vzorky mají stejnou frekvenci, která je větší než frekvence zbývajících prvků vzorku, pak je režim definován jako průměr těchto dvou hodnot.

    Pokud dva prvky vzorku mají stejnou frekvenci, která je větší než frekvence zbývajících prvků vzorku, a tyto prvky spolu nesousedí, pak se říká, že vzorek má dva režimy.

    Režim ve statistické analýze se používá v situacích, kdy je nutné rychlé posouzení míry centrální tendence a není vyžadována vysoká přesnost. Například módu (podle velikosti nebo značky) lze pohodlně použít k určení oblečení a obuvi, po kterých je mezi zákazníky největší poptávka.

    Míry rozptylu (variability)– skupina statistických ukazatelů charakterizujících rozdíly mezi hodnotami jednotlivých výběrových souborů. Na základě ukazatelů míry disperze lze posoudit stupeň homogenity a kompaktnosti prvků vzorku. Míry rozptylu jsou charakterizovány následujícím souborem ukazatelů:

    1. Rozsah - to je interval mezi maximální a minimální hodnotou výsledků pozorování (prvky vzorku). Indikátor rozsahu udává rozložení hodnot v sadě dat. Pokud je rozsah velký, pak jsou hodnoty v agregaci velmi rozptýlené, jinak (rozsah je malý) se říká, že hodnoty v agregaci leží blízko sebe. Rozsah je určen vzorcem (3.4).

    (3.4)

    Kde - maximální prvek vzorku;

    - minimální prvek vzorku.

    2.Průměrná odchylka– rozdíl aritmetického průměru (v absolutní hodnotě) mezi každou hodnotou ve vzorku a jejím průměrem vzorku. Průměrná odchylka je určena vzorcem (3.5).

    (3.5)

    kde - i prvek výběru;

    střední hodnota vzorku vypočtená pomocí vzorce (3.1);

    Počet prvků vzorku.

    Modul nezbytné vzhledem k tomu, že odchylky od průměru pro každý konkrétní prvek mohou být pozitivní i negativní. Pokud tedy modul nevezmete, součet všech odchylek se bude blížit nule a nebude možné posoudit míru variability dat (zahuštění dat kolem průměru vzorku). Při provádění statistické analýzy lze místo průměru vzorku použít modus a medián.

    3. Disperze- míra rozptylu, která popisuje srovnávací odchylku mezi hodnotami dat a průměrnou hodnotou. Vypočítá se jako součet čtverců odchylek každého prvku vzorku od průměrné hodnoty. V závislosti na velikosti vzorku se odhadne rozptyl různé způsoby:

    Pro velké vzorky (n>30) podle vzorce (3.6)

    (3.6)

    Pro malé vzorky (č<30) по формуле (3.7)

    (3.7)

    kde Xi je i-tý prvek vzorku;

    S – výběrový průměr;

    Počet prvků vzorku;

    (X i – S) - odchylka od průměrné hodnoty pro každou hodnotu souboru dat.

    4. Standardní odchylka-míra toho, jak široce rozptýlené datové body jsou vzhledem k jejich průměru.

    Proces kvadratury jednotlivých odchylek při výpočtu rozptylu zvyšuje míru odchylky výsledné odchylky od původních odchylek, což zase přináší další chyby. Aby se tedy odhad rozptylu datových bodů vzhledem k jejich průměru přiblížil hodnotě střední odchylky, bere se druhá odmocnina rozptylu. Extrahovaná odmocnina rozptylu charakterizuje míru variability nazývanou střední kvadratická hodnota neboli standardní odchylka (3.8).

    (3.8)

    Řekněme, že jste manažerem projektu vývoje softwaru. Máte pod velením pět programátorů. Řízením procesu realizace projektu rozdělujete úkoly mezi programátory. Pro zjednodušení příkladu budeme vycházet ze skutečnosti, že úkoly jsou si rovny ve složitosti a době dokončení. Rozhodli jste se analyzovat práci každého programátora (počet dokončených úkolů během týdne) za posledních 10 týdnů, v důsledku čehož jste obdrželi následující vzorky:

    Název týdne

    Odhadem průměrného počtu dokončených úkolů získáte následující výsledek:

    Název týdne S
    22,3
    22,4
    22,2
    22,1
    22,5

    Na základě indikátoru S pracují všichni programátoři v průměru se stejnou efektivitou (asi 22 úkolů za týden). Ukazatel variability (rozsah) je však velmi vysoký (od 5 úloh pro čtvrtého programátora po 24 úloh pro pátého).

    Název týdne S P
    22,3
    22,4
    22,2
    22,1
    22,5

    Pojďme odhadnout směrodatnou odchylku, která ukazuje, jak jsou hodnoty ve vzorcích rozděleny vzhledem k průměru, a konkrétně v našem případě odhadnout, jak velký je rozptyl v dokončení úkolu z týdne na týden.

    Název týdne S P TAK
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    Výsledný odhad směrodatné odchylky ukazuje následující (budeme vyhodnocovat dva extrémní případy, programátory 4 a 5):

    Každá hodnota ve vzorku 4 programátorů se odchyluje v průměru o 1,3 přiřazení od průměrné hodnoty.

    Každá hodnota v programátorském vzorku 5 se od průměrné hodnoty odchyluje v průměru o 5,3 položky.

    Čím blíže je směrodatná odchylka 0, tím je průměr spolehlivější, protože ukazuje, že každá hodnota ve vzorku se téměř rovná průměru (v našem příkladu 22,5 položek). Proto je programátor 4 nejkonzistentnější, na rozdíl od programátoru 5. Variabilita plnění úkolu z týdne na týden u 5. programátora je 5,3 úkolu, což svědčí o značném rozptylu. V případě 5. programátora nelze průměru věřit, a proto je obtížné předvídat počet splněných úkolů na příští týden, což následně komplikuje postup plánování a dodržování harmonogramů práce. Nezáleží na tom, jaké manažerské rozhodnutí v tomto kurzu učiníte. Je důležité, abyste obdrželi hodnocení, na jehož základě můžete činit vhodná manažerská rozhodnutí.

    Lze tedy vyvodit obecný závěr, že průměr ne vždy vyhodnocuje data správně. Správnost průměrného odhadu lze posoudit podle hodnoty směrodatné odchylky.

    Metody pro statistické zpracování experimentálních výsledků jsou matematické techniky, vzorce, metody kvantitativních výpočtů, s jejichž pomocí lze ukazatele získané během experimentu zobecnit, uvést do systému a odhalit v nich skryté zákonitosti.

    Hovoříme o vzorcích statistické povahy, které existují mezi proměnnými studovanými v experimentu.

    Data jsou základní prvky, které mají být klasifikovány nebo kategorizovány pro účely zpracování26.

    Některé z metod matematicko-statistické analýzy umožňují vypočítat tzv. elementární matematickou statistiku, která charakterizuje výběrové rozdělení dat, např.

    Ukázkový průměr,

    Vzorový rozptyl,

    Medián a řada dalších.

    Jiné metody matematické statistiky umožňují posuzovat dynamiku změn v jednotlivých výběrových statistikách, např.:

    analýza rozptylu,

    Regresní analýza.

    Pomocí třetí skupiny metod vzorkování dat lze spolehlivě posoudit statistické vztahy, které existují mezi proměnnými, které jsou v tomto experimentu studovány:

    Korelační analýza;

    Faktorová analýza;

    Srovnávací metody.

    Všechny metody matematické a statistické analýzy se konvenčně dělí na primární a sekundární 27 .

    Primární metody jsou ty, které lze použít k získání indikátorů, které přímo odrážejí výsledky měření provedených v experimentu.

    Sekundární metody se nazývají metody statistického zpracování, s jejichž pomocí se na základě primárních dat odhalují statistické vzorce v nich skryté.

    Mezi primární metody statistického zpracování patří např.

    Stanovení výběrového průměru;

    Rozptyl vzorku;

    Selektivní móda;

    Ukázkový medián.

    Sekundární metody obvykle zahrnují:

    Korelační analýza;

    Regresní analýza;

    Metody pro porovnání primárních statistik ve dvou nebo více vzorcích.

    Uvažujme metody pro výpočet elementární matematické statistiky, počínaje průměrem vzorku.

    Aritmetický průměr - je to poměr součtu všech datových hodnot k počtu členů 28.

    Průměrná hodnota jako statistický ukazatel představuje průměrné hodnocení psychologické kvality studované v experimentu.

    Toto hodnocení charakterizuje stupeň jeho vývoje jako celku ve skupině subjektů, které byly podrobeny psychodiagnostickému vyšetření. Přímým porovnáním průměrných hodnot dvou nebo více vzorků můžeme posoudit relativní stupeň vývoje posuzované kvality u osob tvořících tyto vzorky.

    Průměr vzorku se stanoví pomocí následujícího vzorce 29:

    kde x cf je výběrový průměr nebo aritmetický průměr vzorku;

    n je počet subjektů ve výběrovém souboru nebo soukromých psychodiagnostických ukazatelů, na jejichž základě je vypočtena průměrná hodnota;

    x k - soukromé hodnoty ukazatelů pro jednotlivé subjekty. Takových ukazatelů je celkem n, takže index k této proměnné nabývá hodnot od 1 do n;

    ∑ je znaménko akceptované v matematice pro sčítání hodnot těch proměnných, které jsou napravo od tohoto znaménka.

    Disperze je míra šíření dat vzhledem ke střední hodnotě 30.

    Čím větší je rozptyl, tím větší je odchylka nebo rozptyl dat. Je určeno tak, aby bylo možné od sebe odlišit hodnoty, které mají stejný průměr, ale jiný rozptyl.

    Rozptyl se určuje podle následujícího vzorce:

    kde je výběrový rozptyl nebo jednoduše rozptyl;

    Výraz, který znamená, že pro všechna x k od prvního do posledního v daném vzorku je nutné vypočítat rozdíly mezi dílčími a průměrnými hodnotami, umocnit tyto rozdíly a sečíst je;

    n je počet subjektů ve vzorku nebo primární hodnoty, ze kterých se vypočítá rozptyl.

    Medián je hodnota studované charakteristiky, která dělí vzorek seřazený podle hodnoty této charakteristiky na polovinu.

    Znalost mediánu je užitečná pro zjištění, zda rozdělení dílčích hodnot studované charakteristiky je symetrické a aproximuje tzv. normální rozdělení. Průměr a medián pro normální rozdělení jsou obvykle stejné nebo se od sebe velmi málo liší.

    Pokud je výběrové rozdělení znaků normální, lze na něj aplikovat metody sekundárních statistických výpočtů založené na normálním rozdělení dat. Jinak to nelze provést, protože se do výpočtů mohou vloudit závažné chyby.

    Móda další elementární matematická statistika a charakteristika rozložení experimentálních dat. Modus je kvantitativní hodnota studované charakteristiky, která se nejčastěji nachází ve vzorku.

    U symetrického rozdělení prvků, včetně normálního rozdělení, se hodnoty režimu shodují s hodnotami průměru a mediánu. Pro jiné typy rozvodů, asymetrické, to není typické.

    Nazývá se metoda sekundárního statistického zpracování, jejímž prostřednictvím se zjišťuje souvislost nebo přímá závislost mezi dvěma řadami experimentálních dat metoda korelační analýzy. Ukazuje, jak jeden jev ve své dynamice ovlivňuje nebo souvisí s jiným. Závislosti tohoto druhu existují například mezi veličinami, které jsou ve vzájemném vztahu příčina-následek. Pokud se ukáže, že dva jevy spolu statisticky významně korelují, a pokud existuje jistota, že jeden z nich může působit jako příčina druhého jevu, pak závěr, že mezi nimi existuje vztah příčiny a následku, je definitivní následuje.

    Existuje několik druhů této metody:

    Lineární korelační analýza umožňuje vytvořit přímé spojení mezi proměnnými na základě jejich absolutních hodnot. Tato spojení jsou graficky vyjádřena přímkou, odtud název „lineární“.

    Lineární korelační koeficient se určí pomocí následujícího vzorce 31:

    kde r xy - lineární korelační koeficient;

    x, y - průměrné vzorové hodnoty porovnávaných hodnot;

    X i ,y i - hodnoty soukromého vzorku porovnávaných veličin;

    P - celkový počet hodnot ve srovnávané řadě ukazatelů;

    Rozptyl, odchylky porovnávaných hodnot od průměrných hodnot.

    Korelace pořadí určuje závislost nikoli mezi absolutními hodnotami proměnných, ale mezi pořadovými místy nebo pořadími, které zaujímají v řadě uspořádané podle hodnoty. Vzorec pro koeficient pořadové korelace je následující 32:

    kde Rs je Spearmanův koeficient pořadové korelace;

    d i - rozdíl mezi pořadími ukazatelů stejných subjektů v uspořádaných řadách;

    P - počet subjektů nebo digitálních dat (pořadí) v korelovaných řadách.

    Účel lekce:
    - vytváření podmínek pro zvládnutí tématu na úrovni porozumění a primárního zapamatování;
    - pro formování matematické kompetence osobnosti žáka.

    Cíle lekce
    Vzdělávací: vytvořit si představu o statistikě jako vědě; seznámit studenty s pojmy základních statistických charakteristik; rozvíjet schopnost najít rozsah a režim série, analyzovat data a zlepšit mentální výpočetní schopnosti.
    Vzdělávací: podporovat zvládnutí pojmů a jejich interpretaci; rozvoj nadpředmětových dovedností analýzy, srovnávání, systematizace a zobecňování; pokračovat ve formování jazyka předmětu, podporovat utváření klíčových kompetencí (kognitivní, informační, komunikativní) v různých fázích vyučovací hodiny, podporovat vytváření jednotného vědeckého obrazu světa mezi studenty identifikací mezioborových souvislostí mezi statistikou a různými vědami.
    Vzdělávací: pěstovat zájem o studovaný předmět, informační kulturu; připravenost dodržovat obecně uznávané normy a pravidla, vysoká efektivita a organizace.

    Použité technologie: Technologie učení zaměřeného na studenta, informační a komunikační technologie.
    Nezbytné vybavení, materiálů Salon: multimediální projektor, počítač, interaktivní tabule.

    Během vyučování

    1. Organizační moment.

    Kontrola připravenosti žáků na vyučování

    Kontrola docházky

    2. Stanovení cíle.

    Zdůvodnění nutnosti nastudovat toto téma

    Zapojení studentů do procesu stanovování cílů lekce

    Z jakých zdrojů získáváme a shromažďujeme informace? (Navrhované odpovědi: rádio, televize, noviny, časopisy, telefon, lidé, internet, dopisy).

    Kde lidé ukládají informace? (Doporučené odpovědi : v paměti a na externím médiu).
    Je studium na technické škole o získávání informací? Ve škole jste studoval všeobecně vzdělávací předměty, ale když studujete na technické škole, co ještě získáte? (Navrhovaná odpověď: s odborné znalosti).Čím více se učíme, tím více informací obsahuje naše paměť.

    Dnes vám nabízím další informaci. Jste vyučen jako operátor těžby, budete pracovat na bagrech EKG-8I. Jaký je výkon tohoto bagru. Na mou žádost mi závod poskytl následující informace. (Výkon rypadla - tabulka)

    Odpadní horninou (tisíc tun)

    Chlapi, je spousta informací dobrých? Mohou být všechny informace užitečné a kvalitní? Co bychom měli umět, abychom se v bludišti informací neztratili? (Očekávaná odpověď studentů: „Musí být schopen oddělit užitečné, vysoce kvalitní informace od nekvalitních informací“). Tito. umět to zpracovat.

    ZÁVĚR: dnes se v lekci naučíme zpracovávat informace.

    3. Organizace činností ke studiu nového materiálu.(studenti si dělají poznámky do sešitů a během vysvětlování plní úkoly)

    1. Definice statistiky

    Co jsou statistiky? Říká se, že anglický premiér Benjamin Disraeli (1804 - 1881) na tuto otázku odpověděl takto: "Existují tři druhy lží: lži, zatracené lži a statistiky."

    Statistika je exaktní věda, která studuje metody sběru, analýzy a zpracování dat popisujících hromadné akce, jevy a procesy.

    (Přečte se úryvek z románu „Dvanáct židlí“ od Ilfa a Petrova.

    „Statistika ví všechno“, ví se, kolik jídla průměrný občan republiky sní za rok: ví se, kolik lovců, baletek: strojů, kol, pomníků, majáků a šicích strojů v zemi: Kolik života, plný nadšení, vášní a myšlenek, dívá se na nás ze statistických tabulek!...“

    Jeho název pochází z latinského slova „status“ - stát, z tohoto kořene slova stato (italsky), statistik (německy), state (anglicky) - stát.

    Statistické studie:

    Hlavní cíle studia prvků statistiky:

    • počet jednotlivých skupin obyvatelstva země a jejích regionů,
    • výroba a spotřeba různých druhů výrobků,
    • přeprava zboží a cestujících různými druhy dopravy,
    • přírodní zdroje a mnoho dalšího.

    Víte, ve které zemi začala statistická praxe (v Číně); první sčítání lidu v zemi se datuje do 5. století? II tisíciletí před naším letopočtem

    V 19. století bylo možné zpracovávat data pomocí vzorců, matematických zákonů a speciálních charakteristik. Tento?.... ( rohož. statistika).

    2. Matematické statistiky

    Matematické statistiky je obor matematiky, který studuje metody sběru, systematizace a zpracování výsledků pozorování náhodných hromadných jevů za účelem identifikace existujících vzorců.

    Proč tedy Disraeli přirovnal statistiky ke lžím? (Nedošlo k žádnému vědeckému, rigoróznímu zpracování informací, data si vykládal kdokoli, jak chtěl).

    Matematická statistika má univerzální metody zpracování informací
    To umožnilo hrdinům filmu „Office Romance“ říci následující slova o statistikách ( fragment filmu "Office Romance").
    ZÁVĚR: Statistiky přinášejí informace do systému.

    3. Grafické znázornění informací

    Distribuční polygon

    Histogram distribuce

    Výsečový graf

    4. Charakteristiky měření
    1. Série dat je série výsledků jakýchkoliv měření.

    Například: 1) měření lidské výšky

    2) Měření hmotnosti lidí (zvířat).

    3) Stavy měřidel (elektřina, voda, teplo...)

    4) Výsledky v běhu na 100 metrů

    2. Objem datové řady - objem datové řady je množství všech dat.

    Například: daná řada čísel 1; 3; 6; -4; 0

    jeho objem bude roven 5. Proč?

    3. Rozsah datové řady je rozdíl mezi největším a nejmenším číslem z datové řady.

    Například: pokud je dána řada čísel 1; 3; 6; -4; 0; 2, tedy rozsah tato datová řada bude rovna 6 (protože 6 - 0 = 6)

    4. Režim datové řady - režim datové řady je číslo řady, která se v této řadě vyskytuje nejčastěji.

    Například: p data jed může nebo nemusí mít režim.

    V datové řadě 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 se tedy každé z čísel 47 a 52 vyskytuje dvakrát a zbývající čísla méně než dvakrát. V takových případech bylo dohodnuto, že série má dva režimy: 47 a 52.

    5. Medián řady

    Medián s lichým počtem členů je číslo napsané uprostřed.

    Medián se sudým počtem členů - toto je aritmetický průměr dvou čísel napsaných uprostřed.

    Například: určení mediánu řady čísel

    16; -4; 5; -2; -3; 3; 3; -2; 3. Odpověď: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. Odpověď: 0

    6. Aritmetický průměr je podíl dělení součtu čísel v řadě jejich počtem.

    Například: dána řada čísel -1; 0; 2; 1; -1; 0; 2; -1. Potom se aritmetický průměr bude rovnat: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0,25

    4. Konsolidace studovaného materiálu.

    Praktická práce

    Cvičení: charakterizovat výkon studenta Petera Ivanova v matematice za čtvrté čtvrtletí.

    Dokončení díla:

    1. Sběr informací:

    Známky vypsané z časopisu jsou: 5,4,5,3,3,5,4,4,4.

    2. Zpracování přijatých dat:

    Přednáška 12. Metody statistického zpracování výsledků.

    Metody statistického zpracování výsledků se nazývají matematické techniky, vzorce, metody kvantitativních výpočtů, s jejichž pomocí lze ukazatele získané během experimentu zobecnit, uvést do systému a odhalit v nich skryté vzorce. Hovoříme o vzorcích statistické povahy, které existují mezi proměnnými studovanými v experimentu.

    1. Metody primárního statistického zpracování experimentálních výsledků

    Všechny metody matematické a statistické analýzy jsou konvenčně rozděleny na primární a sekundární. Primární metody jsou ty, které lze použít k získání indikátorů, které přímo odrážejí výsledky měření provedených v experimentu. Primárními statistickými ukazateli tedy rozumíme ty, které se používají v samotných psychodiagnostických metodách a jsou výsledkem prvotního statistického zpracování psychodiagnostických výsledků. Sekundární metody se nazývají metody statistického zpracování, s jejichž pomocí se na základě primárních dat odhalují statistické vzorce v nich skryté.

    Mezi primární metody statistického zpracování patří např. stanovení výběrového průměru, výběrového rozptylu, výběrového módu a výběrového mediánu. Sekundární metody obvykle zahrnují korelační analýzu, regresní analýzu a metody pro porovnání primárních statistik ve dvou nebo více vzorcích.

    Uvažujme metody pro výpočet elementární matematické statistiky.

    Móda Nazývají kvantitativní hodnotu studované charakteristiky, která se nejčastěji nachází ve vzorku.

    Medián je hodnota studované charakteristiky, která dělí vzorek seřazený podle hodnoty této charakteristiky na polovinu.

    Ukázkový průměr(aritmetický průměr) jako statistický ukazatel představuje průměrné hodnocení psychologické kvality studované v experimentu.

    Rozptyl(někdy se tato hodnota nazývá rozsah) vzorku je označena písmenem R. Jedná se o nejjednodušší ukazatel, který lze pro vzorek získat - rozdíl mezi maximálními a minimálními hodnotami této konkrétní řady variací.

    Disperze je aritmetický průměr druhých mocnin odchylek hodnot proměnné od její střední hodnoty.

    2. Metody sekundárního statistického zpracování experimentálních výsledků

    Pomocí sekundárních metod statistického zpracování experimentálních dat se hypotézy spojené s experimentem přímo testují, prokazují nebo vyvracejí. Tyto metody jsou zpravidla složitější než metody primárního statistického zpracování a vyžadují, aby výzkumník byl dobře vyškolen v elementární matematice a statistice.

    Skupinu diskutovaných metod lze rozdělit do několika podskupin:

    1 Regresní počet

    Regresní počet je metoda matematické statistiky, která umožňuje redukovat soukromá, rozptýlená data na nějaký lineární graf, který přibližně odráží jejich vnitřní vztah, a být schopen přibližně odhadnout pravděpodobnou hodnotu jiné proměnné na základě hodnoty jedné z proměnných. .

    2. Korelace

    Další metoda sekundárního statistického zpracování, pomocí které se zjišťuje souvislost nebo přímá závislost mezi dvěma řadami experimentálních dat, se nazývá metoda korelací. Ukazuje, jak jeden jev ve své dynamice ovlivňuje nebo souvisí s jiným. Závislosti tohoto druhu existují například mezi veličinami, které jsou ve vzájemném vztahu příčina-následek. Pokud se ukáže, že dva jevy spolu statisticky významně korelují, a pokud existuje jistota, že jeden z nich může působit jako příčina druhého jevu, pak závěr, že mezi nimi existuje vztah příčiny a následku, je definitivní následuje.

    3 Faktorová analýza

    Faktorová analýza je statistická metoda, která se používá při zpracování velkého množství experimentálních dat. Cíle faktorové analýzy jsou: snížení počtu proměnných (redukce dat) a stanovení struktury vztahů mezi proměnnými, tzn. klasifikace proměnných, takže faktorová analýza se používá jako metoda redukce dat nebo jako metoda strukturální klasifikace.

    Kontrolní otázky

    1.Co jsou metody statistického zpracování?

    2.Na jaké podskupiny se dělí sekundární metody statistického zpracování?

    3.Vysvětlete podstatu korelační metody?

    4. V jakých případech se používají statistické metody zpracování?

    5. Jak efektivní je podle vás využití metod statistického zpracování ve vědeckém výzkumu?

    2. Zvažte vlastnosti metod statistického zpracování dat.

    Literatura

    1.. Gorbatov D.S. Workshop o psychologickém výzkumu: Proc. příspěvek. - Samara: "BAKHRAH - M", 2003. - 272 s.

    2. Ermolaev A.Yu. Matematická statistika pro psychology. - M.: Moskevský psychologický a sociální institut: Flinta, 2003.336s.

    3. Kornilová T.V. Úvod do psychologického experimentu. Učebnice pro vysoké školy. M.: Nakladatelství CheRo, 2001.