Statistična obdelava podatkov. Statistična obdelava podatkov Definicija statistične obdelave podatkov

  • Diapozitiv 2

    • Statistika je eksaktna veda, ki proučuje metode zbiranja, analiziranja in obdelave podatkov, ki opisujejo množična dejanja, pojave in procese.
    • Matematična statistika je veja matematike, ki preučuje metode zbiranja, sistematiziranja in obdelave rezultatov opazovanj naključnih množičnih pojavov z namenom prepoznavanja obstoječih vzorcev.
  • Diapozitiv 3

    Statistične študije

    • število posameznih skupin prebivalstva države in njenih regij,
    • proizvodnja in poraba različnih vrst izdelkov,
    • prevoz blaga in potnikov z različnimi prevoznimi sredstvi,
    • naravne vire in še veliko več.
    • Rezultati statističnih študij se pogosto uporabljajo za praktične in znanstvene zaključke.
    • Trenutno se statistika začne preučevati že v Srednja šola, na univerzah pa je to obvezen predmet, saj je povezan s številnimi vedami in področji.
    • Da bi povečali število prodaj v trgovini, da bi izboljšali kakovost znanja v šoli, da bi državo premaknili k gospodarski rasti, je treba izvesti statistične študije in narediti ustrezne zaključke. In to bi moral biti sposoben vsakdo.
  • Diapozitiv 4

    Glavni cilji preučevanja elementov statistike

    • Oblikovanje veščin primarne obdelave statističnih podatkov;
    • slika in analiza kvantitativnih informacij, predstavljenih v različnih oblikah (v obliki tabel, diagramov, grafov realnih odvisnosti);
    • razvijanje idej o pomembnih statističnih idejah, in sicer: ideji ocenjevanja in ideji testiranja statističnih hipotez;
    • razvijanje sposobnosti primerjanja verjetnosti naključnih dogodkov z rezultati specifičnih poskusov.
  • Diapozitiv 5

    • Serije podatkov
    • Obseg serije podatkov
    • Obseg nizov podatkov
    • Način niza podatkov
    • Mediana serije
    • Povprečje
    • Urejene serije podatkov
    • Tabela porazdelitve podatkov
    • Naj povzamemo
    • Nominativne serije podatkov
    • Pogostost rezultatov
    • Odstotna frekvenca
    • Združevanje podatkov
    • Metode obdelave podatkov
    • Naj povzamemo
  • Diapozitiv 6

    Opredelitev

    • Niz podatkov je niz rezultatov nekaterih meritev.
    • Na primer: 1) merjenje človeške višine
    • 2) Meritve teže ljudi (živali).
    • 3) Odčitki števcev (elektrika, voda, toplota...)
    • 4) Rezultati v teku na 100 metrov
    • itd.
  • Diapozitiv 7

    • Obseg podatkovne serije je količina vseh podatkov.
    • Na primer: podana je vrsta števil 1; 3; 6; -4; 0
    • njegova prostornina bo enaka 5. Zakaj?
  • Diapozitiv 8

    Izpolnite nalogo

    • Določite obseg te serije.
    • Odgovor: 10
  • Diapozitiv 9

    Opredelitev

    • Obseg je razlika med največjim in najmanjšim številom v nizu podatkov.
    • Na primer: če je podana vrsta števil 1; 3; 6; -4; 0; 2, bo obseg te serije podatkov enak 6 (ker je 6 – 0 = 6)
  • Diapozitiv 10

    Izpolnite nalogo

    • Na inštitutu smo opravljali test iz višje matematike. V skupini je bilo 10 oseb, ki so prejele ustrezne ocene: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Določite obseg te serije.
    • Odgovor: 3
  • Diapozitiv 11

    Opredelitev

    • Način podatkovne serije je številka serije, ki se najpogosteje pojavlja v tej seriji.
    • Niz podatkov ima lahko ali pa tudi ne.
    • Tako se v nizu podatkov 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 vsako od števil 47 in 52 pojavi dvakrat, preostala števila pa manj kot dvakrat. V takih primerih je bilo dogovorjeno, da ima serija dva načina: 47 in 52.
  • Diapozitiv 12

    Izpolnite nalogo

    • Torej, v seriji podatkov
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 se vsako od števil 47 in 52 pojavi dvakrat, preostala števila pa manj kot dvakrat. V takih primerih je bilo dogovorjeno, da ima serija dva načina: 47 in 52.
    • Na inštitutu smo opravljali test iz višje matematike. V skupini je bilo 10 oseb, ki so prejele ustrezne ocene:
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Določite način te serije.
    • Odgovor: 4
  • Diapozitiv 13

    Opredelitev

    • Mediana z lihim številom členov je na sredini zapisano število.
    • Mediana s sodim številom členov je aritmetična sredina dveh na sredini zapisanih števil.
    • Na primer: določite mediano niza števil
    • 16; -4; 5; -2; -3; 3; 3; -2; 3. Odgovor: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. Odgovor: 0
  • Diapozitiv 14

    Izpolnite nalogo

    • Na inštitutu smo opravljali test iz višje matematike. V skupini je bilo 10 oseb, ki so prejele ustrezne ocene: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Določite mediano te vrste.
    • Odgovor: 4
  • Diapozitiv 15

    Opredelitev

    • Aritmetična sredina je količnik deljenja vsote števil v nizu z njihovim številom.
    • Na primer: podana je vrsta števil -1; 0; 2; 1; -1; 0; 2; -1. Potem bo aritmetična sredina enaka: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0,25
  • Diapozitiv 16

    Izpolnite nalogo

    • Na inštitutu smo opravljali test iz višje matematike. V skupini je bilo 10 oseb, ki so prejele ustrezne ocene: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Določite aritmetično sredino te serije.
    • Odgovor: 3.9
  • Diapozitiv 17

    Praktično delo

    • Naloga: označite uspešnost študenta Ivanova pri matematiki v četrtem četrtletju.
    • ZAKLJUČEK DELA:
    • 1. Zbiranje informacij:
    • Izpisane ocene iz revije so: 5,4,5,3,3,5,4,4,4.
    • 2. Obdelava prejetih podatkov:
    • prostornina = 9
    • razpon = 5 - 3 = 2
    • moda = 4
    • mediana = 3
    • aritmetična sredina =(5+4+5+3+3+5+4+4+4) : 9 ≈ 4
    • Značilnosti učne uspešnosti: učenec ni vedno pripravljen na lekcijo.
    • Večinoma študira z ocenami "4". Četrtina pride do "4".
  • Diapozitiv 18

    Na svojem

    • Najti moramo prostornino niza, obseg niza, modus, mediano in aritmetično sredino:
    • Kartica 1. 22,5; 23; 21,5; 22; 23.
    • Kartica 2. 6; -4; 5; -2; -3; 3; 3; -2; 3.
    • Kartica 3. 12.5; 12; 12; 12,5; 13; 12,5; 13.
    • Kartica 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • Kartica 5. 125; 130; 124; 131.
    • Kartica 6. 120; 100; 110.
  • Diapozitiv 19

    Preverimo

    • Kartica 1.
    • obseg vrstice = 5
    • obseg vrstice = 10
    • moda = 23
    • mediana = 21,5
    • aritmetična sredina = 13,3
    • Kartica 3.
    • obseg vrstice = 7
    • obseg serije = 1
    • način = 12,5
    • mediana = 12,5
    • aritmetična sredina = 12,5
    • kartica 2.
    • obseg vrstice = 9
    • obseg vrstice = 10
    • moda = 3
    • mediana = -3
    • aritmetična sredina = 1
    • Kartica 4.
    • obseg vrstice = 8
    • obseg vrstice = 3
    • način = -1
    • mediana = 0
    • aritmetična sredina = 0,25
  • Diapozitiv 20

    • Kartica 5.
    • obseg vrstice = 4
    • obseg vrstic = 7
    • moda = št
    • mediana = 127
    • aritmetična sredina =127,5
    • Kartica 6.
    • obseg vrstice = 3
    • razpon razpona = 20
    • moda = št
    • mediana = 100
    • aritmetična sredina = 110
  • Diapozitiv 21

    Opredelitev

    • Urejene podatkovne serije so serije, v katerih so podatki urejeni po nekem pravilu.
    • Kako urediti vrsto številk? (Števila zapiši tako, da vsako naslednje število ni manjše (ne več) od prejšnjega); ali zapišite nekaj imen "po abecedi" ...
  • Diapozitiv 22

    Izpolnite nalogo

    • Glede na niz števil:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • Razvrsti po naraščajočih številkah.
    • rešitev:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • Rezultat je urejena serija. Sami podatki se niso spremenili, spremenil se je le vrstni red, v katerem so prikazani.
  • Diapozitiv 23

    Opredelitev

    • Tabela porazdelitve podatkov je tabela urejenega niza, v kateri je namesto istega števila zapisano število ponovitev.
    • Nasprotno, če je distribucijska tabela znana, je mogoče sestaviti urejen niz podatkov.
    • Na primer:
    • Iz njega dobimo naslednje urejene serije:
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • Diapozitiv 24

    Izpolnite nalogo

    • V trgovini z žensko obutvijo so izvedli statistično raziskavo in sestavili ustrezno tabelo za ceno čevljev in število prodaj:
    • Cena (RUB): 500 1200 1500 1800 2000 2500
    • Količina: 8 9 14 15 3 1
    • Za te kazalnike morate najti statistične značilnosti:
    • ustvarite urejen niz podatkov
    • obseg podatkovnih nizov
    • obseg serije
    • modna serija
    • mediana serije
    • aritmetična sredina serije podatkov
  • Diapozitiv 25

    In odgovorite na naslednja vprašanja

    • Iz teh cenovnih kategorij, po kateri ceni naj trgovina ne prodaja čevljev?
    • Čevlji, po kakšni ceni naj se distribuirajo?
    • Kakšno ceno bi morali doseči?
  • Diapozitiv 26

    Naj povzamemo

    • Seznanili smo se z začetnimi pojmi, kako poteka statistična obdelava podatkov:
    • podatek je vedno rezultat neke meritve
    • Najdete lahko nekaj podatkov:
    • volumen, obseg, način, mediana in
    • povprečje
    • 3) lahko je katera koli vrsta podatkov
    • organizirati in sestaviti
    • tabela porazdelitve podatkov
  • Diapozitiv 27

    Opredelitev

    • Imenski niz podatkov NISO ŠTEVILSKI PODATKI, ampak npr. imena; nazivi; nominacije...
    • Na primer: seznam finalistov svetovnega prvenstva od leta 1930: Argentina, Češkoslovaška, Madžarska, Brazilija, Madžarska, Švedska, Češkoslovaška, Nemčija, Italija, Nizozemska, Nizozemska, Nemčija, Nemčija,
    • Argentina, Italija, Brazilija, Nemčija, Francija
  • Diapozitiv 28

    Izpolnite nalogo

    • Poiščite iz prejšnjega primera:
    • volumen vrste 2) način vrste
    • 3) ustvarite distribucijsko tabelo
    • Rešitev: prostornina = 18; moda – nemška ekipa.
  • Laboratorijsko delo št. 3. Statistična obdelava podatkov v sistemu MatLab

    Splošna navedba problema

    Glavni namen izvedbe laboratorijsko delo je seznanitev z osnovami dela s statistično obdelavo podatkov v okolju MatLAB.

    Teoretični del

    Primarna statistična obdelava podatkov

    Statistična obdelava podatkov temelji na primarnih in sekundarnih kvantitativnih metodah. Namen primarne obdelave statističnih podatkov je strukturiranje pridobljenih informacij, kar vključuje združevanje podatkov v zbirne tabele po različnih parametrih. Primarni podatki morajo biti predstavljeni v obliki, ki osebi omogoča približno oceno dobljenega nabora podatkov in identifikacijo informacij o porazdelitvi podatkov v dobljenem vzorcu podatkov, kot sta homogenost ali kompaktnost podatkov. Po primarni analizi podatkov se uporabijo metode sekundarne statistične obdelave podatkov, na podlagi katerih se določijo statistični vzorci v obstoječem nizu podatkov.

    Izvajanje primarne statistične analize podatkovnega niza vam omogoča, da pridobite znanje o naslednjem:

    Katera vrednost je najbolj značilna za vzorec? Za odgovor na to vprašanje so opredeljene mere osrednje težnje.

    Kako velik je razpon podatkov glede na to značilno vrednost, tj. kakšna je "mehkost" podatkov? V tem primeru se določijo mere variabilnosti.

    Opozoriti velja na dejstvo, da so statistični kazalniki centralne tendence in variabilnosti določeni samo na kvantitativnih podatkih.

    Mere centralne tendence– skupina vrednosti, okoli katere so združeni ostali podatki.Tako mere osrednje težnje posplošujejo niz podatkov, kar omogoča oblikovanje zaključkov tako o vzorcu kot celoti kot tudi vodenje primerjalna analiza različne vzorce med seboj.

    Recimo, da imamo vzorec podatkov, potem se meritve osrednje težnje ocenijo z naslednjimi indikatorji:

    1. Vzorčno povprečje je rezultat deljenja vsote vseh vrednosti vzorca z njihovim številom.Določeno s formulo (3.1).

    (3.1)

    Kje - jaz element izbora;

    n– število vzorčnih elementov.

    Vzorčna sredina zagotavlja največjo natančnost v procesu ocenjevanja osrednje tendence.

    Recimo, da imamo vzorec 20 ljudi. Elementi vzorca so podatki o povprečnem mesečnem dohodku posamezne osebe. Predpostavimo, da ima 19 ljudi povprečni mesečni dohodek 20 tisoč rubljev. in 1 oseba z dohodkom 300 tr. Skupni mesečni dohodek celotnega vzorca je 680 rubljev. Vzorčna sredina je v tem primeru S=34.


    2. Mediana– tvori vrednost, nad in pod katero je število različnih vrednosti enako, to je osrednja vrednost v zaporednem nizu podatkov. Določeno glede na sodo/liho število elementov v vzorcu z uporabo enačb (3.2) ali (3.3) Algoritem za ocenjevanje mediane za vzorec podatkov:

    Najprej so podatki razvrščeni (urejeni) v padajočem/naraščajočem vrstnem redu.

    Če ima urejen vzorec liho število elementov, potem mediana sovpada s centralno vrednostjo.

    (3.2)

    Kje n

    V primeru sodega števila elementov je mediana opredeljena kot aritmetična sredina dveh osrednjih vrednosti.

    (3.3)

    kjer je povprečni element naročenega vzorca;

    - element urejenega izbora poleg ;

    Število vzorčnih elementov.

    Če so vsi vzorčni elementi različni, potem je točno polovica vzorčnih elementov večjih od mediane, druga polovica pa manjših. Na primer, za vzorec (1, 5, 9, 15, 16) je mediana enaka elementu 9.

    Pri analizi statističnih podatkov mediana pomaga identificirati vzorčne elemente, ki močno vplivajo na vrednost vzorčne sredine.

    Recimo, da imamo vzorec 20 ljudi. Elementi vzorca so podatki o povprečnem mesečnem dohodku posamezne osebe. Predpostavimo, da ima 19 ljudi povprečni mesečni dohodek 20 tisoč rubljev. in 1 oseba z dohodkom 300 tr. Skupni mesečni dohodek celotnega vzorca je 680 rubljev. Mediana je po razvrstitvi vzorca definirana kot aritmetična sredina desetega in enajstega elementa vzorca) in je enaka Me = 20 tr. Ta rezultat se razlaga na naslednji način: mediana razdeli vzorec v dve skupini, tako da lahko sklepamo, da ima v prvi skupini vsaka oseba povprečni mesečni dohodek največ 20 tisoč rubljev, v drugi skupini pa ne manj kot 20 tisoč rubljev. . IN v tem primeru lahko rečemo, da je mediana značilna za to, koliko zasluži "povprečna" oseba. Medtem ko je vrednost vzorčnega povprečja bistveno presežena S=34, kar kaže na nesprejemljivost te lastnosti pri oceni povprečne plače.

    Torej, večja kot je razlika med mediano in vzorčnim povprečjem, večja je razpršenost vzorčnih podatkov (v obravnavanem primeru se oseba z dohodkom 300 rubljev jasno razlikuje od povprečnih ljudi v določenem vzorcu in ima pomembno vpliv na oceno povprečnega dohodka). Kaj storiti s takšnimi elementi, se odloča v vsakem posameznem primeru. Toda v splošnem primeru jih zaradi zagotavljanja zanesljivosti vzorca odstranimo, saj močno vplivajo na oceno statističnih kazalcev.

    3. Moda (Mo)– generira vrednost, ki se najpogosteje pojavlja v vzorcu, to je vrednost z najvišjo frekvenco Algoritem za ocenjevanje načina:

    V primeru, da vzorec vsebuje elemente, ki se pojavljajo enako pogosto, pravimo, da v takem vzorcu ni modusa.

    Če dva sosednji elementiČe imajo vzorci enako frekvenco, ki je večja od frekvence preostalih elementov vzorca, potem je mod definiran kot povprečje teh dveh vrednosti.

    Če imata dva vzorčna elementa enako frekvenco, ki je večja od frekvence preostalih vzorčnih elementov, in ta elementa nista sosednja, potem pravimo, da ima vzorec dva načina.

    Način v statistični analizi se uporablja v situacijah, ko je potrebna hitra ocena mere centralne tendence in ni potrebna visoka natančnost. Na primer, modo (glede na velikost ali blagovno znamko) je mogoče priročno uporabiti za določanje oblačil in obutve, po katerih so kupci v največjem povpraševanju.

    Mere razpršenosti (variabilnost)– skupina statističnih kazalcev, ki označujejo razlike med posameznimi vzorčnimi vrednostmi. Na podlagi kazalnikov mer razpršenosti je mogoče oceniti stopnjo homogenosti in kompaktnosti vzorčnih elementov. Mere disperzije so označene z naslednjim nizom indikatorjev:

    1. Razpon - to je interval med najvišjo in najmanjšo vrednostjo rezultatov opazovanja (vzorčni elementi). Indikator obsega označuje širjenje vrednosti v nizu podatkov. Če je razpon velik, potem so vrednosti v agregatu zelo razpršene, sicer (razpon je majhen) se reče, da so vrednosti v agregatu blizu druga drugi. Razpon je določen s formulo (3.4).

    (3.4)

    Kje - največji vzorčni element;

    - najmanjši vzorčni element.

    2.Povprečno odstopanje– razlika aritmetične sredine (v absolutni vrednosti) med vsako vrednostjo v vzorcu in njeno vzorčno sredino. Povprečno odstopanje je določeno s formulo (3.5).

    (3.5)

    Kje - jaz element izbora;

    Srednja vrednost vzorca, izračunana z uporabo formule (3.1);

    Število vzorčnih elementov.

    Modul potrebno zaradi dejstva, da so lahko odstopanja od povprečja za vsak določen element tako pozitivna kot negativna. Posledično, če ne vzamete modula, bo vsota vseh odstopanj blizu nič in ne bo mogoče oceniti stopnje variabilnosti podatkov (gneča podatkov okoli vzorčnega povprečja). Pri izvajanju statistične analize se lahko namesto vzorčnega povprečja vzameta način in mediana.

    3. Razpršenost- merilo razpršenosti, ki opisuje primerjalno odstopanje med vrednostmi podatkov in povprečno vrednostjo. Izračuna se kot vsota kvadratov odstopanj vsakega vzorčnega elementa od povprečne vrednosti. Odvisno od velikosti vzorca se oceni varianca različne poti:

    Za velike vzorce (n>30) po formuli (3.6)

    (3.6)

    Za majhne vzorce (n<30) по формуле (3.7)

    (3.7)

    kjer je X i i-ti vzorčni element;

    S – vzorčna sredina;

    Število vzorčnih elementov;

    (X i – S) - odstopanje od povprečne vrednosti za vsako vrednost nabora podatkov.

    4. Standardni odklon- merilo, kako široko so razpršene podatkovne točke glede na njihovo povprečje.

    Postopek kvadriranja posameznih odstopanj pri izračunu variance poveča stopnjo odstopanja nastalega odstopanja od prvotnih odstopanj, kar posledično prinaša dodatne napake. Da bi tako približali oceno širjenja podatkovnih točk glede na njihovo povprečje vrednosti povprečnega odstopanja, se vzame kvadratni koren variance. Ekstrahiran koren variance označuje mero variabilnosti, imenovano povprečni kvadrat ali standardni odklon (3.8).

    (3.8)

    Recimo, da ste vodja projekta razvoja programske opreme. Pod svojim poveljstvom imate pet programerjev. Z vodenjem procesa izvajanja projekta razdelite naloge med programerje. Za poenostavitev primera bomo izhajali iz dejstva, da so naloge enake po zahtevnosti in času dokončanja. Odločili ste se analizirati delo vsakega programerja (število opravljenih nalog v tednu) v zadnjih 10 tednih, zaradi česar ste prejeli naslednje vzorce:

    Ime tedna

    Z oceno povprečnega števila opravljenih nalog dobite naslednji rezultat:

    Ime tedna S
    22,3
    22,4
    22,2
    22,1
    22,5

    Na podlagi kazalnika S vsi programerji v povprečju delajo z enako učinkovitostjo (približno 22 nalog na teden). Vendar pa je kazalnik variabilnosti (razpon) zelo visok (od 5 nalog za četrtega programerja do 24 nalog za petega).

    Ime tedna S p
    22,3
    22,4
    22,2
    22,1
    22,5

    Ocenimo standardni odklon, ki kaže, kako so vrednosti v vzorcih porazdeljene glede na povprečje, in konkretno v našem primeru ocenimo, kako velik je razpon v dokončanju nalog iz tedna v teden.

    Ime tedna S p SO
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    Dobljena ocena standardnega odklona kaže naslednje (ocenjevali bomo dva skrajna primera, programerja 4 in 5):

    Vsaka vrednost v vzorcu 4 programerjev v povprečju odstopa za 1,3 pripisa od povprečne vrednosti.

    Vsaka vrednost v programerjevem vzorcu 5 v povprečju odstopa za 5,3 postavke od povprečne vrednosti.

    Bližje ko je standardno odstopanje 0, bolj zanesljivo je povprečje, saj kaže, da je vsaka vrednost v vzorcu skoraj enaka povprečju (v našem primeru 22,5 postavk). Zato je programator 4 najbolj dosleden, za razliko od programerja 5. Spremenljivost dokončanja nalog iz tedna v teden za 5. programerja je 5,3 naloge, kar kaže na precejšen razpon. Pri 5. programerju povprečju ni mogoče zaupati, zato je težko predvideti število opravljenih nalog za naslednji teden, kar posledično otežuje postopek načrtovanja in upoštevanje urnikov dela. Ni pomembno, kakšno vodstveno odločitev sprejmete v tem tečaju. Pomembno je, da prejmete oceno, na podlagi katere lahko sprejemate ustrezne vodstvene odločitve.

    Tako lahko na splošno sklepamo, da povprečje podatkov ne ovrednoti vedno pravilno. Pravilnost povprečne ocene lahko presojamo po vrednosti standardnega odklona.

    Metode za statistično obdelavo eksperimentalnih rezultatov so matematične tehnike, formule, metode kvantitativnih izračunov, s pomočjo katerih je mogoče kazalnike, pridobljene med poskusom, posplošiti, spraviti v sistem in razkriti skrite vzorce v njih.

    Govorimo o vzorcih statistične narave, ki obstajajo med spremenljivkami, preučevanimi v poskusu.

    podatki so osnovni elementi, ki jih je treba razvrstiti ali kategorizirati za namen obdelave 26 .

    Nekatere metode matematično-statistične analize omogočajo izračun tako imenovane elementarne matematične statistike, ki označuje vzorčno porazdelitev podatkov, na primer:

    Vzorčno povprečje,

    Varianca vzorca,

    Mediana in številni drugi.

    Druge metode matematične statistike omogočajo presojo dinamike sprememb posamezne vzorčne statistike, npr.

    Analiza variance,

    Regresijska analiza.

    Z uporabo tretje skupine podatkovnih metod vzorčenja je mogoče zanesljivo oceniti statistična razmerja, ki obstajajo med spremenljivkami, ki jih proučujemo v tem poskusu:

    Korelacijska analiza;

    Faktorska analiza;

    Primerjalne metode.

    Vse metode matematične in statistične analize so konvencionalno razdeljene na primarne in sekundarne 27 .

    Primarne metode so tiste, s katerimi je mogoče pridobiti kazalnike, ki neposredno odražajo rezultate meritev, izvedenih v poskusu.

    Sekundarne metode imenujemo metode statistične obdelave, s pomočjo katerih se na podlagi primarnih podatkov razkrijejo v njih skriti statistični vzorci.

    Primarne metode statistične obdelave vključujejo na primer:

    Določitev povprečja vzorca;

    Varianca vzorca;

    Selektivna moda;

    Vzorčna mediana.

    Sekundarne metode običajno vključujejo:

    Korelacijska analiza;

    regresijska analiza;

    Metode za primerjavo primarnih statistik v dveh ali več vzorcih.

    Razmislimo o metodah za izračun osnovne matematične statistike, začenši z vzorčnim povprečjem.

    Aritmetična sredina - je razmerje med vsoto vseh vrednosti podatkov in številom izrazov 28.

    Povprečna vrednost kot statistični kazalnik predstavlja povprečno oceno psihološke kakovosti, preučevane v eksperimentu.

    Ta ocena označuje stopnjo njegovega razvoja kot celote v skupini subjektov, ki so bili podvrženi psihodiagnostičnemu pregledu. Z neposredno primerjavo povprečnih vrednosti dveh ali več vzorcev lahko presojamo relativno stopnjo razvoja ocenjene kakovosti pri ljudeh, ki sestavljajo te vzorce.

    Vzorčno povprečje se določi z naslednjo formulo 29:

    kjer je x cf povprečje vzorca ali aritmetična sredina vzorca;

    n je število subjektov v vzorcu ali zasebnih psihodiagnostičnih indikatorjev, na podlagi katerih se izračuna povprečna vrednost;

    x k - zasebne vrednosti kazalnikov za posamezne predmete. Skupaj je takšnih indikatorjev n, zato ima indeks k te spremenljivke vrednosti od 1 do n;

    ∑ je znak, ki je v matematiki sprejet za seštevanje vrednosti tistih spremenljivk, ki so desno od tega znaka.

    Razpršenost je merilo širjenja podatkov glede na srednjo vrednost 30.

    Večja kot je varianca, večje je odstopanje ali širjenje podatkov. Določen je tako, da je mogoče med seboj razlikovati vrednosti, ki imajo enako povprečje, a različno razpršenost.

    Varianca je določena z naslednjo formulo:

    kje je vzorčna varianca ali preprosto varianca;

    Izraz, ki pomeni, da je treba za vse x k od prvega do zadnjega v danem vzorcu izračunati razlike med delnimi in povprečnimi vrednostmi, te razlike kvadrirati in jih sešteti;

    n je število subjektov v vzorcu ali primarnih vrednosti, iz katerih se izračuna varianca.

    Mediana je vrednost proučevane značilnosti, ki vzorec, urejen po vrednosti te značilnosti, deli na polovico.

    Poznavanje mediane je koristno za ugotavljanje, ali je porazdelitev delnih vrednosti proučevane značilnosti simetrična in se približuje tako imenovani normalni porazdelitvi. Povprečna vrednost in mediana za normalno porazdelitev sta običajno enaki ali zelo malo različni.

    Če je vzorčna porazdelitev značilnosti normalna, se lahko zanjo uporabijo metode sekundarnih statističnih izračunov, ki temeljijo na normalni porazdelitvi podatkov. V nasprotnem primeru tega ni mogoče storiti, saj se lahko v izračune prikradejo resne napake.

    Moda druga osnovna matematična statistika in značilnost porazdelitve eksperimentalnih podatkov. Mode je kvantitativna vrednost lastnosti, ki jo preučujemo, ki jo najpogosteje najdemo v vzorcu.

    Za simetrične porazdelitve funkcij, vključno z normalno porazdelitvijo, vrednosti načina sovpadajo z vrednostmi povprečja in mediane. Za druge vrste distribucij, asimetrične, to ni značilno.

    Metoda sekundarne statistične obdelave, s katero se ugotavlja povezava oziroma neposredna odvisnost med dvema serijama eksperimentalnih podatkov, se imenuje metoda korelacijske analize. Prikazuje, kako en pojav vpliva ali je povezan z drugim v svoji dinamiki. Tovrstne odvisnosti obstajajo na primer med količinami, ki so med seboj v vzročno-posledičnih razmerjih. Če se izkaže, da sta dva pojava med seboj statistično pomembno povezana in če obstaja prepričanje, da lahko eden od njiju deluje kot vzrok drugega pojava, potem je sklep, da med njima obstaja vzročno-posledična povezava, vsekakor sledi.

    Obstaja več vrst te metode:

    Linearna korelacijska analiza vam omogoča vzpostavitev neposrednih povezav med spremenljivkami na podlagi njihovih absolutnih vrednosti. Te povezave so grafično izražene z ravno črto, od tod tudi ime "linearne".

    Linearni korelacijski koeficient se določi z naslednjo formulo 31:

    kjer je r xy - linearni korelacijski koeficient;

    x, y - povprečne vzorčne vrednosti primerjanih vrednosti;

    X jaz ,y jaz - vrednosti zasebnih vzorcev primerjanih količin;

    P - skupno število vrednosti v primerjani seriji kazalnikov;

    Disperzije, odstopanja primerjanih vrednosti od povprečnih vrednosti.

    Korelacija ranga določa odvisnost ne med absolutnimi vrednostmi spremenljivk, temveč med rednimi mesti ali uvrstitvami, ki jih zasedajo v seriji, urejeni po vrednosti. Formula za korelacijski koeficient ranga je naslednja 32:

    kjer je R s korelacijski koeficient Spearmanovega ranga;

    d jaz - razlika med rangi indikatorjev istih predmetov v urejenih serijah;

    P -število predmetov ali digitalnih podatkov (rangov) v koreliranih serijah.

    Namen lekcije:
    - ustvarjanje pogojev za obvladovanje teme na ravni razumevanja in primarnega pomnjenja;
    - za oblikovanje matematične kompetence študentove osebnosti.

    Cilji lekcije
    Izobraževalni: oblikujejo predstavo o statistiki kot znanosti; seznani študente s pojmi osnovnih statističnih značilnosti; razvijajo sposobnost iskanja razpona in načina niza, analizirajo podatke in izboljšajo mentalne računske sposobnosti.
    Izobraževalni: spodbujati obvladovanje pojmov in njihove interpretacije; razvijanje nadpredmetnih zmožnosti analize, primerjanja, sistematizacije in posploševanja; nadaljevati oblikovanje predmetnega jezika, spodbujati oblikovanje ključnih kompetenc (kognitivnih, informacijskih, komunikacijskih) na različnih stopnjah pouka, spodbujati oblikovanje enotne znanstvene slike sveta med učenci z ugotavljanjem medpredmetnih povezav med statistiko in različnimi vedami.
    Izobraževalni: gojiti zanimanje za predmet, ki se preučuje, informacijsko kulturo; pripravljenost na upoštevanje splošno sprejetih norm in pravil, visoka učinkovitost in organiziranost.

    Uporabljene tehnologije: Tehnologija na študente osredotočenega učenja, informacijske in komunikacijske tehnologije.
    Potrebna oprema, materialov Kabina: multimedijski projektor, računalnik, interaktivna tabla.

    Med poukom

    1. Organizacijski trenutek.

    Preverjanje pripravljenosti učencev na pouk

    Preverjanje prisotnosti

    2. Postavljanje ciljev.

    Utemeljitev potrebe po študiju te teme

    Vključevanje učencev v proces postavljanja učnih ciljev

    Iz katerih virov prejemamo in zbiramo informacije? (Predlagani odgovori: radio, televizija, časopisi, revije, telefon, ljudje, internet, pisma).

    Kje ljudje shranjujejo informacije? (Predlagani odgovori : v pomnilniku in na zunanjem mediju).
    Je študij na tehnični šoli pridobivanje informacij? V šoli ste se učili splošnoizobraževalnih predmetov, ko pa študirate na tehnični šoli, kaj drugega dobite? (Predlagani odgovor: s strokovno znanje). Več kot se učimo, več informacij vsebuje naš spomin.

    Danes vam ponujam še en podatek. Izučeni ste za rudarskega strojnika, delali boste na bagrih EKG-8I. Kakšna je zmogljivost tega bagra. Na mojo zahtevo mi je obrat posredoval naslednje podatke. (Zmogljivost bagra - tabela)

    Po odpadnih kamninah (tisoč ton)

    Fantje, je veliko informacij dobro? So lahko vse informacije uporabne in kakovostne? Kaj bi morali znati narediti, da se ne bi izgubili v labirintu informacij? (Pričakovan odgovor učencev: "Mora biti sposoben ločiti uporabne, visokokakovostne informacije od nizkokakovostnih.") Tisti. biti sposoben obdelati.

    ZAKLJUČEK: danes se bomo v lekciji naučili obdelovati informacije.

    3. Organizacija dejavnosti za študij novega gradiva.(učenci si med razlago pišejo v zvezke in naloge rešujejo)

    1. Opredelitev statistike

    Kaj je statistika? Pravijo, da je angleški premier Benjamin Disraeli (1804 - 1881) na to vprašanje odgovoril takole: "Obstajajo tri vrste laži: laži, preklete laži in statistika."

    Statistika je eksaktna veda, ki proučuje metode zbiranja, analiziranja in obdelave podatkov, ki opisujejo množična dejanja, pojave in procese.

    (Prebere se odlomek iz romana "Dvanajst stolov" Ilfa in Petrova.

    »Statistika ve vse«, znano je, koliko hrane poje povprečni državljan republike na leto: znano je, koliko lovcev, balerin: strojev, koles, spomenikov, svetilnikov in šivalnih strojev v državi: Koliko življenja, polnega žara, strasti in misli, gleda na nas iz statističnih tabel!..«

    Njegovo ime izhaja iz latinske besede "status" - stanje, iz tega korena besede stato (ital.), statistik (nem.), state (angleško) - stanje.

    Statistične študije:

    Glavni cilji preučevanja elementov statistike:

    • število posameznih skupin prebivalstva države in njenih regij,
    • proizvodnja in poraba različnih vrst izdelkov,
    • prevoz blaga in potnikov z različnimi prevoznimi sredstvi,
    • naravne vire in še veliko več.

    Ali veste, v kateri državi se je začela statistična praksa (na Kitajskem), prvi popisi prebivalstva v državi segajo v 5. stoletje. II tisočletje pr

    V 19. stoletju je postalo mogoče podatke obdelovati z uporabo formul, matematičnih zakonov in posebnih karakteristik. To?.... ( mat. statistika).

    2. Statistika matematike

    Statistika matematike je veja matematike, ki preučuje metode zbiranja, sistematiziranja in obdelave rezultatov opazovanj naključnih množičnih pojavov z namenom prepoznavanja obstoječih vzorcev.

    Zakaj je torej Disraeli statistiko primerjal z lažmi? (Ni bilo znanstvene, stroge obdelave informacij; podatke si je interpretiral kdor koli je hotel).

    Matematična statistika ima univerzalne metode obdelave informacij
    To je tisto, kar je junakom filma "Office Romance" omogočilo, da rečejo naslednje besede o statistiki ( fragment filma "Office Romance").
    ZAKLJUČEK: Statistika prinaša informacije v sistem.

    3. Grafična predstavitev informacij

    Razdelitveni poligon

    Histogram porazdelitve

    Krožni diagram

    4. Merilne značilnosti
    1. Niz podatkov je niz rezultatov kakršnih koli meritev.

    Na primer: 1) merjenje človeške višine

    2) Meritve teže ljudi (živali).

    3) Odčitki števcev (elektrika, voda, toplota...)

    4) Rezultati v teku na 100 metrov

    2. Obseg podatkovne serije - obseg podatkovne serije je količina vseh podatkov.

    Na primer: podana vrsta števil 1; 3; 6; -4; 0

    njegova prostornina bo enaka 5. Zakaj?

    3. Razpon podatkovne serije je razlika med največjim in najmanjšim številom podatkovne serije.

    Na primer:če je podana serija števil 1; 3; 6; -4; 0; 2, torej Obseg ta niz podatkov bo enak 6 (ker je 6 - 0 = 6)

    4. Način podatkovne serije - način podatkovne serije je številka serije, ki se najpogosteje pojavlja v tej seriji.

    Na primer: str data poison ima lahko način ali pa tudi ne.

    Tako se v nizu podatkov 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 vsako od števil 47 in 52 pojavi dvakrat, preostala števila pa manj kot dvakrat. V takih primerih je bilo dogovorjeno, da ima serija dva načina: 47 in 52.

    5. Mediana serije

    Mediana z lihim številom členov je na sredini zapisano število.

    Mediana s sodim številom členov - to je aritmetična sredina dveh na sredini zapisanih števil.

    Na primer: določi mediano niza števil

    16; -4; 5; -2; -3; 3; 3; -2; 3. Odgovor: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. Odgovor: 0

    6. Aritmetična sredina je količnik deljenja vsote števil v vrsti z njihovim številom.

    Na primer: dana vrsta števil -1; 0; 2; 1; -1; 0; 2; -1. Potem bo aritmetična sredina enaka: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0,25

    4. Utrjevanje preučenega gradiva.

    Praktično delo

    Vaja: označite uspešnost učenca Petra Ivanova pri matematiki za četrto četrtletje.

    Dokončanje dela:

    1. Zbiranje informacij:

    Izpisane ocene iz revije so: 5,4,5,3,3,5,4,4,4.

    2. Obdelava prejetih podatkov:

    Predavanje 12. Metode statistične obdelave rezultatov.

    Metode statistične obdelave rezultatov se imenujejo matematične tehnike, formule, metode kvantitativnih izračunov, s pomočjo katerih je mogoče kazalnike, pridobljene med poskusom, posplošiti, prenesti v sistem in razkriti vzorce, skrite v njih. Govorimo o vzorcih statistične narave, ki obstajajo med spremenljivkami, preučevanimi v poskusu.

    1. Metode primarne statistične obdelave eksperimentalnih rezultatov

    Vse metode matematične in statistične analize so običajno razdeljene na primarne in sekundarne. Primarne metode so tiste, s katerimi je mogoče pridobiti kazalnike, ki neposredno odražajo rezultate meritev, izvedenih v poskusu. Skladno s tem pod primarnimi statističnimi indikatorji razumemo tiste, ki se uporabljajo v samih psihodiagnostičnih metodah in so rezultat začetne statistične obdelave psihodiagnostičnih rezultatov. Sekundarne metode imenujemo metode statistične obdelave, s pomočjo katerih se na podlagi primarnih podatkov razkrijejo v njih skriti statistični vzorci.

    Primarne metode statistične obdelave vključujejo na primer določanje vzorčne sredine, vzorčne variance, vzorčnega načina in vzorčne mediane. Sekundarne metode običajno vključujejo korelacijsko analizo, regresijsko analizo in metode za primerjavo primarnih statistik v dveh ali več vzorcih.

    Razmislimo o metodah za izračun elementarne matematične statistike.

    Moda Imenujejo kvantitativno vrednost preučevane lastnosti, ki jo najpogosteje najdemo v vzorcu.

    Mediana je vrednost proučevane značilnosti, ki vzorec, urejen po vrednosti te značilnosti, deli na polovico.

    Vzorčno povprečje(aritmetična sredina) vrednost kot statistični kazalec predstavlja povprečno oceno psihološke kvalitete, preučevane v eksperimentu.

    Razpršenost(včasih se ta vrednost imenuje razpon) vzorca je označena s črko R. To je najpreprostejši indikator, ki ga je mogoče dobiti za vzorec - razlika med najvišjo in najmanjšo vrednostjo te posebne serije variacij.

    Razpršenost je aritmetična sredina kvadratnih odstopanj vrednosti spremenljivke od njene srednje vrednosti.

    2. Metode sekundarne statistične obdelave eksperimentalnih rezultatov

    S pomočjo sekundarnih metod statistične obdelave eksperimentalnih podatkov se hipoteze, povezane z eksperimentom, neposredno preverjajo, dokazujejo ali ovržejo. Te metode so praviloma kompleksnejše od metod primarne statistične obdelave in zahtevajo od raziskovalca dobro osnovno matematično in statistično podkovanost.

    Obravnavano skupino metod lahko razdelimo na več podskupin:

    1 Regresijski račun

    Regresijski račun je metoda matematične statistike, ki vam omogoča reduciranje zasebnih, razpršenih podatkov na nek linearni graf, ki približno odraža njihovo notranje razmerje, in da lahko približno ocenite verjetno vrednost druge spremenljivke na podlagi vrednosti ene od spremenljivk. .

    2.Korelacija

    Naslednja metoda sekundarne statistične obdelave, s katero ugotavljamo povezavo oziroma neposredno odvisnost med dvema serijama eksperimentalnih podatkov, se imenuje metoda korelacije. Prikazuje, kako en pojav vpliva ali je povezan z drugim v svoji dinamiki. Tovrstne odvisnosti obstajajo na primer med količinami, ki so med seboj v vzročno-posledičnih razmerjih. Če se izkaže, da sta dva pojava med seboj statistično pomembno povezana in če obstaja prepričanje, da lahko eden od njiju deluje kot vzrok drugega pojava, potem je sklep, da med njima obstaja vzročno-posledična povezava, vsekakor sledi.

    3 Faktorska analiza

    Faktorska analiza je statistična metoda, ki se uporablja pri obdelavi velikih količin eksperimentalnih podatkov. Cilji faktorske analize so: zmanjšanje števila spremenljivk (redukcija podatkov) in ugotavljanje strukture odnosov med spremenljivkami, t.j. klasifikacijo spremenljivk, zato se faktorska analiza uporablja kot metoda redukcije podatkov ali kot metoda strukturne klasifikacije.

    Vprašanja za pregled

    1.Kaj so metode statistične obdelave?

    2. Na katere podskupine delimo sekundarne metode statistične obdelave?

    3.Pojasnite bistvo korelacijske metode?

    4. V katerih primerih se uporabljajo metode statistične obdelave?

    5. Kako učinkovita je po vašem mnenju uporaba metod statistične obdelave v znanstvenem raziskovanju?

    2. Upoštevajte značilnosti metod statistične obdelave podatkov.

    Literatura

    1.. Gorbatov D.S. Delavnica o psihološkem raziskovanju: Proc. dodatek. - Samara: "BAKHRAH - M", 2003. - 272 str.

    2. Ermolaev A.Yu. Matematična statistika za psihologe. - M.: Moskovski psihološki in socialni inštitut: Flinta, 2003.336 str.

    3. Kornilova T.V. Uvod v psihološki eksperiment. Učbenik za univerze. M.: Založba CheRo, 2001.