Statistisk databehandling. Statistisk databehandling Statistisk databehandlingsdefinisjon

  • Lysbilde 2

    • Statistikk er en eksakt vitenskap som studerer metoder for å samle inn, analysere og behandle data som beskriver massehandlinger, fenomener og prosesser
    • Matematisk statistikk er en gren av matematikken som studerer metoder for å samle, systematisere og bearbeide resultatene av observasjoner av tilfeldige massefenomener for å identifisere eksisterende mønstre.
  • Lysbilde 3

    Statistikkstudier

    • antall individuelle befolkningsgrupper i landet og dets regioner,
    • produksjon og forbruk av ulike typer produkter,
    • transport av varer og passasjerer med ulike transportformer,
    • naturressurser og mye mer.
    • Resultatene fra statistiske studier er mye brukt for praktiske og vitenskapelige konklusjoner.
    • For øyeblikket begynner statistikk å studeres allerede i videregående skole, på universiteter er dette et obligatorisk emne, fordi det er knyttet til mange vitenskaper og felt.
    • For å øke antall salg i en butikk, for å forbedre kvaliteten på kunnskap i skolen, for å flytte landet mot økonomisk vekst, er det nødvendig å gjennomføre statistiske studier og trekke passende konklusjoner. Og alle burde kunne gjøre dette.
  • Lysbilde 4

    Hovedmålene med å studere elementene i statistikk

    • Dannelse av ferdigheter i primærbehandling av statistiske data;
    • bilde og analyse av kvantitativ informasjon presentert i forskjellige former (i form av tabeller, diagrammer, grafer over reelle avhengigheter);
    • utvikle ideer om viktige statistiske ideer, nemlig: ideen om estimering og ideen om å teste statistiske hypoteser;
    • utvikle evnen til å sammenligne sannsynlighetene for at tilfeldige hendelser skjer med resultatene av spesifikke eksperimenter.
  • Lysbilde 5

    • Dataserie
    • Dataserievolum
    • Utvalg av dataserier
    • Dataseriemodus
    • Median av serien
    • Gjennomsnitt
    • Bestilt dataserie
    • Datadistribusjonstabell
    • La oss oppsummere det
    • Nominative dataserier
    • Resultatfrekvens
    • Prosentvis frekvens
    • Gruppering av data
    • Databehandlingsmetoder
    • La oss oppsummere det
  • Lysbilde 6

    Definisjon

    • En dataserie er en serie resultater av noen målinger.
    • For eksempel: 1) måling av menneskelig høyde
    • 2) Menneskelige (dyre) vektmålinger
    • 3) Måleravlesninger (elektrisitet, vann, varme...)
    • 4) Resultater på 100 meter
    • Etc.
  • Lysbilde 7

    • Volumet av en dataserie er mengden av alle data.
    • For eksempel: gitt en serie med tall 1; 3; 6; -4; 0
    • volumet vil være lik 5. Hvorfor?
  • Lysbilde 8

    Fullfør oppgaven

    • Bestem volumet til denne serien.
    • Svar: 10
  • Lysbilde 9

    Definisjon

    • Område er forskjellen mellom de største og minste tallene i en dataserie.
    • For eksempel: hvis gitt en serie med tall 1; 3; 6; -4; 0; 2, da vil området til denne dataserien være lik 6 (siden 6 – 0 = 6)
  • Lysbilde 10

    Fullfør oppgaven

    • På instituttet tok vi en prøve i høyere matematikk. Det var 10 personer i gruppen, og de fikk tilsvarende rangeringer: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestem rekkevidden til denne serien.
    • Svar: 3
  • Lysbilde 11

    Definisjon

    • Modusen til en dataserie er nummeret på serien som forekommer oftest i denne serien.
    • En dataserie kan ha en modus eller ikke.
    • I dataseriene 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 forekommer således hvert av tallene 47 og 52 to ganger, og de resterende tallene mindre enn to ganger. I slike tilfeller ble det enighet om at serien har to moduser: 47 og 52.
  • Lysbilde 12

    Fullfør oppgaven

    • Altså i dataserien
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 hver av tallene 47 og 52 vises to ganger, og de resterende tallene mindre enn to ganger. I slike tilfeller ble det enighet om at serien har to moduser: 47 og 52.
    • På instituttet tok vi en prøve i høyere matematikk. Det var 10 personer i gruppen, og de fikk de riktige vurderingene:
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestem modusen for denne serien.
    • Svar: 4
  • Lysbilde 13

    Definisjon

    • En median med et oddetall av ledd er tallet skrevet i midten.
    • En median med et partall av ledd er det aritmetiske gjennomsnittet av de to tallene skrevet i midten.
    • For eksempel: Bestem medianen til en serie tall
    • 16; -4; 5; -2; -3; 3; 3; -2; 3. Svar: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. Svar: 0
  • Lysbilde 14

    Fullfør oppgaven

    • På instituttet tok vi en prøve i høyere matematikk. Det var 10 personer i gruppen, og de fikk tilsvarende rangeringer: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestem medianen for denne serien.
    • Svar: 4
  • Lysbilde 15

    Definisjon

    • Det aritmetiske gjennomsnittet er kvotienten for å dele summen av tallene i en serie med tallet deres.
    • For eksempel: gitt en serie med tall -1; 0; 2; 1; -1; 0; 2; -1. Da vil det aritmetiske gjennomsnittet være lik: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0,25
  • Lysbilde 16

    Fullfør oppgaven

    • På instituttet tok vi en prøve i høyere matematikk. Det var 10 personer i gruppen, og de fikk tilsvarende rangeringer: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestem det aritmetiske gjennomsnittet av denne serien.
    • Svar: 3.9
  • Lysbilde 17

    Praktisk jobb

    • Oppgave: karakterisere elev Ivanovs prestasjoner i matematikk for fjerde kvartal.
    • GJENNOMFØRING AV ARBEIDET:
    • 1. Innsamling av informasjon:
    • Karakterene skrevet ut fra bladet er: 5,4,5,3,3,5,4,4,4.
    • 2. Behandling av mottatte data:
    • volum = 9
    • område = 5 - 3 = 2
    • mote = 4
    • median = 3
    • aritmetisk gjennomsnitt =(5+4+5+3+3+5+4+4+4) : 9 ≈ 4
    • Kjennetegn på akademiske prestasjoner: eleven er ikke alltid klar for timen.
    • Stort sett studerer han med karakterene "4". En fjerdedel kommer ut til "4".
  • Lysbilde 18

    På egenhånd

    • Vi må finne volumet til serien, rekkevidden til serien, modusen, medianen og det aritmetiske gjennomsnittet:
    • Kort 1. 22,5; 23; 21,5; 22; 23.
    • Kort 2. 6; -4; 5; -2; -3; 3; 3; -2; 3.
    • Kort 3. 12,5; 12; 12; 12,5; 1. 3; 12,5; 1. 3.
    • Kort 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • Kort 5. 125; 130; 124; 131.
    • Kort 6. 120; 100; 110.
  • Lysbilde 19

    La oss sjekke

    • Kort 1.
    • radvolum = 5
    • rekkevidde = 10
    • mote = 23
    • median = 21,5
    • aritmetisk gjennomsnitt = 13,3
    • Kort 3.
    • radvolum = 7
    • rekkevidde = 1
    • modus = 12,5
    • median = 12,5
    • aritmetisk gjennomsnitt = 12,5
    • Kort 2.
    • radvolum = 9
    • rekkevidde = 10
    • mote = 3
    • median = -3
    • aritmetisk gjennomsnitt = 1
    • Kort 4.
    • radvolum = 8
    • rekkevidde = 3
    • modus = -1
    • median = 0
    • aritmetisk gjennomsnitt = 0,25
  • Lysbilde 20

    • Kort 5.
    • radvolum = 4
    • radområde = 7
    • mote = nei
    • median = 127
    • aritmetisk gjennomsnitt =127,5
    • Kort 6.
    • radvolum = 3
    • områdeområde = 20
    • mote = nei
    • median = 100
    • aritmetisk gjennomsnitt = 110
  • Lysbilde 21

    Definisjon

    • Ordnede dataserier er serier der dataene er ordnet etter en eller annen regel.
    • Hvordan ordne en serie med tall? (Skriv tallene slik at hvert påfølgende tall ikke er mindre (ikke mer) enn det forrige); eller skriv ned noen navn "alfabetisk"...
  • Lysbilde 22

    Fullfør oppgaven

    • Gitt en rekke tall:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • Sorter det i stigende tall.
    • Løsning:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • Resultatet er en bestilt serie. Selve dataene er ikke endret, bare rekkefølgen de vises i har endret seg.
  • Lysbilde 23

    Definisjon

    • En datadistribusjonstabell er en tabell over en ordnet serie der, i stedet for å gjenta det samme antallet, blir antall repetisjoner registrert.
    • Omvendt, hvis distribusjonstabellen er kjent, kan en ordnet serie med data kompileres.
    • For eksempel:
    • Fra den får vi følgende bestilte serie:
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • Lysbilde 24

    Fullfør oppgaven

    • I en dameskobutikk ble det utført statistiske undersøkelser og en tilsvarende tabell ble satt sammen for pris på sko og antall salg:
    • Pris (RUB): 500 1200 1500 1800 2000 2500
    • Antall: 8 9 14 15 3 1
    • For disse indikatorene må du finne statistiske egenskaper:
    • lage en ordnet serie med data
    • volum av dataserier
    • serieutvalg
    • moteserie
    • median av serien
    • aritmetisk gjennomsnitt av en dataserie
  • Lysbilde 25

    Og svar på følgende spørsmål

    • Fra disse priskategoriene, til hvilken pris bør ikke butikken selge skoene?
    • Sko, til hvilken pris skal det deles ut?
    • Hvilken pris bør du sikte på?
  • Lysbilde 26

    La oss oppsummere det

    • Vi ble kjent med de første konseptene for hvordan statistisk databehandling skjer:
    • data er alltid et resultat av en eller annen måling
    • En rekke data kan bli funnet:
    • volum, rekkevidde, modus, median og
    • gjennomsnitt
    • 3) enhver dataserie kan være
    • organisere og komponere
    • datafordelingstabell
  • Lysbilde 27

    Definisjon

    • Den nominative serien av data er IKKE NUMERISKE DATA, men for eksempel navn; titler; nominasjoner...
    • For eksempel: liste over VM-finalister siden 1930: Argentina, Tsjekkoslovakia, Ungarn, Brasil, Ungarn, Sverige, Tsjekkoslovakia, Tyskland, Italia, Nederland, Nederland, Tyskland, Tyskland,
    • Argentina, Italia, Brasil, Tyskland, Frankrike
  • Lysbilde 28

    Fullfør oppgaven

    • Finn fra forrige eksempel:
    • volum av rad 2) modus for rad
    • 3) lag en distribusjonstabell
    • Løsning: volum = 18; mote – tysk lag.
  • Laboratoriearbeid nr. 3. Statistisk databehandling i MatLab-systemet

    Generell beskrivelse av problemet

    Hovedformålet med utførelse laboratoriearbeid er å sette deg inn i det grunnleggende om arbeid med statistisk databehandling i MatLAB-miljøet.

    Teoretisk del

    Primær statistisk databehandling

    Statistisk databehandling er basert på primære og sekundære kvantitative metoder. Formålet med den primære behandlingen av statistiske data er å strukturere den innhentede informasjonen, som innebærer å gruppere dataene i sammendragstabeller i henhold til ulike parametere. Primærdata må presenteres i et format som gjør at en person kan foreta en omtrentlig vurdering av det resulterende datasettet og identifisere informasjon om datafordelingen til det resulterende datautvalget, for eksempel homogeniteten eller kompaktheten til dataene. Etter primærdataanalysen brukes metoder for sekundær statistisk databehandling, på grunnlag av hvilke statistiske mønstre i det eksisterende datasettet bestemmes.

    Ved å utføre primær statistisk analyse på en datamatrise kan du få kunnskap om følgende:

    Hvilken verdi er mest typisk for prøven? For å svare på dette spørsmålet defineres mål på sentral tendens.

    Hvor stor er spredningen av data i forhold til denne karakteristiske verdien, dvs. hva er "fuzziness" av dataene? I dette tilfellet bestemmes variabilitetsmål.

    Det er verdt å merke seg at statistiske indikatorer for sentral tendens og variabilitet kun bestemmes på kvantitative data.

    Mål for sentral tendens– en gruppe verdier som resten av dataene er gruppert rundt. Mål for sentrale tendenser generaliserer således datautvalget, noe som gjør det mulig å danne konklusjoner både om utvalget som helhet og å gjennomføre komparativ analyse forskjellige prøver med hverandre.

    Anta at vi har et datautvalg, så blir mål på sentral tendens vurdert av følgende indikatorer:

    1. Eksempel gjennomsnitt er resultatet av å dele summen av alle prøveverdier med antallet. Bestemt av formel (3.1).

    (3.1)

    Hvor - Jeg elementet i utvalget;

    n– antall prøveelementer.

    Prøvegjennomsnittet gir størst nøyaktighet i prosessen med å estimere sentral tendens.

    La oss si at vi har et utvalg på 20 personer. Eksempelelementene er informasjon om gjennomsnittlig månedsinntekt for hver person. La oss anta at 19 personer har en gjennomsnittlig månedlig inntekt på 20 tusen rubler. og 1 person med en inntekt på 300 tr. Den totale månedlige inntekten for hele prøven er 680 rubler. Prøvegjennomsnittet i dette tilfellet er S=34.


    2. Median– danner en verdi over og under som antallet forskjellige verdier er det samme, dvs. dette er den sentrale verdien i en sekvensiell serie med data. Bestemmes avhengig av partall/oddetall av elementer i prøven ved å bruke formler (3.2) eller (3.3). Algoritme for å estimere medianen for et datautvalg:

    Først av alt blir dataene rangert (ordnet) i synkende/stigende rekkefølge.

    Hvis den bestilte prøven har et oddetall av elementer, faller medianen sammen med den sentrale verdien.

    (3.2)

    Hvor n

    Ved et partall av elementer er medianen definert som det aritmetiske gjennomsnittet av de to sentrale verdiene.

    (3.3)

    hvor er gjennomsnittselementet i den bestilte prøven;

    - element i det bestilte utvalget ved siden av ;

    Antall prøveelementer.

    Hvis alle prøveelementene er forskjellige, er nøyaktig halvparten av prøveelementene større enn medianen, og den andre halvparten er mindre. For eksempel, for prøven (1, 5, 9, 15, 16), er medianen lik element 9.

    I statistisk dataanalyse hjelper medianen med å identifisere prøveelementer som i stor grad påvirker verdien av prøvegjennomsnittet.

    La oss si at vi har et utvalg på 20 personer. Eksempelelementene er informasjon om gjennomsnittlig månedsinntekt for hver person. La oss anta at 19 personer har en gjennomsnittlig månedlig inntekt på 20 tusen rubler. og 1 person med en inntekt på 300 tr. Den totale månedlige inntekten for hele prøven er 680 rubler. Medianen, etter bestilling av prøven, er definert som det aritmetiske gjennomsnittet av det tiende og ellevte elementet i prøven) og er lik Me = 20 tr. Dette resultatet tolkes som følger: medianen deler utvalget i to grupper, slik at vi kan konkludere med at i den første gruppen har hver person en gjennomsnittlig månedlig inntekt på ikke mer enn 20 tusen rubler, og i den andre gruppen ikke mindre enn 20 tusen rubler . I i dette eksemplet vi kan si at medianen er preget av hvor mye den «gjennomsnittlige» personen tjener. Mens verdien av utvalgets gjennomsnitt er betydelig overskredet S=34, noe som indikerer at denne egenskapen er uakseptabel ved vurdering av gjennomsnittlig inntjening.

    Jo større forskjellen er mellom medianen og prøvegjennomsnittet, desto større er spredningen av prøvedataene (i det betraktede eksemplet skiller en person med en inntekt på 300 rubler seg klart fra gjennomsnittet i et bestemt utvalg og har en betydelig innvirkning på anslaget for gjennomsnittlig inntekt). Hva som skal gjøres med slike elementer avgjøres i hvert enkelt tilfelle. Men i det generelle tilfellet, for å sikre påliteligheten til utvalget, fjernes de, siden de har sterk innflytelse på vurderingen av statistiske indikatorer.

    3. Mote (Mo)– genererer verdien som forekommer oftest i prøven, dvs. verdien med høyest frekvens. Modusestimeringsalgoritme:

    I tilfellet når en prøve inneholder elementer som forekommer like ofte, sies det at det ikke er noen modus i en slik prøve.

    Hvis to naboelementer samples har samme frekvens, som er større enn frekvensen til de gjenværende elementene i prøven, da defineres modusen som gjennomsnittet av disse to verdiene.

    Hvis to prøveelementer har samme frekvens, som er større enn frekvensen til de gjenværende prøveelementene, og disse elementene ikke er tilstøtende, så sies prøven å ha to moduser.

    Modus i statistisk analyse brukes i situasjoner der en rask vurdering av mål på sentral tendens er nødvendig og høy nøyaktighet ikke er nødvendig. For eksempel kan mote (etter størrelse eller merke) enkelt brukes til å finne ut hvilke klær og sko som er mest etterspurt blant kundene.

    Mål for spredning (variabilitet)– en gruppe statistiske indikatorer som karakteriserer forskjellene mellom individuelle utvalgsverdier. Basert på indikatorene for spredningsmålene kan graden av homogenitet og kompakthet av prøveelementene vurderes. Mål for spredning er preget av følgende sett med indikatorer:

    1. Område - dette er intervallet mellom maksimums- og minimumsverdiene for observasjonsresultatene (prøveelementer). Områdeindikatoren indikerer spredningen av verdier i datasettet. Hvis området er stort, er verdiene i aggregatet veldig spredt, ellers (området er lite) sies det at verdiene i aggregatet ligger nær hverandre. Området bestemmes av formel (3.4).

    (3.4)

    Hvor - maksimalt prøveelement;

    - minimum prøveelement.

    2.Gjennomsnittlig avvik– aritmetisk gjennomsnittsforskjell (i absolutt verdi) mellom hver verdi i utvalget og dets utvalgets gjennomsnitt. Gjennomsnittlig avvik bestemmes av formel (3.5).

    (3.5)

    Hvor - Jeg elementet i utvalget;

    Prøvemiddelverdien beregnet ved bruk av formel (3.1);

    Antall prøveelementer.

    Modul nødvendig på grunn av at avvik fra gjennomsnittet for hvert enkelt element kan være både positive og negative. Følgelig, hvis du ikke tar modulen, vil summen av alle avvik være nær null, og det vil være umulig å bedømme graden av datavariabilitet (crowding av data rundt prøvegjennomsnittet). Når du utfører statistisk analyse, kan modus og median tas i stedet for prøvegjennomsnittet.

    3. Spredning- et spredningsmål som beskriver det komparative avviket mellom dataverdier og gjennomsnittsverdien. Den beregnes som summen av kvadrerte avvik for hvert prøveelement fra gjennomsnittsverdien. Avhengig av utvalgsstørrelsen estimeres variansen forskjellige måter:

    For store prøver (n>30) i henhold til formel (3.6)

    (3.6)

    For små prøver (n<30) по формуле (3.7)

    (3.7)

    hvor Xi er det i-te prøveelementet;

    S – prøvegjennomsnitt;

    Antall prøveelementer;

    (X i – S) - avvik fra gjennomsnittsverdien for hver verdi av datasettet.

    4. Standardavvik-et mål på hvor vidt spredte datapunkter er i forhold til gjennomsnittet.

    Prosessen med å kvadrere individuelle avvik ved beregning av varians øker graden av avvik av det resulterende avviket fra de opprinnelige avvikene, som igjen introduserer ytterligere feil. For å bringe estimatet av spredningen av datapunkter i forhold til deres gjennomsnitt nærmere verdien av gjennomsnittsavviket, tas kvadratroten av variansen. Den ekstraherte roten av variansen karakteriserer et mål på variabiliteten kalt rotmiddelkvadrat eller standardavvik (3.8).

    (3.8)

    La oss si at du er leder for et programvareutviklingsprosjekt. Du har fem programmerere under kommandoen din. Ved å administrere prosjektgjennomføringsprosessen fordeler du oppgaver mellom programmerere. For å forenkle eksemplet vil vi ta utgangspunkt i at oppgavene er like i kompleksitet og gjennomføringstid. Du bestemte deg for å analysere arbeidet til hver programmerer (antall fullførte oppgaver i løpet av uken) i løpet av de siste 10 ukene, som et resultat av at du mottok følgende eksempler:

    Ukens navn

    Ved å estimere gjennomsnittlig antall fullførte oppgaver får du følgende resultat:

    Ukens navn S
    22,3
    22,4
    22,2
    22,1
    22,5

    Basert på S-indikatoren jobber alle programmerere i gjennomsnitt med samme effektivitet (ca. 22 oppgaver per uke). Variabilitetsindikatoren (rekkevidden) er imidlertid veldig høy (fra 5 oppgaver for den fjerde programmereren til 24 oppgaver for den femte).

    Ukens navn S P
    22,3
    22,4
    22,2
    22,1
    22,5

    La oss estimere standardavviket, som viser hvordan verdiene i prøvene er fordelt i forhold til gjennomsnittet, og spesifikt, i vårt tilfelle, estimere hvor stor spredningen i oppgavefullføring er fra uke til uke.

    Ukens navn S P
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    Det resulterende estimatet av standardavviket indikerer følgende (vi vil evaluere to ekstreme tilfeller, programmerere 4 og 5):

    Hver verdi i utvalget på 4 programmerere avviker i gjennomsnitt med 1,3 tilordninger fra gjennomsnittsverdien.

    Hver verdi i programmererens prøve 5 avviker i gjennomsnitt med 5,3 elementer fra gjennomsnittsverdien.

    Jo nærmere standardavviket er 0, jo mer pålitelig er gjennomsnittet, siden det indikerer at hver verdi i utvalget er nesten lik gjennomsnittet (i vårt eksempel, 22,5 elementer). Derfor er programmerer 4 den mest konsistente, i motsetning til programmerer 5. Variasjonen av oppgavefullføring fra uke til uke for den 5. programmereren er 5,3 oppgaver, noe som indikerer en betydelig spredning. Når det gjelder den femte programmereren, kan gjennomsnittet ikke stoles på, og derfor er det vanskelig å forutsi antall fullførte oppgaver for neste uke, noe som igjen kompliserer planleggingsprosedyren og overholdelse av arbeidsplaner. Det spiller ingen rolle hvilken ledelsesbeslutning du tar i dette kurset. Det er viktig at du får en vurdering som du kan ta hensiktsmessige ledelsesbeslutninger på grunnlag av.

    Dermed kan det trekkes en generell konklusjon at gjennomsnittet ikke alltid evaluerer dataene riktig. Riktigheten av gjennomsnittsestimatet kan bedømmes ut fra verdien av standardavviket.

    Metoder for statistisk behandling av eksperimentelle resultater er matematiske teknikker, formler, metoder for kvantitative beregninger, ved hjelp av hvilke indikatorer oppnådd under et eksperiment kan generaliseres, bringes inn i et system og avsløre skjulte mønstre i dem.

    Vi snakker om mønstre av statistisk karakter som eksisterer mellom variablene som er studert i eksperimentet.

    Data er de grunnleggende elementene som skal klassifiseres eller kategoriseres for behandlingsformål 26 .

    Noen av metodene for matematisk-statistisk analyse gjør det mulig å beregne den såkalte elementære matematiske statistikken som karakteriserer prøvefordelingen av data, for eksempel:

    Eksempel gjennomsnitt,

    Prøveavvik,

    Median og en rekke andre.

    Andre metoder for matematisk statistikk gjør det mulig å bedømme dynamikken til endringer i individuell prøvestatistikk, for eksempel:

    Analyse av varianter,

    Regresjonsanalyse.

    Ved å bruke den tredje gruppen av samplingsdatametoder kan man pålitelig bedømme de statistiske sammenhengene som eksisterer mellom variablene som er studert i dette eksperimentet:

    Korrelasjonsanalyse;

    Faktor analyse;

    Sammenligningsmetoder.

    Alle metoder for matematisk og statistisk analyse er konvensjonelt delt inn i primær og sekundær 27 .

    Primære metoder er de som kan brukes til å få indikatorer som direkte gjenspeiler resultatene av målinger gjort i et eksperiment.

    Sekundære metoder kalles statistiske behandlingsmetoder, ved hjelp av hvilke statistiske mønstre som er skjult i dem, på grunnlag av primærdata, avsløres.

    Primære metoder for statistisk behandling inkluderer for eksempel:

    Bestemmelse av prøvegjennomsnitt;

    Prøveavvik;

    Selektiv mote;

    Prøvemedian.

    Sekundære metoder inkluderer vanligvis:

    Korrelasjonsanalyse;

    Regresjonsanalyse;

    Metoder for å sammenligne primærstatistikk i to eller flere utvalg.

    La oss vurdere metoder for å beregne elementær matematisk statistikk, og starter med prøvegjennomsnittet.

    Aritmetisk gjennomsnitt - det er forholdet mellom summen av alle dataverdier og antall ledd 28.

    Gjennomsnittsverdien som statistisk indikator representerer gjennomsnittsvurderingen av den psykologiske kvaliteten studert i forsøket.

    Denne vurderingen karakteriserer graden av utviklingen som helhet i gruppen av forsøkspersoner som ble gjenstand for en psykodiagnostisk undersøkelse. Ved direkte å sammenligne gjennomsnittsverdiene til to eller flere prøver, kan vi bedømme den relative graden av utvikling av den vurderte kvaliteten hos personene som utgjør disse prøvene.

    Prøvegjennomsnittet bestemmes ved å bruke følgende formel 29:

    hvor x cf er prøvegjennomsnittet eller det aritmetiske gjennomsnittet av prøven;

    n er antall forsøkspersoner i utvalget eller private psykodiagnostiske indikatorer som gjennomsnittsverdien beregnes på grunnlag av;

    x k - private verdier av indikatorer for individuelle fag. Det er n slike indikatorer totalt, så indeksen k til denne variabelen tar verdier fra 1 til n;

    ∑ er tegnet som er akseptert i matematikk for å summere verdiene til de variablene som er til høyre for dette tegnet.

    Spredning er et mål på spredningen av data i forhold til middelverdien på 30.

    Jo større variansen er, desto større avvik eller spredning av dataene. Det er bestemt slik at det er mulig å skille fra hverandre verdier som har samme gjennomsnitt, men forskjellig spredning.

    Variansen bestemmes av følgende formel:

    hvor er prøvevariansen, eller ganske enkelt varians;

    Et uttrykk som betyr at for alle x k fra den første til den siste i en gitt prøve, er det nødvendig å beregne forskjellene mellom partial- og gjennomsnittsverdiene, kvadrere disse forskjellene og summere dem;

    n er antall forsøkspersoner i utvalget eller primærverdiene som variansen beregnes ut fra.

    Median er verdien av karakteristikken som studeres, som deler prøven, sortert etter verdien av denne karakteristikken, i to.

    Å kjenne medianen er nyttig for å bestemme om fordelingen av delverdier av den studerte karakteristikken er symmetrisk og tilnærmet den såkalte normalfordelingen. Gjennomsnittet og medianen for en normalfordeling er vanligvis like eller svært lite forskjellige fra hverandre.

    Hvis prøvefordelingen av funksjoner er normal, kan metoder for sekundære statistiske beregninger basert på normalfordelingen av data brukes på den. Ellers kan dette ikke gjøres, da det kan snike seg alvorlige feil inn i beregningene.

    Mote en annen elementær matematisk statistikk og karakteristikk av fordelingen av eksperimentelle data. Modus er den kvantitative verdien av egenskapen som studeres, som oftest finnes i utvalget.

    For symmetriske fordelinger av funksjoner, inkludert normalfordelingen, faller modusverdiene sammen med verdiene til gjennomsnittet og medianen. For andre typer distribusjoner, asymmetriske, er dette ikke typisk.

    Metoden for sekundær statistisk prosessering, gjennom hvilken forbindelsen eller direkte avhengighet mellom to serier av eksperimentelle data bestemmes, kalles korrelasjonsanalysemetode. Den viser hvordan ett fenomen påvirker eller er relatert til et annet i sin dynamikk. Avhengigheter av denne typen eksisterer for eksempel mellom mengder som står i årsak-virkningsforhold til hverandre. Hvis det viser seg at to fenomener er statistisk signifikant korrelert med hverandre, og hvis det er tillit til at ett av dem kan fungere som en årsak til det andre fenomenet, så er konklusjonen at det er en årsak-virkning-sammenheng mellom dem definitivt følger.

    Det er flere varianter av denne metoden:

    Lineær korrelasjonsanalyse lar deg etablere direkte forbindelser mellom variabler basert på deres absolutte verdier. Disse forbindelsene uttrykkes grafisk med en rett linje, derav navnet "lineær".

    Den lineære korrelasjonskoeffisienten bestemmes ved å bruke følgende formel 31:

    hvor r xy - lineær korrelasjonskoeffisient;

    x, y - gjennomsnittlige prøveverdier av de sammenlignede verdiene;

    X Jeg ,y Jeg - private prøveverdier av sammenlignede mengder;

    P - det totale antallet verdier i den sammenlignede serien av indikatorer;

    Dispersjoner, avvik av sammenlignede verdier fra gjennomsnittsverdier.

    Rangekorrelasjon bestemmer avhengigheten ikke mellom de absolutte verdiene til variabler, men mellom de ordinære stedene, eller rekkene, okkupert av dem i en serie ordnet etter størrelse. Formelen for rangkorrelasjonskoeffisienten er som følger 32:

    hvor Rs er Spearman rangkorrelasjonskoeffisienten;

    d Jeg - forskjellen mellom rekkene av indikatorer for de samme fagene i ordnede serier;

    P - antall emner eller digitale data (ranger) i korrelerte serier.

    Hensikten med leksjonen:
    - skape forhold for å mestre emnet på nivået av forståelse og primær memorering;
    - for dannelse av matematisk kompetanse av studentens personlighet.

    Leksjonens mål
    Pedagogisk: danne en idé om statistikk som en vitenskap; gjøre studentene kjent med begrepene grunnleggende statistiske egenskaper; utvikle evnen til å finne rekkevidden og modusen til en serie, analysere data og forbedre mentale beregningsferdigheter.
    Pedagogisk: fremme mestring av konsepter og deres tolkning; utvikling av supra-fag ferdigheter for analyse, sammenligning, systematisering og generalisering; fortsette dannelsen av fagspråk, fremme dannelsen av nøkkelkompetanser (kognitiv, informativ, kommunikativ) på ulike stadier av leksjonen, fremme dannelsen av et enhetlig vitenskapelig bilde av verden blant elevene ved å identifisere tverrfaglige forbindelser mellom statistikk og ulike vitenskaper.
    Pedagogisk: dyrke interesse for emnet som studeres, informasjonskultur; beredskap til å følge allment aksepterte normer og regler, høy effektivitet og organisering.

    Teknologier som brukes: Teknologi for studentsentrert læring, informasjons- og kommunikasjonsteknologi.
    Nødvendig utstyr, materialer: multimediaprojektor, datamaskin, interaktiv tavle.

    I løpet av timene

    1. Organisatorisk øyeblikk.

    Sjekke elevenes beredskap for timen

    Sjekker oppmøte

    2. Målsetting.

    Begrunnelse for behovet for å studere dette emnet

    Involvere elevene i prosessen med å sette leksjonsmål

    Fra hvilke kilder mottar og samler vi informasjon? (Foreslåtte svar: radio, fjernsyn, aviser, magasiner, telefon, folk, Internett, brev).

    Hvor lagrer folk informasjon? (Foreslåtte svar : i minnet og på eksterne medier).
    Handler det om å skaffe informasjon å studere ved en teknisk skole? På skolen studerte du allmennpedagogiske fag, men når du studerer på en teknisk skole, hva mer får du? (Foreslått svar: s profesjonell kunnskap). Jo mer vi lærer, jo mer informasjon inneholder minnet vårt.

    I dag tilbyr jeg deg en annen informasjon. Du er utdannet gruveoperatør, du vil jobbe på EKG-8I gravemaskiner. Hva er ytelsen til denne gravemaskinen. På min forespørsel ga anlegget meg følgende informasjon. (Gravemaskinytelse - tabell)

    Etter gråberg (tusen tonn)

    Gutter, er mye informasjon bra? Kan all informasjon være nyttig og av høy kvalitet? Hva bør vi kunne gjøre for ikke å gå oss vill i labyrinten av informasjon? (Studentenes forventede svar: "Må være i stand til å skille nyttig informasjon av høy kvalitet fra informasjon av lav kvalitet.") De. kunne behandle det.

    KONKLUSJON: i dag i leksjonen skal vi lære å behandle informasjon.

    3. Organisering av aktiviteter for å studere nytt materiale.(studenter gjør notater i notatbøker og fullfører oppgaver under forklaringsprosessen)

    1. Definisjon av statistikk

    Hva er statistikk? Det sies at den engelske statsministeren Benjamin Disraeli (1804 - 1881) svarte på dette spørsmålet som følger: "Det er tre typer løgner: løgn, fordømt løgn og statistikk."

    Statistikk er en eksakt vitenskap som studerer metoder for å samle inn, analysere og bearbeide data som beskriver massehandlinger, fenomener og prosesser.

    (Et utdrag fra romanen «De tolv stolene» av Ilf og Petrov leses opp.

    "Statistikk vet alt", det er kjent hvor mye mat en gjennomsnittlig innbygger i republikken spiser per år: det er kjent hvor mange jegere, ballerinaer: maskiner, sykler, monumenter, fyrtårn og symaskiner i landet: Hvor mye liv, fullt av iver, lidenskaper og tanker, ser på oss fra statistiske tabeller!

    Navnet kommer fra det latinske ordet "status" - stat, fra denne roten ordene stato (italiensk), statistik (tysk), stat (engelsk) - stat.

    Statistikkstudier:

    Hovedmålene med å studere elementene i statistikk:

    • antall individuelle befolkningsgrupper i landet og dets regioner,
    • produksjon og forbruk av ulike typer produkter,
    • transport av varer og passasjerer med ulike transportformer,
    • naturressurser og mye mer.

    Vet du i hvilket land statistisk praksis begynte (i Kina); landets første folketellinger dateres tilbake til 500-tallet. II årtusen f.Kr

    På 1800-tallet ble det mulig å behandle data ved hjelp av formler, matematiske lover og spesielle egenskaper. Dette?... ( matte. statistikk).

    2. Matematisk statistikk

    Matematisk statistikk er en gren av matematikken som studerer metoder for å samle, systematisere og behandle resultatene av observasjoner av tilfeldige massefenomener for å identifisere eksisterende mønstre.

    Så hvorfor sammenlignet Disraeli statistikk med løgner? (Det var ingen vitenskapelig, streng behandling av informasjon; dataene ble tolket av hvem som helst slik de ønsket).

    Matematisk statistikk har universelle metoder for informasjonsbehandling
    Dette er det som tillot heltene i filmen "Office Romance" å si følgende ord om statistikk ( fragment av filmen "Office Romance").
    KONKLUSJON: Statistikk bringer informasjon inn i systemet.

    3. Grafisk fremstilling av informasjon

    Fordelingspolygon

    Distribusjonshistogram

    Kake diagram

    4. Måleegenskaper
    1. En serie data er en serie resultater av alle målinger.

    For eksempel: 1) måling av menneskelig høyde

    2) Menneskelige (dyre) vektmålinger

    3) Måleravlesninger (elektrisitet, vann, varme...)

    4) Resultater på 100 meter

    2. Volum av en dataserie - volumet til en dataserie er mengden av alle data.

    For eksempel: gitt en serie med tall 1; 3; 6; -4; 0

    volumet vil være lik 5. Hvorfor?

    3. Rekkevidden til en dataserie er forskjellen mellom de største og minste tallene fra en dataserie.

    For eksempel: hvis gitt en serie med tall 1; 3; 6; -4; 0; 2, da omfang denne dataserien vil være lik 6 (siden 6 - 0 = 6)

    4. Modus for en dataserie - modusen til en dataserie er nummeret på serien som forekommer oftest i denne serien.

    For eksempel: s datagift kan ha en modus eller ikke.

    I dataseriene 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 forekommer således hvert av tallene 47 og 52 to ganger, og de resterende tallene mindre enn to ganger. I slike tilfeller ble det enighet om at serien har to moduser: 47 og 52.

    5. Median for serien

    En median med et oddetall av ledd er tallet skrevet i midten.

    Median med et jevnt antall ledd - dette er det aritmetiske gjennomsnittet av de to tallene som er skrevet i midten.

    For eksempel: Bestem medianen til en tallserie

    16; -4; 5; -2; -3; 3; 3; -2; 3. Svar: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. Svar: 0

    6. Det aritmetiske gjennomsnittet er kvotienten for å dele summen av tallene i en serie med tallet deres.

    For eksempel: gitt en serie med tall -1; 0; 2; 1; -1; 0; 2; -1. Da vil det aritmetiske gjennomsnittet være lik: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0,25

    4. Konsolidering av det studerte materialet.

    Praktisk jobb

    Trening: karakterisere prestasjonen til elev Peter Ivanov i matematikk for fjerde kvartal.

    Fullføring av arbeidet:

    1. Innsamling av informasjon:

    Karakterene skrevet ut fra bladet er: 5,4,5,3,3,5,4,4,4.

    2. Behandling av mottatte data:

    Forelesning 12. Metoder for statistisk bearbeiding av resultater.

    Metoder for statistisk behandling av resultater kalles matematiske teknikker, formler, metoder for kvantitative beregninger, ved hjelp av hvilke indikatorer oppnådd under et eksperiment kan generaliseres, bringes inn i et system og avsløre mønstre som er skjult i dem. Vi snakker om mønstre av statistisk karakter som eksisterer mellom variablene som er studert i eksperimentet.

    1. Metoder for primær statistisk bearbeiding av forsøksresultater

    Alle metoder for matematisk og statistisk analyse er konvensjonelt delt inn i primær og sekundær. Primære metoder er de som kan brukes til å få indikatorer som direkte gjenspeiler resultatene av målinger gjort i et eksperiment. Følgelig mener vi med primære statistiske indikatorer de som brukes i selve de psykodiagnostiske metodene og er resultatet av den innledende statistiske behandlingen av de psykodiagnostiske resultatene. Sekundære metoder kalles statistiske behandlingsmetoder, ved hjelp av hvilke statistiske mønstre som er skjult i dem, på grunnlag av primærdata, avsløres.

    Primære metoder for statistisk prosessering inkluderer for eksempel å bestemme prøvegjennomsnittet, prøvevariansen, prøvemodus og prøvemedian. Sekundære metoder inkluderer vanligvis korrelasjonsanalyse, regresjonsanalyse og metoder for å sammenligne primærstatistikk i to eller flere utvalg.

    La oss vurdere metoder for å beregne elementær matematisk statistikk.

    Mote De kaller den kvantitative verdien av egenskapen som studeres, som oftest finnes i utvalget.

    Median er verdien av karakteristikken som studeres, som deler prøven, sortert etter verdien av denne karakteristikken, i to.

    Eksempel gjennomsnitt(aritmetisk middelverdi) verdi som en statistisk indikator representerer den gjennomsnittlige vurderingen av den psykologiske kvaliteten studert i forsøket.

    Spre(noen ganger kalles denne verdien området) av prøven er merket med bokstaven R. Dette er den enkleste indikatoren som kan oppnås for prøven - forskjellen mellom maksimums- og minimumsverdiene for denne spesielle variasjonsserien.

    Spredning er det aritmetiske gjennomsnittet av kvadrerte avvik av verdiene til en variabel fra middelverdien.

    2. Metoder for sekundær statistisk bearbeiding av forsøksresultater

    Ved hjelp av sekundære metoder for statistisk behandling av eksperimentelle data blir hypoteser knyttet til eksperimentet direkte testet, bevist eller motbevist. Disse metodene er som regel mer komplekse enn metoder for primær statistisk prosessering, og krever at forskeren er godt trent i elementær matematikk og statistikk.

    Gruppen av metoder som diskuteres kan deles inn i flere undergrupper:

    1 Regresjonskalkulus

    Regresjonskalkulus er en metode for matematisk statistikk som lar deg redusere private, spredte data til en eller annen lineær graf som omtrent gjenspeiler deres interne forhold, og for å være i stand til omtrentlig å estimere den sannsynlige verdien av en annen variabel basert på verdien av en av variablene .

    2.Korrelasjon

    Den neste metoden for sekundær statistisk prosessering, gjennom hvilken forbindelsen eller direkte avhengighet mellom to serier av eksperimentelle data bestemmes, kalles metoden for korrelasjoner. Den viser hvordan ett fenomen påvirker eller er relatert til et annet i sin dynamikk. Avhengigheter av denne typen eksisterer for eksempel mellom mengder som står i årsak-virkningsforhold til hverandre. Hvis det viser seg at to fenomener er statistisk signifikant korrelert med hverandre, og hvis det er tillit til at ett av dem kan fungere som en årsak til det andre fenomenet, så er konklusjonen at det er en årsak-virkning-sammenheng mellom dem definitivt følger.

    3 Faktoranalyse

    Faktoranalyse er en statistisk metode som brukes ved behandling av store mengder eksperimentelle data. Målene med faktoranalyse er: å redusere antall variabler (datareduksjon) og bestemme strukturen av sammenhenger mellom variabler, d.v.s. klassifisering av variabler, så faktoranalyse brukes som en datareduksjonsmetode eller som en strukturell klassifiseringsmetode.

    Gjennomgå spørsmål

    1.Hva er statistiske behandlingsmetoder?

    2.Hvilke undergrupper er sekundære metoder for statistisk prosessering delt inn i?

    3.Forklar essensen av korrelasjonsmetoden?

    4. I hvilke tilfeller brukes statistiske behandlingsmetoder?

    5. Hvor effektiv tror du er bruken av statistiske bearbeidingsmetoder i vitenskapelig forskning?

    2. Vurder egenskapene til statistiske databehandlingsmetoder.

    Litteratur

    1.. Gorbatov D.S. Workshop om psykologisk forskning: Proc. godtgjørelse. - Samara: "BAKHRAH - M", 2003. - 272 s.

    2. Ermolaev A.Yu. Matematisk statistikk for psykologer. - M.: Moscow Psychological and Social Institute: Flinta, 2003.336s.

    3. Kornilova T.V. Introduksjon til psykologisk eksperiment. Lærebok for universiteter. M.: CheRo Publishing House, 2001.