Statistisk databehandling. Statistisk databehandling Definition av statistisk databehandling

  • Bild 2

    • Statistik är en exakt vetenskap som studerar metoder för att samla in, analysera och bearbeta data som beskriver massaktioner, fenomen och processer
    • Matematisk statistik är en gren av matematiken som studerar metoder för att samla in, systematisera och bearbeta resultaten av observationer av slumpmässiga massfenomen för att identifiera befintliga mönster.
  • Bild 3

    Statistiska studier

    • antalet enskilda befolkningsgrupper i landet och dess regioner,
    • produktion och konsumtion av olika typer av produkter,
    • transport av varor och passagerare med olika transportsätt,
    • naturresurser och mycket mer.
    • Resultaten av statistiska studier används i stor utsträckning för praktiska och vetenskapliga slutsatser.
    • För närvarande börjar statistik studeras redan i gymnasium, på universiteten är detta ett obligatoriskt ämne, eftersom det är förknippat med många vetenskaper och områden.
    • För att öka antalet försäljningar i en butik, för att förbättra kvaliteten på kunskapen i skolan, för att flytta landet mot ekonomisk tillväxt, är det nödvändigt att genomföra statistiska studier och dra lämpliga slutsatser. Och alla borde kunna göra detta.
  • Bild 4

    De huvudsakliga målen för att studera elementen i statistik

    • Utbildning av färdigheter i primär bearbetning av statistiska data;
    • bild och analys av kvantitativ information presenterad i olika former (i form av tabeller, diagram, grafer över verkliga beroenden);
    • utveckla idéer om viktiga statistiska idéer, nämligen: idén om uppskattning och idén om att testa statistiska hypoteser;
    • utveckla förmågan att jämföra sannolikheterna för att slumpmässiga händelser inträffar med resultaten av specifika experiment.
  • Bild 5

    • Dataserie
    • Dataserievolym
    • Utbud av dataserier
    • Dataserieläge
    • Median för serien
    • Genomsnitt
    • Beställd dataserie
    • Datadistributionstabell
    • Låt oss sammanfatta det
    • Nominativ dataserie
    • Resultatfrekvens
    • Procent frekvens
    • Gruppera data
    • Databehandlingsmetoder
    • Låt oss sammanfatta det
  • Bild 6

    Definition

    • En dataserie är en serie resultat av vissa mätningar.
    • Till exempel: 1) mäta mänsklig längd
    • 2) Mänskliga (djur) viktmätningar
    • 3) Mätaravläsningar (el, vatten, värme...)
    • 4) Resultat på 100 meter
    • Etc.
  • Bild 7

    • Volymen av en dataserie är mängden all data.
    • Till exempel: givet en serie med nummer 1; 3; 6; -4; 0
    • dess volym kommer att vara lika med 5. Varför?
  • Bild 8

    Gör klart uppgiften

    • Bestäm volymen för denna serie.
    • Svar: 10
  • Bild 9

    Definition

    • Räckvidd är skillnaden mellan de största och minsta talen i en dataserie.
    • Till exempel: om ges en serie med nummer 1; 3; 6; -4; 0; 2, då kommer intervallet för denna dataserie att vara lika med 6 (eftersom 6 – 0 = 6)
  • Bild 10

    Gör klart uppgiften

    • På institutet gjorde vi ett prov i högre matematik. Det fanns 10 personer i gruppen och de fick motsvarande betyg: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestäm intervallet för denna serie.
    • Svar: 3
  • Bild 11

    Definition

    • Läget för en dataserie är numret på den serie som förekommer oftast i denna serie.
    • En dataserie kan ha ett läge eller inte.
    • I dataserierna 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 förekommer alltså vart och ett av talen 47 och 52 två gånger och de återstående talen mindre än två gånger. I sådana fall kom man överens om att serien har två lägen: 47 och 52.
  • Bild 12

    Gör klart uppgiften

    • Alltså i dataserien
    • 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 vart och ett av siffrorna 47 och 52 visas två gånger och de återstående siffrorna mindre än två gånger. I sådana fall kom man överens om att serien har två lägen: 47 och 52.
    • På institutet gjorde vi ett prov i högre matematik. Det fanns 10 personer i gruppen, och de fick lämpliga betyg:
    • 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestäm läget för denna serie.
    • Svar: 4
  • Bild 13

    Definition

    • En median med ett udda antal termer är det tal som står i mitten.
    • En median med ett jämnt antal termer är det aritmetiska medelvärdet av de två talen skrivna i mitten.
    • Till exempel: bestäm medianen för en serie tal
    • 16; -4; 5; -2; -3; 3; 3; -2; 3. Svar: -3
    • 2) -1; 0; 2; 1; -1; 0;2; -1. Svar: 0
  • Bild 14

    Gör klart uppgiften

    • På institutet gjorde vi ett prov i högre matematik. Det fanns 10 personer i gruppen och de fick motsvarande betyg: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestäm medianen för denna serie.
    • Svar: 4
  • Bild 15

    Definition

    • Det aritmetiska medelvärdet är kvoten för att dividera summan av talen i en serie med deras antal.
    • Till exempel: givet en serie med nummer -1; 0; 2; 1; -1; 0; 2; -1. Då blir det aritmetiska medelvärdet lika med: (-1+0+2+1+(-1)+0+2+(-1)):8 =2:8=0,25
  • Bild 16

    Gör klart uppgiften

    • På institutet gjorde vi ett prov i högre matematik. Det fanns 10 personer i gruppen och de fick motsvarande betyg: 3, 5, 5, 4, 4, 4, 3, 2, 4, 5.
    • Bestäm det aritmetiska medelvärdet för denna serie.
    • Svar: 3.9
  • Bild 17

    Praktiskt arbete

    • Uppgift: karakterisera elev Ivanovs prestationer i matematik för fjärde kvartalet.
    • SLUTFÖRANDE AV ARBETE:
    • 1.Insamling av information:
    • Betygen som skrivs ut från tidningen är: 5,4,5,3,3,5,4,4,4.
    • 2.Bearbetning av mottagna data:
    • volym = 9
    • intervall = 5 - 3 = 2
    • mode = 4
    • median = 3
    • aritmetiskt medelvärde =(5+4+5+3+3+5+4+4+4) : 9 ≈ 4
    • Egenskaper för akademiska prestationer: eleven är inte alltid redo för lektionen.
    • Mestadels studerar han med betyg "4". En fjärdedel kommer ut till "4".
  • Bild 18

    På egen hand

    • Vi måste hitta seriens volym, seriens omfång, läget, medianen och det aritmetiska medelvärdet:
    • Kort 1. 22,5; 23; 21,5; 22; 23.
    • Kort 2. 6; -4; 5; -2; -3; 3; 3; -2; 3.
    • Kort 3. 12,5; 12; 12; 12,5; 13; 12,5; 13.
    • Kort 4. -1; 0; 2; 1; -1; 0; 2; -1.
    • Kort 5. 125; 130; 124; 131.
    • Kort 6. 120; 100; 110.
  • Bild 19

    Låt oss kolla

    • Kort 1.
    • radvolym = 5
    • radintervall = 10
    • mode = 23
    • median = 21,5
    • aritmetiskt medelvärde = 13,3
    • Kort 3.
    • radvolym = 7
    • serieserie = 1
    • läge = 12,5
    • median = 12,5
    • aritmetiskt medelvärde = 12,5
    • Kort 2.
    • radvolym = 9
    • radintervall = 10
    • mode = 3
    • median = -3
    • aritmetiskt medelvärde = 1
    • Kort 4.
    • radvolym = 8
    • radintervall = 3
    • läge = -1
    • median = 0
    • aritmetiskt medelvärde = 0,25
  • Bild 20

    • Kort 5.
    • radvolym = 4
    • radintervall = 7
    • mode = nej
    • median = 127
    • aritmetiskt medelvärde =127,5
    • Kort 6.
    • radvolym = 3
    • intervall = 20
    • mode = nej
    • median = 100
    • aritmetiskt medelvärde = 110
  • Bild 21

    Definition

    • Ordnade dataserier är serier där uppgifterna är ordnade enligt någon regel.
    • Hur ordnar man en serie siffror? (Skriv siffrorna så att varje efterföljande nummer inte är mindre (inte mer) än det föregående); eller skriv ner några namn "alfabetiskt"...
  • Bild 22

    Gör klart uppgiften

    • Givet en serie siffror:
    • -1;-3;-3;-2;3;3;2;0;3;3;-3;-3;1;1;-3;-1
    • Sortera det i stigande siffror.
    • Lösning:
    • -3;-3;-3;-3;-3;-2;-1;-1;0;1;1;2;3;3;3;3
    • Resultatet är en beställd serie. Själva data har inte ändrats, bara ordningen de visas i har ändrats.
  • Bild 23

    Definition

    • En datadistributionstabell är en tabell över en ordnad serie där antalet repetitioner registreras istället för att upprepa samma antal.
    • Omvänt, om distributionstabellen är känd, kan en ordnad serie data kompileras.
    • Till exempel:
    • Från den får vi följande beställda serie:
    • -3;-3;-3;-1;-1;-1;-1;5;5;7;8;8;8;8;8
  • Bild 24

    Gör klart uppgiften

    • I en damskoaffär gjordes statistisk undersökning och en motsvarande tabell sammanställdes för priset på skor och antalet försäljningar:
    • Pris (RUB): 500 1200 1500 1800 2000 2500
    • Antal: 8 9 14 15 3 1
    • För dessa indikatorer måste du hitta statistiska egenskaper:
    • skapa en ordnad serie data
    • volym dataserier
    • serie sortiment
    • modeserie
    • median för serien
    • aritmetiskt medelvärde av en dataserie
  • Bild 25

    Och svara på följande frågor

    • Från dessa priskategorier, till vilket pris ska butiken inte sälja skorna?
    • Skor, till vilket pris ska det delas ut?
    • Vilket pris ska du sikta på?
  • Bild 26

    Låt oss sammanfatta det

    • Vi bekantade oss med de första koncepten för hur statistisk databehandling sker:
    • data är alltid resultatet av någon mätning
    • Ett antal av vissa uppgifter kan hittas:
    • volym, räckvidd, läge, median och
    • genomsnitt
    • 3) vilken dataserie som helst kan vara
    • organisera och komponera
    • datadistributionstabell
  • Bild 27

    Definition

    • Den nominativa serien av data är INTE NUMERISKA DATA, utan till exempel namn; titlar; nomineringar...
    • Till exempel: lista över VM-finalister sedan 1930: Argentina, Tjeckoslovakien, Ungern, Brasilien, Ungern, Sverige, Tjeckoslovakien, Tyskland, Italien, Nederländerna, Nederländerna, Tyskland, Tyskland,
    • Argentina, Italien, Brasilien, Tyskland, Frankrike
  • Bild 28

    Gör klart uppgiften

    • Hitta från tidigare exempel:
    • volym av rad 2) läge för rad
    • 3) skapa en distributionstabell
    • Lösning: volym = 18; mode – tyska laget.
  • Laboratoriearbete nr 3. Statistisk databehandling i MatLab-systemet

    Allmänt om problemet

    Huvudsyftet med utförandet laboratoriearbeteär att sätta dig in i grunderna för att arbeta med statistisk databehandling i MatLAB-miljön.

    Teoretisk del

    Primär statistisk databehandling

    Statistisk databehandling baseras på primära och sekundära kvantitativa metoder. Syftet med den primära behandlingen av statistiska uppgifter är att strukturera den information som erhålls, vilket innebär att uppgifterna grupperas i sammanfattande tabeller enligt olika parametrar. Primärdata måste presenteras i ett format som gör det möjligt för en person att göra en ungefärlig bedömning av den resulterande datamängden och identifiera information om datadistributionen av det resulterande dataprovet, såsom homogeniteten eller kompaktheten hos datan. Efter den primära dataanalysen tillämpas metoder för sekundär statistisk databehandling, på basis av vilka statistiska mönster i den befintliga datamängden bestäms.

    Genom att utföra primär statistisk analys på en datamatris kan du få kunskap om följande:

    Vilket värde är mest typiskt för provet? För att besvara denna fråga definieras mått på central tendens.

    Hur stor är spridningen av data i förhållande till detta karakteristiska värde, d.v.s. vad är informationens "fuzziness"? I detta fall bestäms mått på variabilitet.

    Det är värt att notera att statistiska indikatorer för central tendens och variabilitet endast bestäms av kvantitativa data.

    Centralmått– en grupp av värden som resten av data är grupperade kring. Mått på central tendens generaliserar alltså mängden data, vilket gör det möjligt att dra slutsatser både om urvalet som helhet och att genomföra jämförande analys olika prover med varandra.

    Anta att vi har ett dataurval, då bedöms mått på central tendens av följande indikatorer:

    1. Exempel medelvärdeär resultatet av att dividera summan av alla provvärden med deras antal. Bestäms av formeln (3.1).

    (3.1)

    Var - i elementet i urvalet;

    n– antal provelement.

    Sampelmedelvärdet ger den största noggrannheten i processen att uppskatta central tendens.

    Låt oss säga att vi har ett urval på 20 personer. Provelementen är information om den genomsnittliga månadsinkomsten för varje person. Låt oss anta att 19 personer har en genomsnittlig månadsinkomst på 20 tusen rubel. och 1 person med en inkomst av 300 tr. Den totala månadsinkomsten för hela provet är 680 rubel. Urvalsmedelvärdet i detta fall är S=34.


    2. Median– bildar ett värde över och under vilket antalet olika värden är detsamma, dvs detta är det centrala värdet i en sekventiell dataserie. Bestäms beroende på det jämna/udda antalet element i provet med formler (3.2) eller (3.3). Algoritm för att uppskatta medianen för ett dataprov:

    Först och främst rangordnas (ordnas) data i fallande/stigande ordning.

    Om det beställda provet har ett udda antal element, så sammanfaller medianen med det centrala värdet.

    (3.2)

    Var n

    Vid ett jämnt antal element definieras medianen som det aritmetiska medelvärdet av de två centrala värdena.

    (3.3)

    var är medelelementet för det beställda provet;

    - element i det beställda urvalet bredvid ;

    Antal provelement.

    Om alla provelement är olika är exakt hälften av provelementen större än medianen och den andra hälften mindre. Till exempel, för provet (1, 5, 9, 15, 16), är medianen lika med element 9.

    Vid statistisk dataanalys hjälper medianen till att identifiera urvalselement som i hög grad påverkar värdet på urvalets medelvärde.

    Låt oss säga att vi har ett urval på 20 personer. Provelementen är information om den genomsnittliga månadsinkomsten för varje person. Låt oss anta att 19 personer har en genomsnittlig månadsinkomst på 20 tusen rubel. och 1 person med en inkomst av 300 tr. Den totala månadsinkomsten för hela provet är 680 rubel. Medianen, efter beställning av provet, definieras som det aritmetiska medelvärdet av det tionde och elfte elementet i provet) och är lika med Me = 20 tr. Detta resultat tolkas enligt följande: medianen delar provet i två grupper, så att vi kan dra slutsatsen att i den första gruppen har varje person en genomsnittlig månadsinkomst på högst 20 tusen rubel och i den andra gruppen inte mindre än 20 tusen rubel . I i detta exempel vi kan säga att medianen kännetecknas av hur mycket den ”genomsnittliga” personen tjänar. Medan värdet på urvalsgenomsnittet signifikant överskrids S=34, vilket indikerar att denna egenskap är oacceptabel vid bedömning av genomsnittlig inkomst.

    Således, ju större skillnaden är mellan medianen och urvalsgenomsnittet, desto större är spridningen av provdata (i det övervägda exemplet skiljer sig en person med en inkomst på 300 rubel tydligt från genomsnittet i ett visst urval och har en betydande påverkan på uppskattningen av genomsnittsinkomsten). Vad man ska göra med sådana element avgörs i varje enskilt fall. Men i det allmänna fallet, för att säkerställa provets tillförlitlighet, tas de bort, eftersom de har ett starkt inflytande på bedömningen av statistiska indikatorer.

    3. Mode (Mo)– genererar det värde som förekommer oftast i urvalet, det vill säga värdet med högst frekvens. Lägesskattningsalgoritm:

    I det fall då ett sampel innehåller element som förekommer lika ofta, sägs det att det inte finns något läge i ett sådant sampel.

    Om två angränsande element Sampel har samma frekvens, vilket är större än frekvensen för de återstående elementen i samplet, då definieras läget som medelvärdet av dessa två värden.

    Om två sampelelement har samma frekvens, vilket är större än frekvensen för de återstående sampelelementen, och dessa element inte är intilliggande, sägs sampeln ha två moder.

    Mode i statistisk analys används i situationer där en snabb bedömning av måttet på central tendens är nödvändig och hög noggrannhet inte krävs. Till exempel kan mode (efter storlek eller märke) bekvämt användas för att bestämma de kläder och skor som är mest efterfrågade bland kunderna.

    Spridningsmått (variabilitet)– En grupp statistiska indikatorer som karakteriserar skillnaderna mellan individuella urvalsvärden. Baserat på indikatorerna för spridningsmåtten kan graden av homogenitet och kompakthet hos provelementen bedömas. Spridningsmått kännetecknas av följande uppsättning indikatorer:

    1. Räckvidd - detta är intervallet mellan maximala och lägsta värden för observationsresultaten (provelement). Områdesindikatorn indikerar spridningen av värden i datamängden. Om intervallet är stort, är värdena i aggregatet mycket spridda, annars (intervallet är litet) sägs det att värdena i aggregatet ligger nära varandra. Området bestäms av formel (3.4).

    (3.4)

    Var - maximalt provelement;

    - minsta provelement.

    2.Genomsnittlig avvikelse– aritmetisk medelskillnad (i absolut värde) mellan varje värde i urvalet och dess urvalsmedelvärde. Den genomsnittliga avvikelsen bestäms av formel (3.5).

    (3.5)

    Var - i elementet i urvalet;

    Provets medelvärde beräknat med formeln (3.1);

    Antal provelement.

    Modul nödvändigt på grund av att avvikelser från genomsnittet för varje specifikt element kan vara både positiva och negativa. Följaktligen, om du inte tar modulen, kommer summan av alla avvikelser att vara nära noll och det kommer att vara omöjligt att bedöma graden av datavariabilitet (trängsel av data runt urvalets medelvärde). När man utför statistisk analys kan läget och medianen tas istället för provmedelvärdet.

    3. Dispersion- ett spridningsmått som beskriver den jämförande avvikelsen mellan datavärden och medelvärdet. Det beräknas som summan av de kvadrerade avvikelserna för varje provelement från medelvärdet. Beroende på urvalsstorleken uppskattas variansen olika sätt:

    För stora prover (n>30) enligt formel (3.6)

    (3.6)

    För små prover (n<30) по формуле (3.7)

    (3.7)

    där Xi är det i:te sampelelementet;

    S – provmedelvärde;

    Antal provelement;

    (X i – S) - avvikelse från medelvärdet för varje värde i datamängden.

    4. Standardavvikelse-ett mått på hur spridda datapunkter är i förhållande till deras medelvärde.

    Processen att kvadrera individuella avvikelser vid beräkning av varians ökar graden av avvikelse för den resulterande avvikelsen från de ursprungliga avvikelserna, vilket i sin tur introducerar ytterligare fel. För att föra uppskattningen av spridningen av datapunkter relativt deras medelvärde närmare värdet av medelavvikelsen, tas kvadratroten av variansen. Den extraherade roten av variansen kännetecknar ett mått på variabilitet som kallas rotmedelkvadrat eller standardavvikelse (3.8).

    (3.8)

    Låt oss säga att du är chef för ett programvaruutvecklingsprojekt. Du har fem programmerare under ditt kommando. Genom att hantera projektexekveringsprocessen fördelar du uppgifter mellan programmerare. För att förenkla exemplet kommer vi att utgå från det faktum att uppgifterna är lika i komplexitet och genomförandetid. Du bestämde dig för att analysera varje programmerares arbete (antalet slutförda uppgifter under veckan) under de senaste 10 veckorna, vilket resulterade i att du fick följande prover:

    Veckans namn

    Genom att uppskatta det genomsnittliga antalet slutförda uppgifter får du följande resultat:

    Veckans namn S
    22,3
    22,4
    22,2
    22,1
    22,5

    Baserat på S-indikatorn arbetar alla programmerare i genomsnitt med samma effektivitet (cirka 22 uppgifter per vecka). Variabilitetsindikatorn (intervallet) är dock mycket hög (från 5 uppgifter för den fjärde programmeraren till 24 uppgifter för den femte).

    Veckans namn S P
    22,3
    22,4
    22,2
    22,1
    22,5

    Låt oss uppskatta standardavvikelsen, som visar hur värdena i proven är fördelade i förhållande till genomsnittet, och specifikt, i vårt fall, uppskatta hur stor spridningen i uppgiftsslutförande är från vecka till vecka.

    Veckans namn S P
    22,3 1,56
    22,4 1,8
    22,2 2,84
    22,1 1,3
    22,5 5,3

    Den resulterande uppskattningen av standardavvikelsen indikerar följande (vi kommer att utvärdera två extremfall, programmerare 4 och 5):

    Varje värde i urvalet av 4 programmerare avviker i genomsnitt med 1,3 tilldelningar från medelvärdet.

    Varje värde i programmerarens prov 5 avviker i genomsnitt med 5,3 poster från medelvärdet.

    Ju närmare standardavvikelsen är 0, desto mer tillförlitligt är medelvärdet, eftersom det indikerar att varje värde i provet är nästan lika med medelvärdet (i vårt exempel, 22,5 poster). Därför är programmerare 4 den mest konsekventa, till skillnad från programmerare 5. Variationen av uppgiftsslutförande från vecka till vecka för den 5:e programmeraren är 5,3 uppgifter, vilket indikerar en betydande spridning. När det gäller den 5:e programmeraren kan man inte lita på genomsnittet, och därför är det svårt att förutsäga antalet slutförda uppgifter för nästa vecka, vilket i sin tur komplicerar planeringsförfarandet och efterlevnaden av arbetsscheman. Det spelar ingen roll vilket ledningsbeslut du fattar i den här kursen. Det är viktigt att du får en bedömning utifrån vilken du kan fatta lämpliga ledningsbeslut.

    Därmed kan en generell slutsats dras att genomsnittet inte alltid utvärderar uppgifterna korrekt. Genomsnittsuppskattningens riktighet kan bedömas utifrån standardavvikelsens värde.

    Metoder för statistisk bearbetning av experimentella resultat är matematiska tekniker, formler, metoder för kvantitativa beräkningar, med hjälp av vilka indikatorer som erhållits under ett experiment kan generaliseras, föras in i ett system och avslöja dolda mönster i dem.

    Vi talar om mönster av statistisk karaktär som finns mellan de variabler som studerats i experimentet.

    Data är de grundläggande beståndsdelarna som ska klassificeras eller kategoriseras för behandlingsändamål 26 .

    Några av metoderna för matematisk-statistisk analys gör det möjligt att beräkna den så kallade elementära matematiska statistiken som kännetecknar urvalsfördelningen av data, till exempel:

    Exempel medelvärde,

    Provavvikelse,

    Median och ett antal andra.

    Andra metoder för matematisk statistik gör det möjligt att bedöma dynamiken i förändringar i individuell provstatistik, till exempel:

    Variansanalys,

    Regressionsanalys.

    Med hjälp av den tredje gruppen av samplingsdatametoder kan man på ett tillförlitligt sätt bedöma de statistiska sambanden som finns mellan variablerna som studeras i detta experiment:

    Korrelationsanalys;

    Faktoranalys;

    Jämförelsesmetoder.

    Alla metoder för matematisk och statistisk analys är konventionellt indelad i primär och sekundär 27 .

    Primära metoder är de som kan användas för att erhålla indikatorer som direkt återspeglar resultaten av mätningar gjorda i ett experiment.

    Sekundära metoder kallas statistiska bearbetningsmetoder, med hjälp av vilka, på basis av primärdata, statistiska mönster som är gömda i dem avslöjas.

    Primära metoder för statistisk bearbetning inkluderar till exempel:

    Bestämning av provmedelvärde;

    Provvarians;

    Selektivt mode;

    Provmedian.

    Sekundära metoder inkluderar vanligtvis:

    Korrelationsanalys;

    Regressionsanalys;

    Metoder för att jämföra primärstatistik i två eller flera urval.

    Låt oss överväga metoder för att beräkna elementär matematisk statistik, med början med urvalsgenomsnittet.

    Aritmetiskt medelvärde - det är förhållandet mellan summan av alla datavärden och antalet termer 28.

    Medelvärdet som statistisk indikator representerar den genomsnittliga bedömningen av den psykologiska kvaliteten som studerats i experimentet.

    Denna bedömning kännetecknar graden av dess utveckling som helhet i gruppen av försökspersoner som genomgick en psykodiagnostisk undersökning. Genom att direkt jämföra medelvärdena för två eller flera prover kan vi bedöma den relativa graden av utveckling av den bedömda kvaliteten hos personerna som utgör dessa prover.

    Provmedelvärdet bestäms med hjälp av följande formel 29:

    där x cf är stickprovets medelvärde eller det aritmetiska medelvärdet av provet;

    n är antalet försökspersoner i urvalet eller privata psykodiagnostiska indikatorer på grundval av vilka medelvärdet beräknas;

    x k - privata värden av indikatorer för enskilda ämnen. Det finns n sådana indikatorer totalt, så indexet k för denna variabel tar värden från 1 till n;

    ∑ är tecknet som accepteras i matematik för att summera värdena för de variabler som finns till höger om detta tecken.

    Dispersion är ett mått på spridningen av data i förhållande till medelvärdet på 30.

    Ju större varians, desto större avvikelse eller spridning av data. Det bestäms så att det är möjligt att skilja från varandra värden som har samma medelvärde, men olika spridning.

    Variansen bestäms av följande formel:

    var är urvalsvariansen, eller helt enkelt varians;

    Ett uttryck som innebär att för alla x k från den första till den sista i ett givet urval är det nödvändigt att beräkna skillnaderna mellan partial- och medelvärdena, kvadrera dessa skillnader och summera dem;

    n är antalet försökspersoner i urvalet eller primära värden från vilka variansen beräknas.

    Median är värdet på egenskapen som studeras, vilket delar provet, ordnat efter värdet av denna egenskap, på hälften.

    Att känna till medianen är användbart för att avgöra om fördelningen av delvärden för den studerade egenskapen är symmetrisk och approximerar den så kallade normalfördelningen. Medelvärdet och medianen för en normalfördelning är vanligtvis lika eller mycket lite olika från varandra.

    Om urvalsfördelningen av funktioner är normal, kan metoder för sekundära statistiska beräkningar baserade på normalfördelningen av data tillämpas på den. Annars går det inte att göra, eftersom allvarliga fel kan smyga sig in i beräkningarna.

    Mode en annan elementär matematisk statistik och kännetecken för fördelningen av experimentella data. Mode är det kvantitativa värdet av den egenskap som studeras, vilket oftast återfinns i provet.

    För symmetriska fördelningar av funktioner, inklusive normalfördelningen, sammanfaller modvärdena med värdena för medelvärdet och medianen. För andra typer av distributioner, asymmetriska, är detta inte typiskt.

    Metoden för sekundär statistisk bearbetning, genom vilken sambandet eller det direkta beroendet mellan två serier av experimentella data bestäms, kallas korrelationsanalysmetod. Den visar hur ett fenomen påverkar eller är relaterat till ett annat i sin dynamik. Beroenden av detta slag finns till exempel mellan storheter som står i orsak-verkan-samband med varandra. Om det visar sig att två fenomen är statistiskt signifikant korrelerade med varandra, och om det finns förtroende för att en av dem kan fungera som en orsak till det andra fenomenet, då slutsatsen att det finns ett orsak-och-verkan samband mellan dem definitivt följer.

    Det finns flera varianter av denna metod:

    Linjär korrelationsanalys låter dig upprätta direkta kopplingar mellan variabler baserat på deras absoluta värden. Dessa kopplingar uttrycks grafiskt med en rak linje, därav namnet "linjär".

    Den linjära korrelationskoefficienten bestäms med följande formel 31:

    där r xy - linjär korrelationskoefficient;

    x, y - genomsnittliga provvärden för de jämförda värdena;

    X i ,y i - privata provvärden för jämförda kvantiteter;

    P - det totala antalet värden i den jämförda serien av indikatorer;

    Dispersioner, avvikelser av jämförda värden från medelvärden.

    Rangkorrelation bestämmer beroendet inte mellan de absoluta värdena för variabler, utan mellan de ordinarie platserna, eller rangorden, upptagna av dem i en serie ordnad efter värde. Formeln för rangkorrelationskoefficienten är följande 32:

    där Rs är Spearman-rankkorrelationskoefficienten;

    d i - skillnaden mellan rangen av indikatorer för samma ämnen i ordnade serier;

    P - antalet försökspersoner eller digitala data (rankningar) i korrelerade serier.

    Syftet med lektionen:
    - skapa förutsättningar för att bemästra ämnet på nivån av förståelse och primär memorering;
    - för bildandet av matematisk kompetens hos elevens personlighet.

    Lektionens mål
    Pedagogisk: bilda en idé om statistik som en vetenskap; bekanta eleverna med begreppen grundläggande statistiska egenskaper; utveckla förmågan att hitta räckvidden och läget för en serie, analysera data och förbättra mentalberäkningsförmågan.
    Pedagogisk: främja behärskning av begrepp och deras tolkning; utveckling av överämneskompetens för analys, jämförelse, systematisering och generalisering; fortsätta bildandet av ämnesspråk, främja bildandet av nyckelkompetenser (kognitiv, informativ, kommunikativ) i olika skeden av lektionen, främja bildandet av en enhetlig vetenskaplig bild av världen bland eleverna genom att identifiera tvärvetenskapliga kopplingar mellan statistik och olika vetenskaper.
    Pedagogisk: odla intresse för ämnet som studeras, informationskultur; beredskap att följa allmänt accepterade normer och regler, hög effektivitet och organisation.

    Teknik som används: Teknik för studentcentrerad inlärning, informations- och kommunikationsteknik.
    Nödvändig utrustning, material: multimediaprojektor, dator, interaktiv skrivtavla.

    Under lektionerna

    1. Organisatoriskt ögonblick.

    Kontrollera elevernas beredskap för klass

    Kontrollera närvaro

    2. Målsättning.

    Skäl till behovet av att studera detta ämne

    Involvera elever i processen att sätta upp lektionsmål

    Från vilka källor tar vi emot och samlar in information? (Föreslagna svar: radio, tv, tidningar, tidskrifter, telefon, människor, internet, brev).

    Var lagrar människor information? (Föreslagna svar : i minnet och på externa media).
    Handlar det om att få information att studera på en teknisk skola? I skolan läste du allmänna pedagogiska ämnen, men när du studerar på en teknisk skola, vad får du mer? (Föreslaget svar: s professionell kunskap). Ju mer vi lär oss, desto mer information innehåller vårt minne.

    Idag erbjuder jag dig ytterligare en information. Du är utbildad till gruvoperatör, du kommer att arbeta på EKG-8I grävmaskiner. Vilken prestanda har denna grävmaskin. På min begäran gav anläggningen mig följande information. (Grävmaskinens prestanda - tabell)

    Genom gråberg (tusen ton)

    Killar, är mycket information bra? Kan all information vara användbar och av hög kvalitet? Vad ska vi kunna göra för att inte gå vilse i labyrinten av information? (Studenternas förväntade svar: "Måste kunna skilja användbar information av hög kvalitet från information av låg kvalitet"). De där. kunna bearbeta det.

    SLUTSATS: idag på lektionen kommer vi att lära oss att bearbeta information.

    3. Organisering av aktiviteter för att studera nytt material.(elever gör anteckningar i anteckningsböcker och slutför uppgifter under förklaringsprocessen)

    1. Definition av statistik

    Vad är statistik? Det sägs att den engelske premiärministern Benjamin Disraeli (1804 - 1881) svarade på denna fråga enligt följande: "Det finns tre typer av lögner: lögner, förbannade lögner och statistik."

    Statistikär en exakt vetenskap som studerar metoder för att samla in, analysera och bearbeta data som beskriver massaktioner, fenomen och processer.

    (Ett utdrag ur romanen "De tolv stolarna" av Ilf och Petrov läses upp.

    "Statistiken vet allt", det är känt hur mycket mat en genomsnittlig medborgare i republiken äter per år: det är känt hur många jägare, ballerinor: maskiner, cyklar, monument, fyrar och symaskiner i landet: Hur mycket liv, fullt av iver, passioner och tankar, tittar på oss från statistiska tabeller!...”

    Dess namn kommer från det latinska ordet "status" - stat, från denna rot orden stato (italienska), statistik (tyska), stat (engelska) - stat.

    Statistiska studier:

    Huvudmålen med att studera delarna av statistik:

    • antalet enskilda befolkningsgrupper i landet och dess regioner,
    • produktion och konsumtion av olika typer av produkter,
    • transport av varor och passagerare med olika transportsätt,
    • naturresurser och mycket mer.

    Vet du i vilket land statistisk praxis började (i Kina); landets första folkräkningar går tillbaka till 500-talet. II årtusendet f.Kr

    På 1800-talet blev det möjligt att bearbeta data med hjälp av formler, matematiska lagar och speciella egenskaper. Detta?... ( matta. statistik).

    2. Matematik statistik

    Matematik statistikär en gren av matematiken som studerar metoder för att samla in, systematisera och bearbeta resultaten av observationer av slumpmässiga massfenomen för att identifiera befintliga mönster.

    Så varför jämförde Disraeli statistik med lögner? (Det förekom ingen vetenskaplig, rigorös bearbetning av information, uppgifterna tolkades av vem som helst som de ville).

    Matematisk statistik har universella metoder för informationsbehandling
    Detta är vad som gjorde det möjligt för hjältarna i filmen "Office Romance" att säga följande ord om statistik ( fragment av filmen "Office Romance").
    SLUTSATS: Statistik för in information i systemet.

    3. Grafisk återgivning av information

    Fördelningspolygon

    Distributionshistogram

    Tårtdiagram

    4. Mätegenskaper
    1. En serie data är en serie resultat av eventuella mätningar.

    Till exempel: 1) mäta mänsklig längd

    2) Mänskliga (djur) viktmätningar

    3) Mätaravläsningar (el, vatten, värme...)

    4) Resultat på 100 meter

    2. Volym av en dataserie - volymen av en dataserie är mängden all data.

    Till exempel: ges en serie av nummer 1; 3; 6; -4; 0

    dess volym kommer att vara lika med 5. Varför?

    3. Omfånget för en dataserie är skillnaden mellan de största och minsta talen från en dataserie.

    Till exempel: om ges en serie av nummer 1; 3; 6; -4; 0; 2, då omfattning denna dataserie kommer att vara lika med 6 (eftersom 6 - 0 = 6)

    4. Läget för en dataserie - läget för en dataserie är numret på den serie som förekommer oftast i denna serie.

    Till exempel: sid datagift kan ha ett läge eller inte.

    I dataserierna 47, 46, 50, 52, 47, 52, 49, 45, 43, 53 förekommer alltså vart och ett av talen 47 och 52 två gånger och de återstående talen mindre än två gånger. I sådana fall kom man överens om att serien har två lägen: 47 och 52.

    5. Median för serien

    En median med ett udda antal termer är det tal som står i mitten.

    Median med ett jämnt antal termer - detta är det aritmetiska medelvärdet av de två siffrorna skrivna i mitten.

    Till exempel: bestäm medianen för en talserie

    16; -4; 5; -2; -3; 3; 3; -2; 3. Svar: -3

    2) -1; 0; 2; 1; -1; 0;2; -1. Svar: 0

    6. Det aritmetiska medelvärdet är kvoten för att dividera summan av talen i en serie med deras antal.

    Till exempel: ges en serie siffror -1; 0; 2; 1; -1; 0; 2; -1. Då blir det aritmetiska medelvärdet lika med: (-1+0+2+1+(-1)+0+2+(-1)): 8 = 2: 8 = 0,25

    4. Konsolidering av det studerade materialet.

    Praktiskt arbete

    Träning: karakterisera studenten Peter Ivanovs prestationer i matematik för fjärde kvartalet.

    Slutförande av arbetet:

    1. Insamling av information:

    Betygen som skrivs ut från tidningen är: 5,4,5,3,3,5,4,4,4.

    2. Behandling av mottagna uppgifter:

    Föreläsning 12. Metoder för statistisk bearbetning av resultat.

    Metoder för statistisk bearbetning av resultat kallas matematiska tekniker, formler, metoder för kvantitativa beräkningar, med hjälp av vilka indikatorer som erhålls under ett experiment kan generaliseras, föras in i ett system och avslöja mönster som är gömda i dem. Vi talar om mönster av statistisk karaktär som finns mellan de variabler som studerats i experimentet.

    1. Metoder för primär statistisk bearbetning av experimentella resultat

    Alla metoder för matematisk och statistisk analys är konventionellt indelade i primära och sekundära. Primära metoder är de som kan användas för att erhålla indikatorer som direkt återspeglar resultaten av mätningar gjorda i ett experiment. Följaktligen menar vi med primära statistiska indikatorer de som används i själva de psykodiagnostiska metoderna och som är resultatet av den initiala statistiska bearbetningen av de psykodiagnostiska resultaten. Sekundära metoder kallas statistiska bearbetningsmetoder, med hjälp av vilka, på basis av primärdata, statistiska mönster som är gömda i dem avslöjas.

    Primära metoder för statistisk bearbetning inkluderar till exempel att bestämma provmedelvärde, provvarians, provläge och provmedian. Sekundära metoder inkluderar vanligtvis korrelationsanalys, regressionsanalys och metoder för att jämföra primärstatistik i två eller flera urval.

    Låt oss överväga metoder för att beräkna elementär matematisk statistik.

    Mode De kallar det kvantitativa värdet av den egenskap som studeras, vilket oftast finns i provet.

    Medianär värdet på egenskapen som studeras, vilket delar provet, ordnat efter värdet av denna egenskap, på hälften.

    Exempel medelvärde(arithmetiskt medelvärde) värde som statistisk indikator representerar den genomsnittliga bedömningen av den psykologiska kvaliteten som studerades i experimentet.

    Sprida ut(ibland kallas detta värde för intervallet) av provet betecknas med bokstaven R. Detta är den enklaste indikatorn som kan erhållas för provet - skillnaden mellan maximala och lägsta värden för denna speciella variationsserie.

    Dispersionär det aritmetiska medelvärdet av de kvadrerade avvikelserna av värdena för en variabel från dess medelvärde.

    2. Metoder för sekundär statistisk bearbetning av experimentella resultat

    Med hjälp av sekundära metoder för statistisk bearbetning av experimentella data testas hypoteser associerade med experimentet direkt, bevisas eller motbevisas. Dessa metoder är som regel mer komplexa än metoder för primär statistisk bearbetning och kräver att forskaren är välutbildad i elementär matematik och statistik.

    Gruppen av metoder som diskuteras kan delas in i flera undergrupper:

    1 Regressionskalkyl

    Regressionskalkyl är en metod för matematisk statistik som låter dig reducera privata, spridda data till någon linjär graf som ungefär speglar deras interna samband, och för att ungefär kunna uppskatta det sannolika värdet av en annan variabel baserat på värdet av en av variablerna .

    2.Korrelation

    Nästa metod för sekundär statistisk bearbetning, genom vilken kopplingen eller det direkta beroendet mellan två serier av experimentella data bestäms, kallas metoden för korrelationer. Den visar hur ett fenomen påverkar eller är relaterat till ett annat i sin dynamik. Beroenden av detta slag finns till exempel mellan storheter som står i orsak-verkan-samband med varandra. Om det visar sig att två fenomen är statistiskt signifikant korrelerade med varandra, och om det finns förtroende för att en av dem kan fungera som en orsak till det andra fenomenet, då slutsatsen att det finns ett orsak-och-verkan samband mellan dem definitivt följer.

    3 Faktoranalys

    Faktoranalys är en statistisk metod som används vid bearbetning av stora mängder experimentell data. Målen för faktoranalysen är: minska antalet variabler (datareduktion) och bestämma strukturen av samband mellan variabler, d.v.s. klassificering av variabler, så faktoranalys används som en datareduktionsmetod eller som en strukturell klassificeringsmetod.

    Granska frågor

    1.Vad är statistiska bearbetningsmetoder?

    2.Vilka undergrupper delas sekundära metoder för statistisk bearbetning in i?

    3. Förklara essensen av korrelationsmetoden?

    4. I vilka fall används statistiska bearbetningsmetoder?

    5. Hur effektivt tror du är användningen av statistiska bearbetningsmetoder i vetenskaplig forskning?

    2. Tänk på egenskaperna hos statistiska databehandlingsmetoder.

    Litteratur

    1.. Gorbatov D.S. Workshop om psykologisk forskning: Proc. ersättning. - Samara: "BAKHRAH - M", 2003. - 272 s.

    2. Ermolaev A.Yu. Matematisk statistik för psykologer. - M.: Moskvas psykologiska och sociala institut: Flinta, 2003.336s.

    3. Kornilova T.V. Introduktion till psykologiskt experiment. Lärobok för universitet. M.: CheRo Publishing House, 2001.