Zakaj bi uporabljali koeficiente za primerjavo dveh količin in ne za razlikovanje? Metode primerjave po velikosti: neposredna, posredna, z očesometom Kaj lahko primerjamo

Vendar pa tortni grafikon ne zagotavlja vedno potrebne jasnosti predstavitve informacij. Prvič, v enem krogu je lahko preveč sektorjev. Drugič, vsi sektorji so lahko približno enake velikosti. Zaradi teh dveh razlogov je tortni grafikon malo uporaben.

2.Stolpčni grafikon (histogram)-Uporablja se za primerjavo več količin na več točkah.

Stolpčni grafikoni (kot že ime pove) so sestavljeni iz palic. Višina stebra je določenavrednosti primerjanih količin . Vsak stolpec je vezan nareferenčna točka .

3.Črtni grafikon (graf) -Služi za spremljanje sprememb v več količinah pri premikanju z ene točke na drugo.

Izdelava črtnega grafikona je podobna izdelavi stolpčnega grafikona. Toda namesto stolpcev je njihova višina preprosto označena (pike, črtice, križci) in nastale oznake so povezane z ravnimi črtami. Namesto različnih senčenj (senčenje stolpcev) se uporabljajo različne oznake (rombi, trikotniki, križci ipd.), različne debeline in vrste črt (polne, pikčaste ipd.), različne barve.

4. Stopenjski grafikon (zloženi histogram) - Omogoča vizualno primerjavo vsot več količin na več točkah in hkrati prikaže prispevek posamezne količine k skupni vsoti.

Postopek za izdelavo stopenjskega grafikona je zelo podoben postopku za izdelavo stolpčnega grafikona. Razlika je v tem, da stolpci v stopenjskem grafikonu niso postavljeni drug poleg drugega, ampak drug na drugega. Pravila za izračun navpične in vodoravne velikosti grafikona se ustrezno spremenijo.

5. Območni grafikon (površinski grafikon) -Hibrid stopenjskega grafikona z linearnim vam omogoča, da hkrati spremljate spremembo vsake od več količin in spremembo njihove vsote na več točkah.

Posamezni stolpci se združijo v neprekinjena območja. Od tod tudi ime - območni diagram ali območni diagram. Vsako območje ustreza eni vrednosti, ki označuje, katero različno senčenje (barvanje) je uporabljeno. Prej so bili stolpci v nivojih, zdaj so črte (in območja, ki jih označujejo).

    Oblikovanje celic. Oblika številk v Microsoft Excel.

Oblikovanje v Excelu se uporablja za lažje razumevanje podatkov, kar igra pomembno vlogo pri produktivnosti.

Če želite dodeliti obliko, morate narediti naslednje:

2. Izberite ukaz "Oblika" - "Celice" (Ctrl+1).

3. V pogovornem oknu, ki se prikaže, vnesite želene parametre oblikovanja.

4. Kliknite gumb "V redu".

Formatirana celica ohrani svojo obliko, dokler se zanjo ne uporabi oblika. nov format ali stari ni izbrisan. Ko vnesete vrednost v celico, se zanjo uporabi oblika, ki je že uporabljena v celici.

Če želite izbrisati obliko, morate narediti naslednje:

1. Izberite celico (obseg celic).

2. Izberite ukaz "Uredi" - "Počisti" - "Oblike".

3. Če želite izbrisati vrednosti v celicah, izberite ukaz »Vse« v podmeniju »Počisti«.

Upoštevajte, da se pri kopiranju celice skupaj z njeno vsebino kopira tudi oblika celice. Zato lahko prihranite čas tako, da formatirate izvorno celico pred uporabo ukazov za kopiranje in lepljenje

Oblikovanje lahko izvedete tudi z orodnimi vrsticami. Najpogosteje uporabljeni ukazi za oblikovanje se nahajajo v orodni vrstici Oblikovanje. Če želite uporabiti obliko z gumbom v orodni vrstici, izberite celico ali obseg celic in nato kliknite gumb. Če želite format izbrisati, znova pritisnite gumb.

Za hitro kopiranje formatov iz izbranih celic v druge celice lahko uporabite gumb Preslikovalnik oblik na plošči Oblikovanje.

Oblikovanje lahko uporabite tako za posamezne znake besedilne vrednosti v celici kot tudi za celotno celico. Če želite to narediti, morate izbrati želene znake in nato v meniju »Oblika« izbrati ukaz »Celice«. Nato nastavite zahtevane atribute in kliknite »V redu«. Pritisnite tipko Enter, da vidite rezultate svojega dela.

Nastavitev zapisa števila v Excelu

Ker program Excel je zasnovan za obdelavo številk, pravilna nastavitev njihovega formata igra pomembno vlogo. Za ljudi je število 10 preprosto ena in nič. Z vidika Excela lahko ti dve številki posredujeta zelo različne informacije, odvisno od tega, ali predstavljata število zaposlenih v podjetju, denarno vrednost, odstotek celote ali delček naslova "10 najboljših podjetij". V vseh štirih situacijah mora biti ta številka prikazana in obdelana drugače. Excel podpira naslednje formate podatkov:

* Splošno- besedilo in številčne vrednosti poljubna vrsta; * Številčno- najpogostejši način predstavljanja števil; * denarna- denarne vrednosti; * Finančna- denarne vrednosti, poravnane z ločilom celih in delnih delov; * datum- datum ali datum in čas; * Čas- čas ali datum in čas; * Odstotek- vrednost celice pomnožena s 100 s simbolom »%« na koncu; * Ulomek- racionalni ulomki s števcem in imenovalcem; * Eksponentna- decimalna ulomka; * Besedilo- besedilni podatki se izpisujejo enako kot se vnašajo in obdelujejo nizi, ne glede na njihovo vsebino; * Dodatno- formati za delo z bazami podatkov in seznami naslovov; * Po meri- uporabniku prilagodljiv format.

Najpogostejše možnosti formata podatkov lahko dodelite z orodno vrstico Oblikovanje.

1. Kliknite na celico C4 in nato na gumb Odstotna oblika. Vrednost celice C4 bo pomnožena s 100 in ji bo dodan znak »%«.

riž. 9.14. Zavihek za izbiro formata podatkov

2. Pritisnite tipko navzdol in kliknite gumb Format valute.

3. Kliknite celico Sat in nato kliknite Razmejena oblika. Ta gumb povzroči poravnavo števil v stolpcu z uporabo decimalnega ločila.

4. Izberite celico C7 in kliknite na gumb Povečajte bitno globino. Ta gumb ne spremeni osnovnega formata, ampak doda eno števko ulomku števila.

5. Pritisnite tipko Enter in kliknite na gumb Zmanjšajte bitno globino. Ta operacija odstrani eno decimalno mesto in zaokroži število. Zdaj so celice C4 do C9 videti povsem drugače, čeprav so bile vanje prvotno vnesene popolnoma enake številke. Drugi formati so dodeljeni po naslednjih korakih.

6. Kliknite celico C10 in izberite ukaz Oblika > Celice.

7. V pogovornem oknu, ki se odpre, razširite zavihek številka(slika 9.14).

8. Na seznamu Formati števil kliknite na predmet datum.

9. Na seznamu, ki se prikaže Vrsta kliknite na vrstico 14 Mar 01 (14-Mar-01). Nato kliknite na gumb v redu.

riž. 9.15. Različni formati številk

10. Podobno celici C11 dodelite format Exponential, celici C12 pa Numeric format. Sedaj bo tabela videti tako (slika 9.15). Upoštevajte, da se povprečna vrednost tabele ni spremenila, to je, da se pri spreminjanju oblike spremeni samo način prikaza, same številske vrednosti pa ostanejo nespremenjene. Če želite preveriti to dejstvo, sledite tem korakom.

11. Dvokliknite celico C11 in spremenite vrednost 01/03/1900 v 02/03/1900.

12. Pritisnite Enter. Povprečna vrednost tabele (ki je prikazana v denarni obliki) se bo takoj spremenila na 15,41 rubljev. Ko se prijavite, lahko seštejete datume z obrestmi in kot rezultat prejmete rublje. To je tipičen primer napačne dodelitve formatov podatkov.

    Zaščita pločevine. Zaščita celic v Microsoft Excelu.

    Samodejni formati in slogi v Microsoft Excelu.

    Uporaba pogojnega oblikovanja v programu Microsoft Excel.

    Izdelava seznama in podatkovnega obrazca v programu Microsoft Excel. Navedite zahteve za oblikovanje.

    Razvrščanje in filtriranje podatkov v Microsoft Excelu (avtofilter, napredni filter).

    Združevanje in strukturiranje podatkov v programu Microsoft Excel.

    Samodejne vsote: izdelava tabele s povzetkom, prikaz vsot na zaslonu v kontekstu ene ali več skupin zapisov.

    Izdelava vrtilne tabele v programu Microsoft Excel (v zvezku)

    Povezovanje in konsolidacija podatkov. (v zvezku)

    Koncepti teorije baz podatkov. Načela organizacije podatkov.

    Hierarhični in mrežni modeli organizacije podatkov.

    Relacijski model organizacije podatkov. Normalne oblike.

    Pojmi sistemov za upravljanje baz podatkov (DBMS) in njihov namen.

    Profesionalni sistemi za upravljanje baz podatkov (DBMS).

    Namen, postopek delovanja, izdelava podatkovnih baz MS Access DBMS.

    Tabele baze podatkov MS Access: namen, struktura, možnosti izdelave.

    Podatkovni tipi in lastnosti polj v MS Access DBMS.

    Pojem domene, atributa, ključa relacijske baze podatkov.

    Ustvarjanje strukture povezav med tabelami baze podatkov.

    Vrste odnosov in omejitev v MS Access DBMS.

    Pojmi, namen in lastnosti oblik.

    Možnosti za ustvarjanje obrazcev. Uporaba čarovnika za obrazce.

    Delo z oblikovalcem obrazcev. Odseki obrazca.

    Uporaba izrazov in izračunanih polj.

    Vrste kontrolnikov obrazcev.

    Namen, vrste in možnosti za ustvarjanje zahtev.

    Kako uporabljati graditelj poizvedb.

    Filtriranje in razvrščanje podatkov v poizvedbah.

    Uporaba operatorjev in pogojev v poizvedbah.

    Ustvarjanje izračunanih polj in združevanj v poizvedbah.

    Kako delati s poizvedbami z več tabelami.

    Končna vprašanja. Skupinsko delovanje v MS Accessu.

    Spreminjanje informacij s spreminjanjem poizvedb.

    Namen in načini izdelave MS Access poročil.

    Uporabite čarovnika za ustvarjanje poročila.

    Delo z oblikovalcem poročil.

    Združevanje podatkov in vmesnih rezultatov v poročilih.

    Makri v Accessu in njihova zasnova.

    Varovanje podatkov v bazah podatkov.

    Razvrstitev računalniška omrežja. Pojem strežnik, delovne postaje.

    Programska oprema za delo v lokalnih omrežjih in internetu.

    Izmenjava podatkov v omrežjih, protokoli. Omrežna strojna oprema. Povezave med omrežji. Brezžično omrežje.

    Internet, struktura omrežja, osnovni pojmi. Internetne storitve.

    Načela iskanja informacij.

    Indeksiranje in iskalnik.

    Diagram sistema za iskanje informacij. Iskalne strategije. Vmesnik.

    Protivirusni programi in njihova razvrstitev.

    Osnove varovanja podatkov in podatkov, ki so državna skrivnost.

    Načini zaščite programov in podatkov.

    Varnostna strojna oprema.

Analiza podatkov se začne z združevanjem in izračunom opisne statistike znotraj skupin, kot so izračuni srednjih vrednosti in standardnih odklonov.

Če imate dve skupini podatkov, potem je naravno primerjati povprečja v teh skupinah. Tovrstna težava se v praksi pojavlja na več načinov; morda boste želeli na primer primerjati povprečni dohodek dveh skupin ljudi: tistih z visoko izobrazbo in tistih brez višja izobrazba.

V tem poglavju se bomo ukvarjali s spremenljivkami, merjenimi na zvezni lestvici, kot sta dohodek ali krvni tlak. Spremenljivke, merjene na slabih lestvicah, preučujemo s posebnimi metodami. Zlasti kategorične spremenljivke se preučujejo z uporabo kontingenčnih tabel (glej poglavje Analiza in izdelava tabel). Spremenljivke, merjene na ordinalnih lestvicah, preučujemo z uporabo neparametrične statistike (glej poglavje Neparametrična statistika).

Razmislimo o tipični težavi. Recimo, da pri izdelavi betona pridete na idejo, da bi mu dodali novo komponento in verjamete, da bo to povečalo trdnost betona. Da bi preverili svoje domneve in jih dokazali potrošniku, ste vzeli več vzorcev betona z dodatkom in več vzorcev brez dodatka ter vsakemu vzorcu izmerili trdnost.

Tako smo dobili dva stolpca (dve skupini) številk: trdnost vzorcev z dodatkom in trdnost vzorcev brez dodatka. Kako lahko te skupine smiselno primerjamo?

Očiten pristop je primerjava deskriptivnih statistik, kot so srednje vrednosti dveh skupin. Seveda bi lahko primerjali mediane ali druge opisne statistike, vendar je naravno, da začnemo s primerjavo povprečij. Torej imate dve povprečji: povprečje za prvo skupino in povprečje za drugo skupino.

Eno povprečje lahko formalno odštejete od drugega in na podlagi velikosti razlike sklepate, da učinek obstaja. Vendar je priporočljivo upoštevati razpršitev podatkov glede na povprečje, torej variacijo (glej poglavje Osnovni pojmi). Očitno mora razumen postopek upoštevati razlike. Prva stvar, ki pride na misel, je ustrezno normalizirati razliko med sredinama dveh vzorcev (skupin podatkov), tako da jo na primer delimo s standardnim odklonom (kvadratnim korenom variacije).

Prav tako je razmišljal W. Gosset, angleški statistik, znan pod psevdonimom Student, ki je izumil t-test za primerjavo povprečij dveh vzorcev.

Recimo, da preizkušamo hipotezo, da je dodatek neučinkovit (ali kot pravijo v žargonu analize podatkov: brez učinka zdravljenja), z drugimi besedami, povprečja v obeh skupinah so enaka. Ta položaj ustreza alternativi, po kateri obstaja učinek - trdnost betona se poveča, ko se mu doda nova komponenta.

Upoštevajte, da je alternativa lahko izražena na drug način, na primer povprečja niso enaka ali pa se je povprečna trdnost vzorcev povečala (dodatek je povzročil povečanje trdnosti betona).

Če vzorec naključno razdelite na dva dela in primerjate uspešnost prve in druge skupine, potem imate najverjetneje opravka z neodvisnimi skupinami.

V STATISTICI T-test je na voljo v obeh možnostih organizacije podatkov.

Naravni razvoj grafa primerjalnih povprečij je posplošitev t-testa na tri ali več skupin podatkov, kar vodi do analize variance (v angleški terminologiji je ANOVA okrajšava za Analysis of Variation), pa tudi do multivariatne. odgovor. Če imamo opravka z multivariantnim odzivom, uporabimo metode MANOVA. Če povzamemo, metode ANOVA omogočajo razumno primerjavo skupinskih povprečij, kadar obstajata več kot dve skupini. Na primer, če želite primerjati dohodke prebivalcev več regij, lahko uporabite analizo variance. Če preučujete dve regiji, uporabite t-test.

Opišimo en primer, ki ne sodi v splošno shemo. Predstavljajte si, da preučujete kategorično spremenljivko, ki ima dve vrednosti, 0 in 1, in želite primerjati razlike v pogostosti pojavljanja 1 v obeh skupinah. Na primer, želite primerjati relativno število glasov, oddanih za kandidata v dveh volilnih okrajih. Izraz relativno število pomeni število glasov, oddanih za kandidata, deljeno s skupnim številom volivcev. Statistični kriterij za primerjavo frekvenc (deležev, deležev...) je implementiran v modulu Osnovne statistike in tabele v pogovornem oknu Drugi kriteriji pomembnosti.


T-test za neodvisne vzorce

T test je najpogosteje uporabljena metoda za odkrivanje razlike med sredinama dveh vzorcev. Še enkrat vas opozarjamo, da je treba spremenljivke meriti na precej bogati lestvici, na primer kvantitativno.

Seveda ima uporaba t-testa nekatere omejitve, čeprav zelo šibke.

V teoriji se t-test lahko uporablja tudi, če je velikost vzorca zelo majhna (na primer 10; nekateri raziskovalci trdijo, da je mogoče pregledati manjše vzorce) in če so spremenljivke normalno porazdeljene (znotraj skupin) in variance opažanja znotraj skupin niso zelo različna. Znano je, da je t-test odporen na odstopanja od normale.

Predpostavko o normalnosti je mogoče preizkusiti s preučevanjem porazdelitve (na primer z vizualno uporabo histogramov) ali z uporabo testa normalnosti. Opozoriti je treba, da je možno hipotezo o normalnosti učinkovito testirati za dovolj veliko količino podatkov (glej Fisherjevo pripombo o testiranju normalnosti, ki smo jo navedli v poglavju Osnovni koncepti analize podatkov).

Previdneje je treba pristopiti k razliki v variancah primerjanih skupin. Enakost varianc v dveh skupinah in to je ena od predpostavk F-test, lahko preverite z F-test (ki je vključen v izhodno tabelo t-test v STATISTICA). Uporabite lahko tudi bolj stabilen Levenov kriterij.

Pri primerjavi povprečij so, tako kot vedno pri analizi podatkov, izjemno uporabni. vizualne metode. Na primer, spodnja tabela kategoriziranega razpona kaže pomembno razliko v sredstvih za moške in ženske. V grafikonu pike prikazujejo povprečne vrednosti, pa tudi standardna odstopanja (pravokotniki) in standardne napake(odseki ravne črte), izračunani ločeno za moške in ženske.


Graf prikazuje razlike v variancah v skupinah - višina pravokotnika ŽENSKA je večja od višine pravokotnika MOŠKI.

Če so pogoji uporabnosti t-testi niso izpolnjeni, je mogoče razliko med obema skupinama podatkov oceniti z uporabo ustrezne neparametrične alternative t-testu (za razpravo o uporabi alternativnih postopkov glejte poglavje Neparametrična statistika).

P-raven pomembnosti f-testa je enaka verjetnosti napačne zavrnitve hipoteze, da med vzorčnimi sredinami ni razlike, ko je resnična (to je, ko so srednje vrednosti dejansko enake).

Nekateri raziskovalci predlagajo, da v primeru, ko se upoštevajo razlike v samo eni smeri (na primer spremenljivka X je večja (manjša) v prvi skupini kot v drugi), upoštevamo enostransko t-porazdelitev in rezultat razdelimo na dvostranski t-test p-ravni na polovico. Drugi predlagajo, da vedno delate s standardnim dvostranskim t-testom.

Če želite uporabiti t-test za neodvisne vzorce, potrebujete vsaj, ena neodvisna (združevalna) spremenljivka in ena odvisna spremenljivka (na primer testna vrednost nekega indikatorja, ki se primerja v dveh skupinah).

Prvič, z uporabo vrednosti spremenljivke za združevanje, na primer moški in ženski, če je spremenljivka za združevanje Spol ali Ima visokošolsko izobrazbo in Brez fakultete, če je spremenljivka za združevanje Izobrazba, se podatki razdelijo v dve skupini. Nato se za vsako skupino izračuna povprečje odvisne spremenljivke, kot je krvni tlak ali dohodek. Ta vzorčna povprečja se primerjajo med seboj.

Seveda pri uporabi T-test, tako kot vsak drug test pri analizi podatkov, zahteva zdrav razum. Aplikacija T-test ni upravičen, če vrednosti dveh spremenljivk nista primerljivi. Na primer, če primerjate povprečje neke mere v vzorcu bolnikov pred in po zdravljenju, vendar z uporabo različnih metod izračuna

kvantitativni indikator ali druge enote v drugi dimenziji, potem je mogoče zelo pomembne vrednosti t-testa pridobiti umetno s spreminjanjem merskih enot. Prav tako ni smiselno primerjati dohodkov, izraženih v rubljih, z večkratnimi devalvacijami ali visoko inflacijo.

Naslednji razdelek podaja formule za izračun statistike Studentovega testa t za testiranje enakosti srednjih vrednosti dveh vzorcev. Če vas le zanima praktično uporabo, ta razdelek lahko preskočite.

Formalna definicija t-testa

Formalno v primeru dveh skupin (k = 2) statistika T-test ima obliko:

kjer je x¯ 1 (n 1)m x¯ 2 (n 2) vzorčna sredina prvega in drugega vzorca, s ~2 je ocena variance, sestavljena iz ocen variance za vsako skupino podatkov:

Če je hipoteza: »povprečja v dveh skupinah enaka« resnična, potem ima statistika t^(n 1 +n 2 -2) Studentovo porazdelitev z (n 1 +n 2 -2) prostostnimi stopnjami (glej, na primer referenčna publikacija Ayvazyan S A., Enyukov I. S., Meshalkin L. D., Uporabna statistika., M.: Finance in statistika, 1983. P. 395-397).

Velike absolutne vrednosti statistike t^(n 1 + n 2 - 2) pričajo proti hipotezi o enakosti povprečnih vrednosti.

Z uporabo verjetnostnega kalkulatorja STATISTICA bomo našli točko 100a/2 % Studentove porazdelitve z (n 1 + n 2 - 2) prostostnimi stopnjami.

Najdeno točko označimo z ×

Če | t^(n 1 +n 2 -2)| > t(a /2), potem je hipoteza zavrnjena.

Upoštevajte, da lahko velike absolutne vrednosti Studentove t statistike t^(n 1 + n 2 -2) nastanejo tako zaradi pomembne razlike v povprečjih kot zaradi pomembne razlike v variancah primerjanih skupin.

Statistični test za enakost ali homogenost variance dveh normalnih vzorcev temelji na statistiki:

ki ima pod hipotezo: »variance v obeh skupinah enake« porazdelitev F(n 1 -1,n 2 -1).

Nastavimo stopnjo pomembnosti a.

S pomočjo verjetnostnega kalkulatorja izračunamo 100(1 - a/2)% in 100(a/2)% distribucijske točke F(n 1 -1, n 2 -1).

Če je F 1-a/2 (n 1 -1, n 2 -1)< F(n 1 -1, n 2 -1) < F a/2 (n 1 -1, n 2 -1), то гипотеза об однородности дисперсии не отвергается.

T-test za odvisne vzorce

V kolikšni meri se povprečja obeh skupin razlikujejo, je odvisno od variacije (variance) spremenljivk znotraj skupine.

Odvisno od tega, kako različne so te vrednosti za vsako skupino, "surova razlika" med skupinskimi povprečji kaže na močnejšo ali šibkejšo stopnjo povezave med neodvisnimi (združevalnimi) in odvisnimi spremenljivkami.

Na primer, če je bila v študiji povprečna vrednost WCC (število belih krvnih celic) 102 za moške in 104 za ženske, bi bila razlika samo 2 med srednjimi vrednostmi znotraj skupine izjemno pomembna, če bi bile vse vrednosti WCC vseh moških med 101 in 103. in vse vrednosti WCC za ženske so v območju 103-105. Nato je mogoče precej dobro napovedati WCC (vrednost odvisne spremenljivke) glede na spol osebe (neodvisna spremenljivka). Če pa dobimo isto razliko 2 iz zelo razpršenih podatkov (na primer, ki se spreminjajo od 0 do 200), potem lahko razliko popolnoma zanemarimo.

Tako je jasno, da zmanjšanje variacije znotraj skupine poveča občutljivost merila.

Test T za odvisne vzorce je ugoden, kadar je mogoče zlahka identificirati pomemben vir variacije znotraj skupine (ali napake) in ga izključiti iz analize. To velja zlasti za poskuse, pri katerih dve skupini opazovanj, ki ju primerjamo, temeljita na istem vzorcu opazovanj (predmetov), ​​ki so testirani dvakrat (na primer bolniki pred in po zdravljenju).

V takšnih poskusih lahko znaten del znotrajskupinske variabilnosti (variacije) v obeh skupinah pojasnimo z individualnimi razlikami med osebami. Upoštevajte, da se ta situacija v resnici ne razlikuje zelo od situacije, ko so primerjane skupine popolnoma neodvisne (glejte t-test za neodvisne vzorce), kjer individualne razlike prav tako prispevajo k varianci napake. Vendar v primeru neodvisnih vzorcev glede tega ne morete storiti ničesar, ker ne boste mogli identificirati (ali »odstraniti«) dela variacije, povezanega z individualnimi razlikami med osebami. Če se isti vzorec testira dvakrat, se lahko ta del variacije zlahka odpravi.

Namesto preučevanja vsake skupine posebej in analiziranja neobdelanih vrednosti, lahko preprosto pogledamo razlike med dvema meriloma (npr. pred testom in po testu) za vsak subjekt. Če prve vrednosti odštejete od druge (za vsak predmet) in nato analizirate samo te "čiste (parne) razlike", boste izključili tisti del variacije, ki je posledica razlik v začetnih ravneh posameznikov.

V primerjavi s t-testom za neodvisne vzorce daje ta pristop vedno »boljši« rezultat, saj postane merilo bolj občutljivo.

Teoretične predpostavke I-testa za neodvisne vzorce veljajo tudi za test odvisnih vzorcev. To pomeni, da morajo biti parne razlike normalno porazdeljene. Če to ne drži, potem lahko uporabite enega od alternativnih neparametričnih testov (glejte poglavje Neparametrična statistika).

V sistemu STATISTICA lahko ^-test za odvisne vzorce izračunamo za sezname spremenljivk in si jih nato ogledamo kot matriko. Manjkajoči podatki se obdelajo po parih ali vrstico za vrstico.

V tem primeru se lahko pomembni rezultati pojavijo "čisto po naključju". Če imate veliko neodvisnih poskusov, potem »čisto po naključju« lahko najdete enega ali več poskusov, katerih rezultati so pomembni.

Kot že omenjeno, primerjave povprečij v več kot dveh skupinah izvajamo z analizo variance (angleška okrajšava - ANOVA).

Če obstajata več kot dva „odvisna vzorca“ (na primer pred obdelavo, po obdelavi 1 in po obdelavi 2), se lahko uporabi ANOVA ponovljenih meritev. Ponavljajoče se meritve v ANOVA si lahko predstavljamo kot posplošitev testa f za odvisne vzorce za povečanje občutljivosti analize.

Na primer, analiza variance vam omogoča, da hkrati nadzirate ne samo osnovno raven odvisne spremenljivke, temveč tudi druge dejavnike in vključite več kot eno odvisno spremenljivko v eksperimentalni načrt.

Zanimiva je naslednja tehnika združevanja rezultatov več t-testov. To tehniko je mogoče uporabiti tudi za kombiniranje rezultatov drugih meril (glej: Handbook of Applied Statistics / Uredila E. Lloyd in W. Lederman, zv. 1. M.: Finance and Statistics, 1989. Str. 274). Ta primer je za nas zanimiv tudi zato, ker lahko pokažemo nove zmožnosti STATISTICE.

Primer 1

Recimo, da ste z neodvisnimi poskusi dobili stopnje pomembnosti a(1), a(2) ... a(m). Predpostavimo, da te ravni niso dovolj prepričljive. Če so ravni pomembnosti nedokončne, je morda smiselno združiti podatke in jih obravnavati kot rezultat enega celotnega poskusa.

Pod ničelno hipotezo so ravni pomembnosti, obravnavane kot naključne spremenljivke, enakomerno porazdeljene. Zato vrednost

L = -2× (Ln(a(l)) + Ln(a(2)) + ... + Ln(a(m))

ima hi-kvadrat porazdelitev z 2 m prostostnih stopinj.

Če smo na primer pri preizkusih trdnosti betona dobili premalo prepričljive vrednosti 0,047, 0,054, 0,042, potem je stopnja pomembnosti kombiniranega poskusa 0,005547 in hipoteza o neučinkovitosti aditiva je jasno zavrnjena.

Da bi to razumeli, bomo uporabili orodja sistema STATISTICA. Najprej izračunajmo vrednost L, na primer tako, da nastavimo formulo v preglednici.

Ustvarite datoteko in v prvo vrstico vnesite naslednji vnos:

Spremenljivka var7 vsebuje vrednost L, izračunano po formuli.


Nato odprite verjetnostni kalkulator STATISTICA, v njem izberite hi-kvadrat porazdelitev, vnesite število prostostnih stopinj b in v polje hi-kvadrat vnesite vrednost 18,29.


Posledično na terenu R dobili smo 0,005547.

Tako dobimo skupno raven pomembnosti treh t-testov (primerjaj z rezultati, podanimi v Handbook of Applied Statistics, ki sta ga uredila E. Lloyd in W. Lederman, zv. 1. M.: Finance and Statistics, 1989. Str. 275). To je očitno visoka stopnja pomembnosti, zato je ničelna hipoteza zavrnjena.

Primer 2

Tukaj bomo delali z datoteko intemet2000.sta. Uporabite lahko tudi datoteko ad.study.sta iz mape Primeri.

Datoteka intemet2000.sta vsebuje rezultate ankete več uporabnikov o njihovem dojemanju strani ENNUI in POURRITURE.

Tovrstne podatke je enostavno pridobiti prek interneta. Na svoji spletni strani lahko na primer objavite vprašalnik, ki ga bodo obiskovalci izpolnjevali.

V tem modelnem primeru so uporabniki ocenjevali mesta na različnih lestvicah (popolnost, izdelljivost rešitve, informativnost, dizajn itd.). V vsaki izmed lestvic so anketiranci spletno mesto ocenjevali na desetstopenjski lestvici, od 0 do 9 točk.

Zanimivo vprašanje: ali moški in ženske različno dojemajo spletne strani?

Moški lahko na nekaterih lestvicah dosegajo višje ali nižje rezultate kot ženske.

Za rešitev tega problema lahko uporabite t-test za neodvisne vzorce. Spremenljivka za združevanje spol razdeli podatke v dve skupini. Vzorce moških in žensk bomo primerjali glede na srednjo vrednost njihovih rezultatov na vsaki lestvici. Vrnite se na lansirno ploščo in kliknite postopek t-testa neodvisnih vzorcev, da odprete pogovorno okno T -merilo za neodvisne vzorce (skupine).


Kliknite gumb Spremenljivke da odprete pogovorno okno za izbiro standardne spremenljivke. Tukaj lahko izberete neodvisne (združevanje) in odvisne spremenljivke.

Za naš primer izberite spremenljivko SPOL kot neodvisno spremenljivko in spremenljivke 3 do 25 (ki vsebujejo odgovore) kot odvisne spremenljivke.


Kliknite v redu v tem pogovornem oknu, da se vrnete v pogovorno okno, kjer je prikazana vaša izbira.


Iz pogovornega okna T-test za neodvisne vzorce (skupine) Na voljo so tudi številni drugi načini zdravljenja.

Kliknite v redu za prikaz tabele z rezultati.


Večina na hiter način Ključ do pregleda tabele je, da pogledate peti stolpec (ki vsebuje p-ravni) in ugotovite, katere p-vrednosti so nižje od ugotovljene ravni pomembnosti 0,05.

Za večino odvisnih spremenljivk so srednje vrednosti za obe skupini (MOŠKI - MOŠKI in ŽENSKE - ŽENSKE) zelo blizu.

Edina spremenljivka, za katero f-test ustreza uveljavljeni stopnji pomembnosti 0,05, je Measur 7, za katero je p-raven 0,0087. Kot kažejo stolpci s povprečnimi vrednostmi (glej prva dva stolpca), ima ta spremenljivka pri moških v povprečju bistveno večje vrednosti - v izbrani merilni lestvici za moške znaša 5,46, za ženske pa 3,63. Obenem ne moremo izključiti možnosti, da opažene razlike dejansko ni in je le posledica naključnega naključja (glej spodaj), čeprav se to zdi malo verjetno.

Privzeti izris za te tabele z rezultati je razpon. Če želite izrisati ta grafikon, z desno miškino tipko kliknite kjer koli v vrstici, ki ustreza odvisni spremenljivki (na primer povprečje za Measur 7).

V kontekstnem meniju, ki se odpre, izberite risanje Diagram obsega iz podmenija Hitri statistični grafi. Nato izberite možnost Povprečje/standardna napaka/standardni odklon. okno. Diagram obsega in pritisnite v redu zgraditi graf.

Razlika v povprečjih v grafu se zdi pomembnejša in je ni mogoče pojasniti zgolj na podlagi variabilnosti izvirnih podatkov.

Vendar je na grafu opazna še ena nepričakovana razlika. Varianca za skupino žensk je veliko večja od variance za skupino moških (poglejte kvadratke, ki predstavljajo standardne odklone, enake kvadratnemu korenu variance).

Če se variance v obeh skupinah značilno razlikujejo, je ena od zahtev za uporabo r-testa kršena, zato je treba razliko v povprečjih upoštevati še posebej natančno.

Poleg tega je varianca običajno povezana s povprečjem, kar pomeni, da večja kot je sredina, večja je varianca.


Vendar se v tem primeru opazi nekaj nasprotnega. V takšni situaciji bi izkušeni raziskovalec predlagal, da porazdelitev spremenljivke Measur 7 morda ni normalna (za moške, ženske ali oboje).

Zato razmislimo o kriteriju razlike variance, da preverimo, ali je razlika, opažena na grafu, res vredna pozornosti.

Vrnimo se v tabelo z rezultati in se pomaknimo v desno, videli bomo rezultate F-testa. Vrednost F-testa res ustreza določeni stopnji pomembnosti 0,05, kar pomeni pomembno razliko v variancah spremenljivke Measur 7 v skupinah MOŠKI - MOŠKI in ŽENSKE - ŽENSKE.

Vendar pa je pomembnost opažene razlike v variancah blizu mejne ravni pomembnosti (njena p-raven je 0,029).


Večina raziskovalcev meni, da samo to dejstvo ni dovolj, da bi razveljavili t-test za razliko v povprečjih, ki daje visoko stopnjo pomembnosti za to razliko (p - 0,0087).

Več primerjav

Pri primerjavi povprečij v treh ali več skupinah je mogoče uporabiti več primerjalnih postopkov. Izraz večkratne primerjave preprosto pomeni več primerjav.

Težava je sledeča: imamo n > 2 neodvisni skupini podatkov in želimo primerjati njihove srednje vrednosti na razumen način. Recimo, da smo uporabili F-test in zavrnili hipotezo: "srednje vrednosti vseh skupin so enake." Naša naravna želja je najti homogene skupine, katerih povprečja so med seboj enaka.

Seveda lahko primerjamo skupine s t-testom in najdemo podobne skupine z več primerjavami. Vendar se izkaže, da je težko izračunati napako izvedenega postopka ali, kot pravijo, sestavljenega testa, izhajajoč iz določene stopnje pomembnosti vsakega t-testa.

Težaven del je v tem, da ko primerjate veliko skupin s t-testom, lahko učinek ugotovite čisto po naključju. Predstavljajte si, da ste izvedli preskušanje novega zdravila na 1000 klinikah in na vsaki kliniki primerjali skupino bolnikov, ki so jemali zdravilo, s skupino bolnikov, ki so jemali placebo. Seveda se lahko čisto slučajno najde kakšna klinika, kjer boste našli učinek. Vendar pa je z veliko verjetnostjo to lahko umetniški učinek.

Da bi se zaščitili pred tovrstnimi nesrečami, se uporabljajo posebni kriteriji za več ali več primerjav.

V sistemu STATISTICA je v modulu implementiranih več primerjalnih postopkov Osnovne statistike in tabele v dialogu


Opis postopkov večkratne primerjave najdete na primer v knjigi: Kendayal M. J. in Stewart A. Statistično sklepanje in razmerja. M.: Nauka, 1973. Str. 71-79.

Upoštevajte, da so najpogostejše metode za primerjavo več skupin implementirane v modulu Splošna analiza variance.

V modulu se lahko izvede enosmerna ANOVA Osnovne statistike in tabele.


Enosmerna analiza variance in post hoc primerjave povprečij

Torej, če želite nadaljevati s preučevanjem razlik med več skupinami, je treba nadaljnjo analizo izvesti v pogovornem združevanju in enosmerni analizi variance (ANOVA). Delamo s podatki, ki so v datoteki adstudy.sta (mapa Primeri).

Sledite nam z naslednjimi nastavitvami.

Najprej izberite združevanje in odvisne spremenljivke v podatkovni datoteki na standarden način.

Nato izberite kode za združevanje spremenljivk. S pomočjo teh kod so opazovanja v datoteki razdeljena v več skupin, ki jih bomo primerjali.


Ko so izbrane spremenljivke za analizo in definirane kode spremenljivk za združevanje, kliknite v redu in zaženite postopek izračuna.

V oknu, ki se prikaže, si lahko podrobno ogledate rezultate analize.


Pozorno si oglejte pogovorno okno. Rezultate lahko prikažemo v obliki tabel in grafov. Na primer, s postopkom lahko preizkusite pomembnost razlik v povprečjih Analiza variance.

Kliknite gumb Analiza variance in videli boste rezultate enosmerne ANOVE za vsako odvisno spremenljivko.


Upoštevajte, da se pri analizi tabele variance že ukvarjamo s F-testom.

Kot izhaja iz rezultatov, je za spremenljivke Ukrep 5, Ukrep 7 in Ukrep 9 postopek enosmerna analiza variance dal statistično pomembne rezultate na ravni p<0,05.

Ti rezultati kažejo, da je razlika v sredstvih pomembna. Torej z uporabo F-testa (ta kriterij posploši t-test na število skupin, večje od dveh), zavrnemo hipotezo o homogenosti primerjanih skupin.

Vrnite se v pogovorno okno z rezultati in kliknite gumb Post hoc primerjave povprečij da bi ocenili pomembnost razlik med sredstvi posameznih skupin. Prvi korak je izbira odvisne spremenljivke. V tem primeru bomo izbrali spremenljivko Measur 7.

Ko kliknete v redu v oknu za izbiro spremenljivk se na zaslonu prikaže pogovorno okno Post hoc primerjave povprečij.


V tem oknu lahko izberete več posteriornih kriterijev.

Izberimo za primer test najmanj pomembne razlike (LSD).

Test ISR je enakovreden t testu neodvisnih vzorcev, ki temelji na N primerjanih skupinah.

T-test neodvisnih vzorcev kaže (preverite STATISTIKO A!), da obstaja pomembna razlika med odgovori MOŠKIH in ŽENSKIH za spremenljivko Measur 7.


Uporaba postopka Združevanje in enosmerna ANOVA, vidimo (glej tabelo rezultatov), ​​da obstaja pomembna razlika v povprečjih le pri posameznikih, ki so izbrali SOKE.

Grafični prikaz rezultatov. Razlike v sredstvih so vidne v grafih, ki so na voljo v pogovornem oknu Deskriptivna statistika in korelacije znotraj razreda - rezultati.

Na primer, če želite primerjati porazdelitve izbranih spremenljivk znotraj skupin, kliknite gumb Categorized Range Plots in izberite možnost Mediana/kvart/razpon iz pogovornega okna Diagram obsega.

Ko kliknete v redu,STATISTICA bo ustvarila kaskado diagramov obsega.


Graf kaže, da obstaja jasna razlika med skupino ŽENSKA - SOKE in skupino MOŠKI - SOKE.

Tovrstno analizo s postopno bolj zapletenim združevanjem in primerjavo povprečij v dobljenih skupinah, ki se še posebej pogosto uporablja v množičnih raziskavah, je mogoče uspešno izvesti v STATISTICA.

Seznanitev z vrednostjo je ena od nalog čutne in duševne vzgoje predšolski otroci.

V procesu vsakdanjega življenja, zunaj posebnega usposabljanja otroci ne obvladajo splošno sprejetih merilnih metod, le z večjo ali manjšo mero uspeha poskušajo kopirati zunanja dejanja odraslih, pogosto brez poglabljanja v njihov pomen in vsebino.

Na podlagi značilnosti otrokovih predstav o velikosti predmetov, Pedagoško delo je zgrajeno v določenem zaporedju.

Na začetku se oblikuje ideja o velikosti kot prostorski značilnosti predmeta. Otroci se naučijo prepoznati ta znak skupaj z drugimi z uporabo posebne tehnike pregleda: nanašanje in prekrivanje.

Praktično primerjanje(primerjanje) kontrastnih in enako velikih predmetov, otroci vzpostavi razmerja »enakost - neenakost«.

PRIMERJAVA se imenuje operacija ugotavljanja podobnosti in razlik med predmeti in pojavi resničnega sveta.

Rezultati primerjave se odražajo v govoru z uporabo pridevnikov: daljši, krajši, enak(enake dolžine), širši, ožji, enak(enake širine), višje, nižje, enako(enake višine), več, manj, enako(enake velikosti) itd. Tako je na začetku za en atribut zagotovljena samo parna primerjava objektov.

Na tej podlagi se nadaljuje nadaljnje delo, med katero otroci učen pri primerjavi več predmetov uporabite enega od njih kot model.

Prakse uporabe in prekrivanja uporabiti za sestavljanje urejene (serijske) serije. Potem se otroci učijo ustvarite ga po pravilu. Razporeditev predmetov (3-5 kosov) v naraščajočem ali padajočem vrstnem redu po dolžini, širini, višini in drugih značilnostih to odraža v govoru: najširši, najožji, najožji, najožji in itd.

Nadaljnja naloga - utrditi sposobnost sestavljanja niza predmetov po dolžini, širini, višini in drugih značilnostih, ki to pravilno odražajo v govoru, razvijajo otroško oko, jih naučijo določiti velikost različnih predmetov z očmi, jih primerjati z velikostjo znanih predmetov in tudi z uporabo konvencionalnega merila.



torej

- v mladinski in srednji določajo predšolski otroci velikosti predmetov z neposredno primerjavo(aplikacije ali prosojnice);

V starejših - velja in posreden način primerjave(ocena velikosti zaznanih predmetov v primerjavi z dobro znanimi, s katerimi se je otrok prej srečal v izkušnjah, merjenje z običajnim merilom).

MERITEV vključuje dve logični operaciji:

Prvi je postopek ločevanja, ki otroku omogoča razumevanje, da je celoto mogoče razbiti na dele;

Drugi je nadomestna operacija, sestavljen iz povezovanja posameznih delov.

Bistvo merjenja obsega kvantitativno delitev merjenih objektov in ugotavljanje vrednosti danega objekta glede na sprejeto mero. Z merilno operacijo se vzpostavi številčno razmerje med merjeno količino in vnaprej izbrano mersko enoto, lestvico ali standardom.

Merilna dejavnost je precej zapletena. Zahteva posebne veščine, poznavanje merskega sistema in uporabo merilnih instrumentov. Uporaba pogojnih mer počne otrokom dostopna meritev. Izraz "merjenje po običajnih standardih" pomeni sposobnost uporabe merilnih instrumentov.

V vrtcu otroci obvladajo več vrst MERITEV Z OBIČAJNIMI STANDARDI.

Na prvi pogled je treba pripisati linearno merjenje ko se otroci s pomočjo trakov papirja, palic, vrvi, stopnic in drugih običajnih meril naučijo meriti dolžino, širino, višino različnih predmetov.

Druga vrsta meritev - določanje z uporabo konvencionalne mere prostornine trdnih snovi v razsutem stanju: otroci se naučijo uporabljati vrček, kozarec, žlico in druge posode za merjenje količine žit in kristalnega sladkorja v vrečki.

Tretja vrsta- to je merjenje tekočin z običajnim merilom, da ugotovite, koliko kozarcev vode je v dekanterju itd.

Uporaba meritev daje natančnost odnosov, vzpostavljenih med postopkom merjenja"enakost - neenakost", "del - celota", nam omogoča popolnejšo in globljo identifikacijo njihovih lastnosti.

Tako so v predšolski vzgojni ustanovi merilne dejavnosti elementarne, propedevtične narave. Otrok se najprej nauči meriti predmete z običajnimi etaloni in šele s tem se ustvarijo predpogoji za obvladovanje »pravega« merjenja.

Orientacija otrok glede velikosti predmetov je v veliki meri odločen OČESNI METER- najpomembnejša čutna sposobnost. Razvoj očesa je neposredno povezan z obvladovanjem posebnih metod primerjanja predmetov. Sprva otroci primerjajo predmete po dolžini, širini, višini s praktično uporabo in uporabo, nato pa na podlagi meritev. Oko, tako rekoč, posplošuje praktična dejanja roke.

V srednji skupini posveča veliko pozornosti razvoj oči. Otroci dobijo »naloge, da iz štirih ali petih predmetov poiščejo vzorec, ki je po velikosti enak vzorcu ali večji, manjši (poišči enako dolžino, poišči daljše, krajše ipd.). Za dokončanje vseh nalog, predvidenih v programu srednje skupine, morate opraviti vsaj 10-12 lekcij.

Znanje in veščine, pridobljene pri tovrstnih urah, so nujne načrtno utrditi in uporabiti v drugih dejavnostih:

Primerjajte velikosti različnih delov rastlin,

· izberite trakove zahtevanih velikosti za popravilo knjig,

· risati, klesati predmete primernih velikosti,

· opazovati, kako se spreminjajo dimenzije hiše v gradnji itd.

Veliko pozornosti posvečamo razvoju očesa pri otrocih. Na podlagi obvladovanja tehnik neposrednega primerjanja velikosti predmetov (prekrivanje, nanašanje, merjenje z merilom) se otroci učijo reševati probleme, ki zahtevajo vedno bolj zapletena vizualna dejanja.

Starejši predšolski otroci izvajati kompleksnejše kot v povprečni skupini naloge za razvoj očesa:

· z očmi najti predmete, ki so večji ali manjši od vzorca;

· izberi dva predmeta tako, da bosta skupaj enaka vzorcu itd.

Območje iskanja predmetov zahtevane velikosti se postopoma širi.

Za vzorec lahko služijo različni predmeti. Istočasno lahko isti vzorec uporabimo za primerjavo predmetov po dolžini, širini itd. Otroci vsakič preverijo pravilnost rešitve očesnega problema s tehniko nanašanja (tesno) ali merjenjem z merilom. Podobne naloge lahko otrokom postavimo pri različnih vrstah dejavnosti.

V procesu usposabljanja otrok za gradnjo urejene serije učitelj uvede pravilo: predmetov ni mogoče pritrditi ali preurediti. Otroci na oko poiščejo vsak naslednji element med preostalimi.

Lahko se ponudi in bolj zapletene naloge. Na primer, izberite 2 predmeta na oko in iz njih naredite tretjega, enakega vzorcu; vzpostaviti korespondenco med več (2-3) vrstami predmetov, razvrščenih po velikosti.

Temu delu je treba posvetiti pozornost ne toliko pri pouku matematike, ampak med igralnimi urami. Izven pouka uporabljajo didaktične igre Zloži plošče, Postavi jih v red, Katera škatla?, Kdo je prvi? (avtor T. G. Vasiljeva).

Prejšnje opombe so opisale postopke za preizkušanje hipotez o numeričnih in kategoričnih podatkih: , več , in tudi , kar vam omogoča, da preučite enega ali . V tem zapisu bomo obravnavali metode za preverjanje hipotez o razlikah med deleži lastnosti v splošnih populacijah na podlagi več neodvisnih vzorcev.

Za ponazoritev uporabljenih metod je uporabljen scenarij za oceno zadovoljstva hotelskih gostov, v lasti podjetja T.S. Resort Properties. Predstavljajte si, da ste direktor podjetja, ki ima v lasti pet hotelov na dveh letoviških otokih. Če so gostje zadovoljni s storitvijo, obstaja velika verjetnost, da se naslednje leto vrnejo in svojim prijateljem priporočajo bivanje v vašem hotelu. Za oceno kakovosti storitev goste prosimo, da izpolnijo vprašalnik in povedo, ali so zadovoljni z gostoljubnostjo. Podatke ankete morate analizirati, da ugotovite splošno zadovoljstvo gostov, ocenite verjetnost, da se bodo gostje prihodnje leto vrnili, in ugotovite razloge za morebitno nezadovoljstvo nekaterih strank. Na primer, na enem od otokov je podjetje lastnik hotelov Beachcomber in Windsurfer. Ali je postrežba v teh hotelih enaka? Če ne, kako se lahko te informacije uporabijo za izboljšanje uspešnosti podjetja? Poleg tega, če so nekateri gostje rekli, da ne bodo več prišli k vam, kakšne razloge navajajo pogosteje kot drugi? Ali je mogoče reči, da se ti razlogi nanašajo le na določen hotel in ne na celotno podjetje?

Tukaj so uporabljeni naslednji zapisi: X 1 - število uspehov v prvi skupini, X 2 - število uspehov v drugi skupini, n 1 X 1 - število okvar v prvi skupini, n 2 X 2 - število okvar v drugi skupini, X =X 1 + X 2 - skupno število uspehov, nX = (n 1 X 1 ) + (n 2 X 2 ) - skupno število napak, n 1 - volumen prvega vzorca, n 2 - volumen drugega vzorca, n = n 1 + n 2 - skupna velikost vzorca. Prikazana tabela ima dve vrstici in dva stolpca, zato se imenuje faktorska tabela 2x2. Celice, ki jih tvori presečišče vsake vrstice in stolpca, vsebujejo število uspehov ali neuspehov.

Ponazorimo uporabo kontingenčne tabele s primerom zgoraj opisanega scenarija. Recimo, da vprašanje "Ali se vrneš naslednje leto?" 163 od 227 gostov v hotelu Beachcomber in 154 od 262 gostov v hotelu Windsurfer je odgovorilo pritrdilno. Ali obstaja statistično pomembna razlika med zadovoljstvom hotelskih gostov (kakšna je verjetnost, da se bodo gostje v naslednjem letu vrnili), če je stopnja pomembnosti 0,05?

riž. 2. Faktorska tabela 2x2 za ocenjevanje kakovosti storitev gostov

Prva vrstica označuje število gostov v vsakem hotelu, ki so navedli, da bi se radi vrnili naslednje leto (uspeh); v drugi vrstici - število gostov, ki so izrazili nezadovoljstvo (neuspeh). Celice v stolpcu Skupaj vsebujejo skupno število gostov, ki se nameravajo v naslednjem letu vrniti v hotel, ter skupno število gostov, ki niso zadovoljni s storitvijo. Celice v vrstici »Skupaj« vsebujejo skupno število anketiranih gostov v vsakem hotelu. Odstotek gostov, ki se nameravajo vrniti, se izračuna tako, da se število gostov, ki so to izjavili, deli s skupnim številom anketiranih hotelskih gostov. Nato se za primerjavo izračunanih deležev uporabi test χ 2.

Za testiranje ničelne in alternativne hipoteze H 0: p 1 = p 2; Н 1: р 1 ≠ р 2 uporabimo test χ 2 -statistiko.

Hi-kvadrat test za primerjavo dveh razmerij. Testna χ 2 -statistika je enaka vsoti kvadratov razlik med opazovanim in pričakovanim številom uspehov, deljeno s pričakovanim številom uspehov v vsaki celici tabele:

Kje f 0- opazovano število uspehov ali neuspehov v določeni celici kontingenčne tabele značilnosti, f e

Testna χ 2 -statistika je aproksimirana s χ 2 -porazdelitvijo z eno prostostno stopnjo.

Ali napake v vsaki celici tabele nepredvidljivih dogodkov, morate razumeti njihov pomen. Če je ničelna hipoteza resnična, tj. deleži uspešnosti v obeh populacijah so enaki, izračunana vzorčna deleža za vsako od obeh skupin se lahko med seboj razlikujeta le iz naključnih razlogov, oba deleža pa sta ocena splošnega parametra populacije R. V tej situaciji je statistika, ki združuje oba deleža v eno skupno (povprečno) oceno parametra R , predstavlja skupni delež uspehov v združenih skupinah (tj. enako skupnemu številu uspehov, deljeno s celotno velikostjo vzorca). Njen dodatek, 1 – , predstavlja skupno stopnjo napak v združenih skupinah. Z uporabo zapisov, katerih pomen je opisan v tabeli na sl. 1. lahko izpeljete formulo (2) za izračun parametra :

Kje – povprečni delež lastnosti.

Za izračun pričakovanega števila uspehov fe(tj. vsebino prve vrstice kontingenčne tabele), je treba velikost vzorca pomnožiti s parametrom . Za izračun pričakovanega števila napak f e(tj. vsebino druge vrstice kontingenčne tabele), je treba velikost vzorca pomnožiti s parametrom 1 – .

Testna statistika, izračunana s formulo (1), je aproksimirana s porazdelitvijo χ 2 z eno prostostno stopnjo. Za dano raven pomembnosti α se ničelna hipoteza zavrne, če je izračunana statistika χ 2 večja od χ U 2 , zgornje kritične vrednosti porazdelitve χ 2 z eno prostostno stopnjo. Odločitveno pravilo je torej naslednje: hipoteza H 0 se zavrne, če je χ 2 > χ U 2 , sicer pa hipoteza H 0 ne odstopa (sl. 3).

riž. 3. Kritično območje testa χ 2 za primerjavo deležev na stopnji pomembnosti α

Če je ničelna hipoteza resnična, je izračunana statistika χ 2 blizu ničle, ker je kvadrat razlike med opazovanimi f 0 in pričakovano fe Vrednosti v vsaki celici so zelo majhne. Po drugi strani pa, če je nična hipoteza H 0 je napačen in med deleži uspehov v splošnih populacijah obstaja pomembna razlika, mora biti izračunana χ 2 -statistika velika. To je razloženo z razliko med opazovanim in pričakovanim številom uspehov ali neuspehov v vsaki celici, ki se poveča, ko se kvadrira. Vendar prispevki razlik med pričakovanimi in opazovanimi vrednostmi k skupni statistiki χ 2 morda niso enaki. Enaka dejanska razlika med f 0 in f e ima lahko večji vpliv na statistiko χ 2, če celica vsebuje rezultate majhnega števila opazovanj, kot razlika, ki ustreza večjemu številu opazovanj.

Za ponazoritev χ 2 -merila za testiranje hipoteze, da sta dva deleža enaka, se vrnimo k prej opisanemu scenariju, katerega rezultati so prikazani na sl. 2. Ničelna hipoteza (H 0: p 1 = p 2) pravi, da sta pri primerjavi kakovosti storitev v dveh hotelih deleža gostov, ki se nameravajo vrniti naslednje leto, skoraj enaka. Za oceno parametra R, ki predstavlja delež gostov, ki se nameravajo vrniti v hotel; če je ničelna hipoteza resnična, se uporabi vrednost , ki se izračuna po formuli

Delež gostov, ki niso bili zadovoljni s storitvijo = 1 – 0,6483 = 0,3517. Če ta dva deleža pomnožimo s številom anketiranih gostov Beachcomberja, dobimo pričakovano število gostov, ki se nameravajo vrniti naslednjo sezono, in število dopustnikov, ki ne bodo več bivali v tem hotelu. Podobno se izračunajo tudi pričakovani deleži gostov v hotelu Windsurfer:

Da - Beachcomber: = 0,6483, n 1 = 227 torej f e = 147,16.
Da - Windsurfer: = 0,6483, n 2 = 262 torej f e = 169,84.
Ne - Beachcomber: 1 – = 0,3517, n 1 = 227 torej f e = 79,84.
Ne - Windsurfer: 1 – = 0,3517, n 2 = 262 torej f e = 92,16.

Izračuni so predstavljeni na sl. 4.

riž. 4. Statistika χ 2 za hotele: (a) začetni podatki; (b) Tabela faktorjev 2x2 za primerjavo opazovanih ( f 0 ) in pričakovano ( fe) število gostov, zadovoljnih in nezadovoljnih s storitvijo; (c) izračun statistike χ 2 pri primerjavi deleža gostov, zadovoljnih s storitvijo; (d) izračun kritične vrednosti testne χ 2 -statistike

Za izračun kritične vrednosti testne χ 2 -statistike uporabljamo Excel funkcija=HI2.INR(). Če je stopnja pomembnosti α = 0,05 (verjetnost, zamenjana s funkcijo CH2.OBR, je 1 –α) in ima porazdelitev χ 2 za faktorsko tabelo 2 × 2 eno prostostno stopnjo, je kritična vrednost statistike χ 2 je 3.841. Ker je izračunana χ 2 -statistična vrednost 9,053 (slika 4c) večja od 3,841, je ničelna hipoteza zavrnjena (slika 5).

riž. 5. Določitev kritične vrednosti testne χ 2 -statistike z eno prostostno stopnjo pri stopnji pomembnosti α = 0,05

Verjetnost R da je ničelna hipoteza resnična s statistiko χ 2, ki je enaka 9,053 (in eno prostostno stopnjo), se izračuna v Excelu z uporabo funkcije =1 – CH2.DIST(9,053;1;TRUE) = 0,0026. R-vrednost 0,0026 je verjetnost, da je razlika med vzorčnima deležema gostov, zadovoljnih s storitvijo v hotelih Beachcomber in Windsurfer, enaka ali večja od 0,718 – 0,588 = 0,13, če sta dejansko njuna deleža v obeh populacijah enaka. . Zato obstaja močan argument, da obstaja statistično značilna razlika v storitvah za goste med obema hoteloma. Raziskave kažejo, da je število gostov zadovoljnih s postrežbo v hotelu Beachcomber večja količina gostje, ki nameravajo ponovno bivati ​​v hotelu Windsurfer.

Preizkušanje predpostavk v zvezi s faktorsko tabelo 2x2. Za pridobitev natančnih rezultatov iz podatkov v tabeli 2x2 mora biti število uspehov ali neuspehov večje od 5. Če ta pogoj ni izpolnjen, je natančna Fisherjev test.

Pri primerjavi odstotka strank, zadovoljnih s kakovostjo storitev v dveh hotelih, testa Z in χ 2 vodita do enakih rezultatov. To je mogoče razložiti z obstojem tesne povezave med standardizirano normalno porazdelitvijo in porazdelitvijo χ 2 z eno prostostno stopnjo. V tem primeru je χ 2 -statistika vedno na kvadrat Z-statistika. Pri ocenjevanju zadovoljstva gostov smo na primer ugotovili, da Z-statistika je +3,01 in χ 2 -statistika je 9,05. Če zanemarimo napake pri zaokroževanju, je enostavno preveriti, da je druga vrednost kvadrat prve (tj. 3,01 2 = 9,05). Poleg tega lahko s primerjavo kritičnih vrednosti obeh statistik na ravni pomembnosti α = 0,05 ugotovimo, da je vrednost χ 1 2, enaka 3,841, kvadrat zgornje kritične vrednosti Z-statistike, ki je enaka + 1,96 (tj. χ 1 2 = Z 2). Še več, R- vrednosti obeh kriterijev so enake.

Tako je mogoče trditi, da pri testiranju ničelne in alternativne hipoteze H 0: p 1 = p 2; Н 1: р 1 ≠ р 2 kriterija Z in χ 2 sta enakovredna. Če pa je treba ne samo zaznati razlike, ampak tudi ugotoviti, kateri delež je večji (p 1 > p 2), naj uporabite Z-test z eno kritično regijo, omejeno z repom standardizirane normalne porazdelitve. Nato bomo opisali uporabo testa χ 2 za primerjavo deležev lastnosti v več skupinah. Upoštevati je treba, da Z-merila v tej situaciji ni mogoče uporabiti.

Uporaba testa χ 2 za preverjanje hipoteze o enakosti več deležev

Hi-kvadrat test lahko razširimo na bolj splošen primer in uporabimo za preverjanje hipoteze o enakosti več deležev lastnosti. Število analiziranih samostojnih populacij označimo s črko z. Zdaj je kontingenčna tabela značilnosti sestavljena iz dveh vrstic in z stolpce. Za testiranje ničelne in alternativne hipoteze H 0: p 1 = p 2 = … = str 2, H 1: Ne vsi Rj enaki drug drugemu (j = 1, 2, …, c), uporabi se test χ 2 -statistika:

Kje f 0- opaženo število uspehov ali neuspehov v določeni celici faktorske tabele 2* z, fe- teoretično ali pričakovano število uspehov ali neuspehov v določeni celici kontingenčne tabele, pod pogojem, da je ničelna hipoteza resnična.

Če želite izračunati pričakovano število uspehov ali neuspehov v vsaki celici tabele nepredvidljivih dogodkov, morate upoštevati naslednje. Če je ničelna hipoteza resnična in so deleži uspeha v vseh populacijah enaki, se lahko ustrezni vzorčni deleži med seboj razlikujejo samo zaradi naključnih razlogov, saj vsi deleži predstavljajo ocene deleža lastnosti R v splošni populaciji. V tem primeru je statistika, ki združuje vse deleže v eno skupno (ali povprečno) oceno parametra R, vsebuje več informacij kot vsak od njih posebej. Ta statistika, označena z , predstavlja skupni (ali povprečni) delež uspehov v združenem vzorcu.

Izračun povprečnega deleža:

Za izračun pričakovanega števila uspehov f e v prvi vrstici kontingenčne tabele je potrebno količino vsakega vzorca pomnožiti s parametrom. Za izračun pričakovanega števila napak f e v drugi vrstici kontingenčne tabele je potrebno količino vsakega vzorca pomnožiti s parametrom 1 – . Testna statistika, izračunana s formulo (1), je približana s porazdelitvijo χ 2 . Število prostostnih stopinj te porazdelitve je podano s količino (r – 1)(c – 1) , Kje r- število vrstic v faktorski tabeli, z- število stolpcev v tabeli. Za faktorsko tabelo 2*sštevilo prostostnih stopinj je enako (2 – 1)(s – 1) = s – 1. Za dano raven pomembnosti α se ničelna hipoteza zavrne, če je izračunana χ 2 -statistika večja od zgornje kritične vrednosti χ U 2, ki je del porazdelitve χ 2 z s – 1 stopnje svobode. Odločitveno pravilo je torej naslednje: hipoteza H 0 se zavrne, če je χ 2 > χ U 2 (slika 6), sicer se hipoteza zavrne.

riž. 6. Kritično območje testa χ 2 za primerjavo z deležem na stopnji pomembnosti α

Predpostavke testiranja v zvezi s faktorsko tabelo 2*c. Za pridobitev natančnih rezultatov na podlagi podatkov iz faktorske tabele 2* z, je nujno, da je število uspehov ali neuspehov dovolj veliko. Nekateri statistiki verjamejo, da test daje natančne rezultate, če so pričakovane frekvence večje od 0,5. Bolj konzervativni raziskovalci zahtevajo, da največ 20 % celic v kontingenčni tabeli ne vsebuje pričakovanih vrednosti, ki so nižje od 5, in nobena celica ne sme vsebovati pričakovane vrednosti, ki je manjša od ena. Zadnji pogoj se nam zdi razumen kompromis med tema skrajnostma. Za izpolnitev tega pogoja je treba kategorije, ki vsebujejo majhne pričakovane vrednosti, združiti v eno. Po tem postane merilo natančnejše. Če iz nekega razloga združevanje več kategorij ni mogoče, je treba uporabiti alternativne postopke.

Za ponazoritev testa χ 2 za preverjanje hipoteze o enakosti deležev v več skupinah se vrnimo k scenariju, opisanemu na začetku poglavja. Oglejmo si podobno raziskavo, v kateri sodelujejo gostje treh hotelov, ki pripadajo podjetju T.S. Resort Resources (slika 7a).

riž. 7. Faktorska tabela 2x3 za primerjavo števila gostov, zadovoljnih in nezadovoljnih s storitvijo: (a) opaženo število uspehov ali neuspehov - f 0; (b) pričakovano število uspehov ali neuspehov – fe; (c) izračun statistike χ 2 pri primerjavi deleža gostov, zadovoljnih s storitvijo

Ničelna hipoteza navaja, da je delež strank, ki se nameravajo vrniti v naslednjem letu, skoraj enak v vseh hotelih. Za oceno parametra R, ki predstavlja delež gostov, ki se nameravajo vrniti v hotel, se uporablja vrednost R = X /n= 513 / 700 = 0,733. Odstotek gostov, ki niso bili zadovoljni s storitvijo, je 1 – 0,733 = 0,267. Če pomnožimo tri deleže s številom anketiranih gostov v posameznem hotelu, dobimo pričakovano število gostov, ki se nameravajo vrniti naslednjo sezono, ter število strank, ki v tem hotelu ne bodo več bivale (slika 7b).

Za testiranje ničelne in alternativne hipoteze se uporablja statistika testa χ 2, izračunana z uporabo pričakovanih in opazovanih vrednosti v skladu s formulo (1) (slika 7c).

Kritična vrednost testne χ 2 -statistike je določena s formulo =HI2.OBR(). Ker so v anketi sodelovali gostje treh hotelov, ima statistika χ 2 (2 – 1)(3 – 1) = 2 prostostni stopnji. Pri stopnji pomembnosti α = 0,05 je kritična vrednost statistike χ 2 5,991 (slika 7d). Ker izračunana χ 2 -statistika 40,236 presega kritično vrednost, je ničelna hipoteza zavrnjena (slika 8). Po drugi strani pa verjetnost R dejstvo, da je ničelna hipoteza resnična s statistiko χ 2, ki je enaka 40,236 (in dvema prostostnima stopnjama), se izračuna v Excelu z uporabo funkcije =1-CHI2.DIST() = 0,000 (slika 7d). R-vrednost je 0,000 in nižja od ravni pomembnosti α = 0,05. Zato je ničelna hipoteza zavrnjena.

riž. 8. Področja sprejemanja in zavračanja hipoteze o enakosti treh deležev pri stopnji pomembnosti 0,05 in dveh prostostnih stopnjah

Zavrnitev ničelne hipoteze pri primerjavi deležev, navedenih v faktorski tabeli 2* z, lahko rečemo le, da se deleži gostov, zadovoljnih s storitvijo v treh hotelih, ne ujemajo. Da bi ugotovili, kateri režnji so drugačni od drugih, je treba uporabiti druge metode, kot je postopek Marascuilo.

Postopek Marascuilo omogoča primerjavo vseh skupin v parih. V prvi fazi postopka se izračunajo razlike p s j – p s j ’ (kjer jj) med s(s – 1)/2 v parih delnic. Ustrezni kritični razponi se izračunajo po formuli:


Na skupni ravni pomembnosti α je vrednost kvadratni koren zgornje kritične vrednosti porazdelitve hi-kvadrat, ki ima s – 1 stopnje svobode. Za vsak par frakcij vzorca je treba izračunati ločeno kritično območje. Na zadnji stopnji vsak od s(s – 1)/2 pare delnic primerjamo z ustreznim kritičnim razponom. Deleži, ki sestavljajo določen par, veljajo za statistično značilno različne, če je absolutna razlika vzorčnih deležev |p s j – p s j | presega kritično območje.

Naj ponazorimo Marascuilov postopek na primeru anketiranja gostov treh hotelov (slika 9a). S hi-kvadrat testom smo ugotovili, da obstaja statistično pomembna razlika med deleži hotelskih gostov, ki se nameravajo vrniti v naslednjem letu. Ker anketa vključuje goste iz treh hotelov, je potrebno izvesti 3(3 – 1)/2 = 3 parne primerjave in izračunati tri kritične razpone. Najprej izračunajmo tri vzorčne deleže (slika 9b). Pri splošni stopnji pomembnosti 0,05 je zgornja kritična vrednost testne statistike χ 2 za porazdelitev hi-kvadrat, ki ima (c – 1) = 2 prostostni stopnji, določena s formulo =CI2.ORB(0,95;2) = 5,991. Torej, = 2,448 (slika 9c). Nato izračunamo tri pare absolutnih razlik in ustrezne kritične razpone. Če je absolutna razlika večja od kritičnega razpona, se ustrezni deleži štejejo za bistveno drugačne (slika 9d).

riž. 9. Rezultati postopka Marascuilo za preverjanje hipoteze o enakosti deležev zadovoljnih gostov treh hotelov: (a) podatki ankete; (b) deleži vzorcev; (c) zgornja kritična vrednost testne χ 2 statistike za porazdelitev hi-kvadrat; (d) trije pari absolutnih razlik in ustrezni kritični razponi

Kot vidimo, je pri stopnji pomembnosti 0,05 stopnja zadovoljstva gostov hotela Palm Royal (p s2 = 0,858) višja kot pri gostih Zlate palme (p s1 = 0,593) in Palm Princess. hoteli (p s3 = 0,738). Poleg tega je stopnja zadovoljstva gostov v hotelu Palm Princess višja kot v hotelu Zlata palma. Ti rezultati naj bi prisilili vodstvo, da analizira razloge za te razlike in poskuša ugotoviti, zakaj je zadovoljstvo gostov hotela Zlata palma bistveno nižje kot gostov drugih hotelov.

Uporabljeno je gradivo iz knjige Levin et al. Statistika za menedžerje. – M.: Williams, 2004. – str. 708–730

Oglejte si sliko. Vidiš dve čaši, od katerih vsaka vsebuje določeno količino tekočine. Povejte mi, v kateri čaši je več tekočine? Če mislite, da je na desni strani, se motite! Pravilen odgovor je naslednji: zaradi napake, ki nastane pri merjenju prostornine tekočine s temi čašami, ni mogoče ugotoviti, v kateri čaši je več tekočine.

Kako naj bi to razumeli? Spomnimo se, da uporabo katerega koli merilnega instrumenta nujno spremlja merilna napaka. Odvisno je od vrednosti delitve lestvice te naprave. Ker so razdelki na desni čaši večji, bo to pomenilo, da bo napaka pri merjenju volumna večja. Izmerimo prostornine tekočin v čašah z upoštevanjem napak.

Na dveh številskih premicah upodabljamo izmerjene vrednosti prostornine (označene z rumenimi pikami) in intervale med mejami merilnih napak:



Za razliko od izmerjenih vrednosti se prave vrednosti volumnov tekočin nahajajo na neznanem mestu znotraj intervalov. Prava prostornina tekočine v levi čaši je lahko na primer 270 ml, dejanska prostornina tekočine v desni čaši pa na primer 250 ml (označeno z rdečimi pikami).



Posebej smo izbrali drugo "rdečo" številko manj kot prvo (navsezadnje se lahko zgodi tudi taka situacija). To pomeni, da lahko desna čaša vsebuje manjšo prostornino tekočine kot leva, kljub dejstvu, da je nivo tekočine v desni čaši višji. Neverjetno, a resnično!