Zmenšenie rozmeru priestoru funkcií. Úvod do znižovania rozmerov Redukcia rozmerov a výber najinformatívnejších premenných

Kľúčové slová

MATEMATIKA / APLIKOVANÁ ŠTATISTIKA / MATEMATICKÁ ŠTATISTIKA/ BODY RASTU / METÓDA HLAVNÝCH KOMPONENTOV / FAKTOROVÁ ANALÝZA / VIACDIMENZIONÁLNE STUPNENIE / ODHAD ROZMERNOSTI ÚDAJOV / ODHAD ROZMEROV MODELU/ MATEMATIKA / APLIKOVANÁ ŠTATISTIKA / MATEMATICKÁ ŠTATISTIKA / BODY RASTU / ANALÝZA HLAVNÝCH KOMPONENTOV / ANALÝZA FAKTOROV / VIACDIMENZIONÁLNE ŠKÁLOVANIE / ODHAD ROZMERU DÁT / ODHAD ROZMERU MODELU

anotácia vedecký článok o matematike, autor vedeckej práce - Orlov Alexander Ivanovič, Lutsenko Evgeniy Veniaminovich

Jeden z „bodov rastu“ aplikovanej štatistiky sú metódy na redukciu rozmernosti priestoru štatistických údajov. Stále viac sa používajú pri analýze údajov v špecifickom aplikovanom výskume, napríklad v sociologickom výskume. Uvažujme o najsľubnejších metódach redukcie rozmerov. Metóda hlavnej zložky je jednou z najčastejšie používaných metód redukcie rozmerov. Pre vizuálnu analýzu dát sa často používajú projekcie pôvodných vektorov do roviny prvých dvoch hlavných komponentov. Zvyčajne je dobre viditeľná dátová štruktúra, rozlišujú sa kompaktné zhluky objektov a jednotlivé vektory. Metóda hlavnej zložky je jednou z metód faktorová analýza. Nový nápad v porovnaní s metóda hlavných komponentov spočíva v tom, že na základe zaťažení sú faktory rozdelené do skupín. Faktory, ktoré majú podobný vplyv na prvky nového základu, sa spájajú do jednej skupiny. Potom sa odporúča ponechať jedného zástupcu z každej skupiny. Niekedy sa namiesto výberu zástupcu výpočtom vytvorí nový faktor, ktorý je pre príslušnú skupinu ústredný. Pokles rozmerov nastáva pri prechode na systém faktorov, ktoré sú zástupcami skupín. Ostatné faktory sú vylúčené. Rozsiahla trieda metód je založená na použití vzdialeností (miery blízkosti, rozdielové ukazovatele) medzi charakteristikami viacrozmerné škálovanie. Hlavnou myšlienkou tejto triedy metód je reprezentovať každý objekt ako bod v geometrickom priestore (zvyčajne rozmeru 1, 2 alebo 3), ktorého súradnice sú hodnoty skrytých (latentných) faktorov, ktoré spolu primerane opísať objekt. Ako príklad aplikácie pravdepodobnostného štatistického modelovania a výsledkov štatistiky nenumerických údajov zdôvodníme konzistentnosť odhadu dimenzie dátového priestoru v r. viacrozmerné škálovanie, ktorú predtým navrhol Kruskal z heuristických dôvodov. Množstvo prác na odhad rozmerov modelu(v regresnej analýze a teórii klasifikácie). Sú uvedené informácie o algoritmoch na redukciu rozmerov v automatizovanej systémovo-kognitívnej analýze

Súvisiace témy vedecké práce z matematiky, autor vedeckej práce - Orlov Alexander Ivanovič, Lutsenko Evgeniy Veniaminovich

  • Matematické metódy v sociológii štyridsaťpäť rokov

  • Rôzne objekty nenumerickej povahy

  • Odhad parametrov: Jednokrokové odhady sú vhodnejšie ako odhady maximálnej pravdepodobnosti

  • Aplikovaná štatistika – stav a vyhliadky

    2016 / Orlov Alexander Ivanovič
  • Stav a perspektívy rozvoja aplikovanej a teoretickej štatistiky

    2016 / Orlov Alexander Ivanovič
  • Vzťah medzi limitnými teorémami a metódou Monte Carlo

    2015 / Orlov Alexander Ivanovič
  • O vývoji štatistiky objektov nenumerického charakteru

    2013 / Orlov Alexander Ivanovič
  • Body rastu štatistických metód

    2014 / Orlov Alexander Ivanovič
  • O nových perspektívnych matematických nástrojoch pre controlling

    2015 / Orlov Alexander Ivanovič
  • Vzdialenosti v štatistických dátových priestoroch

    2014 / Orlov Alexander Ivanovič

Jedným z „bodov rastu“ aplikovanej štatistiky sú metódy znižovania dimenzie štatistických údajov. Stále viac sa využívajú pri analýze údajov v špecifickom aplikovanom výskume, akým je napríklad sociológia. Skúmame najsľubnejšie metódy na zníženie rozmerov. Hlavné komponenty sú jednou z najčastejšie používaných metód na zníženie rozmerov. Pre vizuálnu analýzu dát sa často používajú projekcie pôvodných vektorov na rovinu prvých dvoch hlavných komponentov. Zvyčajne je dobre viditeľná dátová štruktúra, zvýraznené kompaktné zhluky objektov a samostatne pridelené vektory. Hlavnými komponentmi sú jedna metóda faktorovej analýzy. Nová myšlienka faktorovej analýzy v porovnaní s metódou hlavných komponentov spočíva v tom, že na základe zaťaženia sa faktory rozdeľujú do skupín. V jednej skupine faktorov je nový faktor kombinovaný s podobným vplyvom na prvky nového základu. Potom sa každej skupine odporúča ponechať jedného zástupcu. Niekedy namiesto výberu zástupcu výpočtom ide o nový faktor, ktorý je pre príslušnú skupinu ústredný. Zmenšená dimenzia nastáva pri prechode na systémové faktory, ktorými sú zástupcovia skupín. Ostatné faktory sú vylúčené. Na využití vzdialenosti (miery blízkosti, indikátory rozdielov) medzi vlastnosťami a rozsiahlou triedou sú založené metódy viacrozmerného škálovania. Základnou myšlienkou tejto triedy metód je predstaviť každý objekt ako bod geometrického priestoru (zvyčajne dimenzie 1, 2 alebo 3), ktorého súradnice sú hodnoty skrytých (latentných) faktorov, ktoré sa primerane kombinujú opísať objekt. Ako príklad aplikácie pravdepodobnostného a štatistického modelovania a výsledkov štatistiky nenumerických údajov odôvodňujeme konzistentnosť odhadov rozmeru údajov vo viacrozmernom škálovaní, ktoré predtým navrhol Kruskal z heuristických úvah. Uvažovali sme o množstve konzistentných odhadov dimenzie modelov (v regresnej analýze av teórii klasifikácie). Poskytujeme tiež niekoľko informácií o algoritmoch na zníženie rozmerov v automatizovanej systémovo-kognitívnej analýze

Text vedeckej práce na tému „Metódy na zníženie dimenzionality priestoru štatistických údajov“

UDC 519.2: 005.521:633.1:004.8

01.00.00 Fyzikálne a matematické vedy

METÓDY ZNÍŽENIA DIMENZIONALITY ŠTATISTICKÉHO DÁTOVÉHO PRIESTORU

Orlov Alexander Ivanovič

Doktor ekonómie, doktor technických vied, kandidát fyzikálnych a matematických vied, profesor

RSCI BRS kód: 4342-4994

Moskovská štátna technická univerzita

Univerzita pomenovaná po N.E. Bauman, Rusko, 105005,

Moskva, 2. ul. Baumanskaja, 5, [email protected]

Lutsenko Evgeniy Veniaminovich Doktor ekonómie, kandidát technických vied, profesor RSCI BRS kód: 9523-7101 Kubánska štátna agrárna univerzita, Krasnodar, Rusko prof.lutsenko@gmail. com

Jedným z „bodov rastu“ aplikovanej štatistiky sú metódy zmenšovania rozmeru priestoru štatistických údajov. Stále viac sa používajú pri analýze údajov v špecifickom aplikovanom výskume, napríklad v sociologickom výskume. Uvažujme o najsľubnejších metódach redukcie rozmerov. Analýza hlavných komponentov je jednou z najčastejšie používaných metód redukcie rozmerov. Pre vizuálnu analýzu dát sa často používajú projekcie pôvodných vektorov do roviny prvých dvoch hlavných komponentov. Zvyčajne je dobre viditeľná dátová štruktúra, rozlišujú sa kompaktné zhluky objektov a jednotlivé vektory. Metóda hlavných komponentov je jednou z metód faktorovej analýzy. Nová myšlienka v porovnaní s metódou hlavných komponentov je, že faktory sú rozdelené do skupín na základe zaťaženia. Faktory, ktoré majú podobný vplyv na prvky nového základu, sa spájajú do jednej skupiny. Potom sa odporúča ponechať jedného zástupcu z každej skupiny. Niekedy sa namiesto výberu zástupcu výpočtom vytvorí nový faktor, ktorý je pre príslušnú skupinu ústredný. Pokles rozmerov nastáva pri prechode na systém faktorov, ktoré sú zástupcami skupín. Ostatné faktory sú vylúčené. Rozsiahla trieda metód viacrozmerného škálovania je založená na použití vzdialeností (miery blízkosti, indikátory rozdielov) medzi charakteristikami. Hlavnou myšlienkou tejto triedy metód je reprezentovať každý objekt ako bod v geometrickom priestore (zvyčajne rozmeru 1, 2 alebo 3), ktorého súradnice sú hodnoty skrytých (latentných) faktorov, ktoré spolu primerane popísať

MDT 519.2: 005.521:633.1:004.8

Fyzika a matematické vedy

METÓDY ZMENŠOVANIA PRIESTOROVÉHO ROZMERU ŠTATISTICKÝCH ÚDAJOV

Orlov Alexander Ivanovič

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Bauman Moskovská štátna technická univerzita, Moskva, Rusko

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., profesor RSCI SPIN-code: 9523-7101

Štátna agrárna univerzita Kuban, Krasnodar, Rusko

prof.lutsenko@gmail. com

Jedným z „bodov rastu“ aplikovanej štatistiky sú metódy znižovania dimenzie štatistických údajov. Stále viac sa využívajú pri analýze údajov v špecifickom aplikovanom výskume, akým je napríklad sociológia. Skúmame najsľubnejšie metódy na zníženie rozmerov. Hlavné komponenty sú jednou z najčastejšie používaných metód na zníženie rozmerov. Pre vizuálnu analýzu dát sa často používajú projekcie pôvodných vektorov na rovinu prvých dvoch hlavných komponentov. Zvyčajne je dobre viditeľná dátová štruktúra, zvýraznené kompaktné zhluky objektov a samostatne pridelené vektory. Hlavnými komponentmi sú jedna metóda faktorovej analýzy. Nová myšlienka faktorovej analýzy v porovnaní s metódou hlavných komponentov spočíva v tom, že na základe zaťaženia sa faktory rozdeľujú do skupín. V jednej skupine faktorov je nový faktor kombinovaný s podobným vplyvom na prvky nového základu. Potom sa každej skupine odporúča ponechať jedného zástupcu. Niekedy namiesto výberu zástupcu výpočtom ide o nový faktor, ktorý je pre príslušnú skupinu ústredný. Zmenšená dimenzia nastáva pri prechode na systémové faktory, ktorými sú zástupcovia skupín. Ostatné faktory sú vylúčené. Na využití vzdialenosti (miery blízkosti, indikátory rozdielov) medzi vlastnosťami a extenzívnou triedou sú založené metódy viacrozmerného škálovania. Základnou myšlienkou tejto triedy metód je predstaviť každý objekt ako bod geometrického priestoru (zvyčajne dimenzie 1, 2 alebo 3), ktorého súradnice sú hodnoty skrytých (latentných) faktorov, ktoré sa primerane kombinujú opísať objekt. Ako príklad aplikácie pravdepodobnostného a štatistického modelovania a výsledkov štatistiky nenumerických údajov odôvodňujeme konzistentnosť odhadov tzv.

objekt. Ako príklad aplikácie pravdepodobnostného štatistického modelovania a výsledkov štatistiky nenumerických údajov zdôvodníme konzistentnosť odhadu dimenzie dátového priestoru pri viacrozmernom škálovaní, ktorú predtým navrhol Kruskal z heuristických dôvodov. Zvažuje sa množstvo prác o odhadovaní rozmerov modelov (v regresnej analýze a teórii klasifikácie). Sú uvedené informácie o algoritmoch na redukciu rozmerov v automatizovanej systémovo-kognitívnej analýze

Kľúčové slová: MATEMATIKA, APLIKOVANÁ ŠTATISTIKA, MATEMATICKÁ ŠTATISTIKA, BODY RASTU, METÓDA HLAVNÝCH KOMPONENTOV, FAKTOROVÁ ANALÝZA, VIACDIMENZIONÁLNE ŠKÁLOVANIE, ODHAD ROZMERNOSTI DÁT, ODHAD ROZMERNOSTI MODELU

rozmer údajov vo viacrozmernom škálovaní, ktoré predtým navrhol Kruskal z heuristických úvah. Uvažovali sme o množstve konzistentných odhadov dimenzie modelov (v regresnej analýze av teórii klasifikácie). Poskytujeme tiež niekoľko informácií o algoritmoch na zníženie rozmerov v automatizovanej systémovo-kognitívnej analýze

Kľúčové slová: MATEMATIKA, APLIKOVANÁ ŠTATISTIKA, MATEMATICKÁ ŠTATISTIKA, BODY RASTU, ANALÝZA HLAVNÝCH KOMPONENTOV, ANALÝZA FAKTOROV, VIACDIMENZIONÁLNE ŠKÁROVANIE, ODHAD ROZMERU ÚDAJOV, ODHAD ROZMERU MODELU

1. Úvod

Ako už bolo uvedené, jedným z „bodov rastu“ aplikovanej štatistiky sú metódy na zmenšenie rozmeru priestoru štatistických údajov. Stále viac sa používajú pri analýze údajov v špecifickom aplikovanom výskume, napríklad v sociologickom výskume. Uvažujme o najsľubnejších metódach redukcie rozmerov. Ako príklad aplikácie pravdepodobnostno-štatistického modelovania a výsledkov štatistiky nenumerických údajov zdôvodníme konzistentnosť odhadu rozmeru priestoru, ktorý predtým navrhol Kruskal pre heuristické úvahy.

Vo viacrozmernej štatistickej analýze je každý objekt opísaný vektorom, ktorého rozmer je ľubovoľný (ale rovnaký pre všetky objekty). Človek však môže priamo vnímať iba číselné údaje alebo body v rovine. Analýza zhlukov bodov v trojrozmernom priestore je oveľa zložitejšia. Priame vnímanie údajov vyššej dimenzie je nemožné. Preto je celkom prirodzené chcieť prejsť od viacrozmernej vzorky k malorozmerným údajom, aby sa „mohli použiť na

pozri“. Napríklad obchodník môže jasne vidieť, koľko je k dispozícii rôzne druhy spotrebiteľské správanie (t. j. koľko segmentov trhu je vhodné identifikovať) a ktorí spotrebitelia (s akými vlastnosťami) sú do nich zaradení.

Okrem túžby po jasnosti existujú aj iné motívy znižovania dimenzionality. Tie faktory, od ktorých nezávisí premenná, o ktorú má výskumník záujem, len zasahujú do štatistickej analýzy. Po prvé, finančné, časové a personálne zdroje sa vynakladajú na zhromažďovanie informácií o nich. Po druhé, ako je možné dokázať, ich zaradenie do analýzy zhoršuje vlastnosti štatistických postupov (najmä zvyšuje rozptyl odhadov parametrov a distribučných charakteristík). Preto je vhodné sa takýchto faktorov zbaviť.

Pri analýze viacrozmerných údajov sa zvyčajne neberie do úvahy jeden, ale mnoho problémov, najmä rozdielny výber nezávislých a závislých premenných. Zvážte preto problém redukcie rozmerov v nasledujúcej formulácii. Je uvedená viacrozmerná vzorka. Je potrebné prejsť z neho na množinu vektorov nižšej dimenzie so zachovaním štruktúry pôvodných údajov v maximálnej možnej miere bez straty, pokiaľ možno, informácií obsiahnutých v údajoch. Úloha je špecifikovaná v rámci každej konkrétnej metódy redukcie rozmerov.

2. Metóda hlavnej zložky

Je to jedna z najčastejšie používaných techník redukcie rozmerov. Jeho hlavnou myšlienkou je dôsledne identifikovať smery, v ktorých majú dáta najväčší rozptyl. Nech vzorka pozostáva z vektorov identicky rozdelených s vektorom X = (x(1), x(2), ... , x(n)). Zoberme si lineárne kombinácie

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ...+ X2(n) = 1. Tu vektor X = (X(1), X(2), ..., X(n)) leží na jednotke guľa v n-rozmernom priestore.

Pri metóde hlavnej zložky sa najskôr zistí smer maximálneho rozptylu, t.j. také X, pri ktorom rozptyl náhodnej premennej 7(X) = 7(X(1), X(2), ..., X(n)) dosiahne svoje maximum. Potom vektor X definuje prvý hlavný komponent a hodnota 7(X) je priemet náhodného vektora X na os prvého hlavného komponentu.

Potom z hľadiska lineárnej algebry uvažujme nadrovinu v n-rozmernom priestore kolmom na prvý hlavný komponent a premietnime všetky prvky vzorky na túto nadrovinu. Rozmer nadroviny je o 1 menší ako rozmer pôvodného priestoru.

V uvažovanej nadrovine sa postup opakuje. Nachádza sa v ňom smer najväčšieho rozptylu, t.j. druhá hlavná zložka. Potom sa identifikuje nadrovina kolmá na prvé dva hlavné komponenty. Jeho rozmer je o 2 menší ako rozmer pôvodného priestoru. Ďalej nasleduje ďalšia iterácia.

Z hľadiska lineárnej algebry hovoríme o zostrojení novej bázy v n-rozmernom priestore, ktorej hlavnými komponentmi sú vektory.

Rozptyl zodpovedajúci každej novej hlavnej zložke je menší ako pri predchádzajúcej. Zvyčajne sa zastavia, keď je nižšia ako daný prah. Ak sa vyberie k hlavných komponentov, znamená to, že bolo možné prejsť z n-rozmerného priestoru do k-rozmerného priestoru, t.j. zmenšiť rozmer z n na k, prakticky bez skreslenia štruktúry zdrojových údajov.

Pre vizuálnu analýzu dát sa často používajú projekcie pôvodných vektorov do roviny prvých dvoch hlavných komponentov. Zvyčajne

Štruktúra dát je dobre viditeľná, kompaktné zhluky objektov a jednotlivé vektory sú zvýraznené.

3. Faktorová analýza

Metóda hlavných komponentov je jednou z metód faktorovej analýzy. Rôzne algoritmy faktorovej analýzy spája fakt, že vo všetkých dochádza k prechodu na novú bázu v pôvodnom n-rozmernom priestore. Dôležitý je pojem „faktorové zaťaženie“, ktorý sa používa na opis úlohy pôvodného faktora (premennej) pri vytváraní určitého vektora z nového základu.

Nová myšlienka v porovnaní s metódou hlavných komponentov je, že faktory sú rozdelené do skupín na základe zaťaženia. Faktory, ktoré majú podobný vplyv na prvky nového základu, sa spájajú do jednej skupiny. Potom sa odporúča ponechať jedného zástupcu z každej skupiny. Niekedy sa namiesto výberu zástupcu výpočtom vytvorí nový faktor, ktorý je pre príslušnú skupinu ústredný. Pokles rozmerov nastáva pri prechode na systém faktorov, ktoré sú zástupcami skupín. Ostatné faktory sú vylúčené.

Opísaný postup je možné uskutočniť nielen pomocou faktorovej analýzy. Hovoríme o zhlukovej analýze vlastností (faktorov, premenných). Na rozdelenie funkcií do skupín môžete použiť rôzne algoritmy klastrovej analýzy. Stačí zadať vzdialenosť (mieru blízkosti, ukazovateľ rozdielu) medzi charakteristikami. Nech X a Y sú dve znamienka. Rozdiel d(X,Y) medzi nimi možno merať pomocou korelačných koeficientov vzorky:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, kde rn(X,Y) je výberový lineárny Pearsonov korelačný koeficient , pn(X, Y) - vzorový Spearmanov koeficient poradovej korelácie.

4. Viacrozmerné škálovanie.

Rozsiahla trieda metód viacrozmerného škálovania je založená na použití vzdialeností (miery blízkosti, indikátory rozdielov) d(X,Y) medzi charakteristikami X a Y. Hlavnou myšlienkou tejto triedy metód je reprezentovať každý objekt ako bod v geometrickom priestore (zvyčajne rozmeru 1, 2 alebo 3), ktorého súradnice sú hodnoty skrytých (latentných) faktorov, ktoré spolu primerane opísať objekt. V tomto prípade sú vzťahy medzi objektmi nahradené vzťahmi medzi bodmi - ich zástupcami. Teda údaje o podobnosti objektov - podľa vzdialenosti medzi bodmi, údaje o nadradenosti - podľa relatívnej polohy bodov.

5. Problém odhadu skutočného rozmeru faktorového priestoru

V praxi analyzovania sociologických údajov existuje množstvo rôzne modely viacrozmerné škálovanie. Vo všetkých vyvstáva problém odhadnúť skutočný rozmer faktorového priestoru. Zoberme si tento problém pomocou príkladu spracovania údajov o podobnosti objektov pomocou metrického škálovania.

Nech je n objektov 0(1), O(2), ..., O(n), pre každú dvojicu objektov 0(/), O(j) je daná miera ich podobnosti s(ij). Predpokladáme, že s(i,j) = s(j,i) vždy. Pôvod čísel s(ij) nie je dôležitý pre popis činnosti algoritmu. Mohli by sa získať buď priamym meraním, alebo pomocou odborníkov, alebo výpočtom zo súboru popisných charakteristík, prípadne iným spôsobom.

V euklidovskom priestore musí byť n uvažovaných objektov reprezentovaných konfiguráciou n bodov a euklidovská vzdialenosť d(i,j) slúži ako miera blízkosti reprezentatívnych bodov.

medzi zodpovedajúcimi bodmi. Stupeň zhody medzi množinou objektov a množinou bodov, ktoré ich reprezentujú, sa určuje porovnaním matíc podobnosti ||i(,)|| a vzdialenosti ShM-Metrický funkcionál podobnosti má tvar

i = £|*(/, ]) - th (/, M

Geometrické usporiadanie musí byť zvolené tak, aby funkčná S dosiahla svoju minimálnu hodnotu.

Komentujte. Pri nemetrickom škálovaní sa namiesto blízkosti rozmerov blízkosti a samotných vzdialeností berie do úvahy blízkosť objednávok na súbore mier blízkosti a na súbore zodpovedajúcich vzdialeností. Namiesto funkčného S sa používajú analógy Spearmanových a Kendallových hodnotových korelačných koeficientov. Inými slovami, nemetrické škálovanie predpokladá, že miery blízkosti sa merajú na ordinálnej stupnici.

Nech má euklidovský priestor rozmer m. Uvažujme minimum strednej štvorcovej chyby

kde minimum preberá všetky možné konfigurácie n bodov v m-rozmernom euklidovskom priestore. Dá sa ukázať, že uvažované minimum sa dosiahne pri určitej konfigurácii. Je zrejmé, že ako m rastie, hodnota am monotónne klesá (presnejšie nerastie). Dá sa ukázať, že pre m > n - 1 sa rovná 0 (ak je metrika). Pre zvýšenie možností zmysluplnej interpretácie je žiaduce pôsobiť v priestore čo najmenšieho rozmeru. V tomto prípade však treba zvoliť rozmer tak, aby body predstavovali objekty bez veľkých skreslení. Vzniká otázka: ako racionálne zvoliť rozmer priestoru, t.j. prirodzené číslo T?

6. Modely a metódy na odhad dimenzie dátového priestoru

Zdá sa, že v rámci deterministickej analýzy údajov na túto otázku neexistuje rozumná odpoveď. Preto je potrebné študovať správanie am v určitých pravdepodobnostných modeloch. Ak sú miery blízkosti s(ij) náhodné premenné, ktorých rozdelenie závisí od „skutočnej dimenzie“ m0 (a prípadne od niektorých ďalších parametrov), potom v klasickom matematicko-štatistickom štýle môžeme nastoliť problém odhadu m0 , hľadajte konzistentné odhady atď.

Začnime vytvárať pravdepodobnostné modely. Predpokladajme, že objekty sú body v euklidovskom priestore dimenzie k, kde k je dostatočne veľké. Skutočnosť, že „skutočný rozmer“ sa rovná m0, znamená, že všetky tieto body ležia na nadrovine s rozmerom m0. Predpokladajme pre istotu, že uvažovaná množina bodov je vzorkou z kruhového normálneho rozdelenia s rozptylom o (0). To znamená, že objekty 0(1), 0(2), ..., O(n) sú kolektívne nezávislé náhodné vektory, z ktorých každý je konštruovaný ako

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), kde e(1), e(2), ..., e(m0) je ortonormálna báza v podpriestore dimenzie m0, v ktorom ležia uvažované body a Z(1), Z(2), , Z(m0) sú kolektívne nezávislé jednorozmerné normálne náhodné premenné s matematickým očakávaním 0 a rozptylom o (0).

Uvažujme dva modely na získanie mier blízkosti s(ij). V prvom z nich sa s(ij) líši od euklidovskej vzdialenosti medzi zodpovedajúcimi bodmi v dôsledku skutočnosti, že body sú známe s deformáciami. Nech c(1), c(2), ... , c(n) sú body, o ktorých sa uvažuje. Potom

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

kde d je euklidovská vzdialenosť medzi bodmi v rozmernom priestore, vektory е(1), е(2), ..., е(п) predstavujú vzorku z kruhového normálneho rozdelenia v rozmernom priestore s nulovým matematickým očakávaním a kovariančnou maticou o (1)/, kde I je matica identity. Inými slovami,

e(0 = p(1)e(1) + P(2)e(2) + ... + c(k)v(k), kde e(1), e(2), ..., e(k) je ortonormálny základ v ^rozmernom priestore a [μ^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - množina nezávisle nezávislých jednorozmerných náhodných premenných s nulovým matematickým očakávaním a rozptylom o (1).

V druhom modeli sú skreslenia uložené priamo na samotné vzdialenosti:

Kch) = d(Ф\SI)) + £(УХ u = 1, 2. , n, i f j,

kde a , a v prvom intervale klesá rýchlejšie ako v druhom. Z toho vyplýva štatistika

m* = Arg minam+1 – 2:00 + an-x)

je konzistentný odhad skutočného rozmeru m0.

Z pravdepodobnostnej teórie teda vyplýva odporúčanie - použiť m* ako odhad dimenzie faktorového priestoru. Všimnite si, že takéto odporúčanie sformuloval ako heuristiku jeden zo zakladateľov multidimenzionálneho škálovania J. Kruskal. Vyšiel zo skúseností praktické využitie viacrozmerné škálovanie a výpočtové experimenty. Pravdepodobnostná teória umožnila zdôvodniť toto heuristické odporúčanie.

7. Odhad rozmerov modelu

Ak možné podmnožiny prvkov tvoria rozširujúcu sa rodinu, napríklad sa odhaduje stupeň polynómu, potom je prirodzené zaviesť pojem „dimenzia modelu“ (tento koncept je v mnohom podobný konceptu dimenzie dátového priestoru používaného v viacrozmerné škálovanie). Autor tohto článku vlastní množstvo prác o odhade rozmeru modelu, ktoré je vhodné porovnať s vyššie uvedenými prácami o odhade rozmeru dátového priestoru.

Prvú takúto prácu vykonal autor tohto článku počas služobnej cesty do Francúzska v roku 1976. V nej sa študoval jeden odhad dimenzie modelu v regresii, a to odhad miery polynómu pod predpoklad, že závislosť je opísaná polynómom. Tento odhad bol v literatúre známy, no neskôr sa začal mylne pripisovať autorovi tohto článku, ktorý iba skúmal jeho vlastnosti, najmä zistil, že nie je konzistentný a zistil jeho obmedzujúce geometrické rozloženie. V článku boli navrhnuté a študované ďalšie, už konzistentné odhady dimenzionality regresného modelu. Tento cyklus bol zavŕšený dielom obsahujúcim množstvo objasnení.

Najnovšia publikácia na túto tému obsahuje diskusiu o výsledkoch štúdia miery konvergencie v limitných vetách, ktoré som získal pomocou metódy Monte Carlo.

V článku sú diskutované metodologicky podobné odhady modelovej dimenzie v probléme štiepenia zmesí (časť klasifikačnej teórie).

V prácach sa študujú odhady dimenzionality modelu vo viacrozmernom škálovaní diskutované vyššie. V tých istých prácach bolo stanovené limitujúce správanie charakteristík metódy hlavnej zložky (pomocou asymptotickej teórie správania riešení extrémnych štatistických problémov).

8. Algoritmy redukcie rozmerov v automatizovanej systémovo-kognitívnej analýze

V automatizovanej systémovo-kognitívnej analýze (ASC-analýza) bola navrhnutá a implementovaná ďalšia metóda redukcie rozmerov v systéme Eidos. Je to popísané v práci v častiach 4.2 „Popis algoritmov pre základné kognitívne operácie systémovej analýzy (BCOSA)“ a 4.3 „Podrobné algoritmy BCOSA (ASC analýza)“. Dajme si Stručný opis dva algoritmy - BKOSA-4.1 a BKOSA-4.2.

BKOSA-4.1. "Abstrakčné faktory (zmenšenie rozmeru sémantického priestoru faktorov)"

Metódou postupných aproximácií (iteračný algoritmus) sa za daných okrajových podmienok zmenšuje rozmer priestoru atribútov bez toho, aby sa výrazne zmenšil jeho objem. Kritériom na zastavenie iteračného procesu je splnenie niektorej z okrajových podmienok.

BKOSA-4.2. "Abstrakčné triedy (zníženie rozmeru priestoru sémantických tried)"

Metódou postupných aproximácií (iteračný algoritmus) sa za daných okrajových podmienok zmenšuje rozmer priestoru tried bez výrazného zmenšenia jeho objemu. Kritériom na zastavenie iteračného procesu je splnenie niektorej z okrajových podmienok.

Tu sú všetky skutočné algoritmy implementované v systéme Eidos verzie, ktorá bola implementovaná v čase prípravy práce (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Podstatou algoritmov je toto.

1. Vypočíta sa množstvo informácií v hodnotách faktorov o prechode objektu do stavov zodpovedajúcich triedam.

2. Vypočíta sa hodnota hodnoty faktora na rozlíšenie objektu do tried. Táto hodnota je jednoducho variabilita informačného obsahu hodnôt faktorov (existuje veľa kvantitatívnych mier variability: priemerná odchýlka od priemeru, štandardná odchýlka atď.). Inými slovami, ak hodnota faktora v priemere obsahuje málo informácií o tom, či objekt patrí alebo nepatrí do triedy, potom táto hodnota nie je veľmi cenná, ale ak je jej veľa, potom je cenná.

3. Vypočíta sa hodnota popisných mierok na rozlíšenie objektov podľa triedy. V dielach E.V. Lutsenko to teraz robí ako priemer hodnôt gradácií tejto stupnice.

4. Potom sa vykoná Paretova optimalizácia hodnôt faktorov a popisných mierok:

Hodnoty faktorov (gradácie popisných mierok) sú zoradené v zostupnom poradí hodnoty a tie najmenej hodnotné, ktoré idú napravo od dotyčnice k Paretovej krivke 45°, sú z modelu odstránené;

Faktory (popisné mierky) sú zoradené v zostupnom poradí hodnoty a tie najmenej hodnotné, ktoré idú napravo od dotyčnice k Paretovej krivke 45°, sú z modelu odstránené.

V dôsledku toho sa výrazne zmenšuje rozmer priestoru postaveného na popisných mierkach v dôsledku odstránenia mierok, ktoré navzájom korelujú, t.j. v podstate ide o ortonormalizáciu priestoru v informačnej metrike.

Tento proces je možné opakovať, t.j. byť iteračný, zatiaľ čo v Nová verzia V systéme Eidos sa iterácie spúšťajú manuálne.

Ortonormalizuje podobne informačný priestor triedy.

Stupnice a ich gradácie môžu byť číselné (v tomto prípade sa spracúvajú intervalové hodnoty) a môžu byť aj textové (ordinálne alebo dokonca nominálne).

S pomocou algoritmov BCOSA (ASC analýza) je teda rozmer priestoru čo najviac redukovaný s minimálnou stratou informácií.

Na analýzu štatistických údajov v aplikovanej štatistike bolo vyvinutých množstvo ďalších algoritmov na zníženie dimenzionality. Nie je cieľom tohto článku popisovať celú škálu takýchto algoritmov.

Literatúra

1. Orlov A.I. Body rastu štatistických metód // Elektronický vedecký časopis Polytematickej siete Štátnej poľnohospodárskej univerzity v Kubane. 2014. Číslo 103. S. 136-162.

2. Kruskal J. Vzťah medzi viacrozmerným škálovaním a zhlukovou analýzou // Klasifikácia a zhlukovanie. M.: Mir, 1980. S.20-41.

4. Harman G. Moderná faktorová analýza. M.: Štatistika, 1972. 489 s.

5. Orlov A.I. Poznámky k teórii klasifikácie. / Sociológia: metodológia, metódy, matematické modely. 1991. č. 2. S.28-50.

6. Orlov A.I. Základné výsledky matematickej teórie klasifikácie // Polytematická sieť elektronický vedecký časopis Kubanskej štátnej agrárnej univerzity. 2015. Číslo 110. S. 219-239.

7. Orlov A.I. Matematické metódy teórie klasifikácie // Elektronický vedecký časopis Polytematickej siete Štátnej agrárnej univerzity v Kubane. 2014. Číslo 95. S. 23 - 45.

8. Terekhina A.Yu. Analýza údajov pomocou metód viacrozmerného škálovania. -M.: Nauka, 1986. 168 s.

9. Perekrest V. T. Nelineárna typologická analýza sociálno-ekonomických informácií: Matematické a výpočtové metódy. - L.: Nauka, 1983. 176 s.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analýza nečíselných informácií. M.: Vedecká rada Akadémie vied ZSSR o komplexnom probléme "kybernetiky", 1981. - 80 s.

11. Orlov A.I. Všeobecný pohľad na štatistiku objektov nenumerického charakteru // Analýza nenumerických informácií v sociologickom výskume. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Limitná distribúcia jedného odhadu počtu základných funkcií v regresii // Aplikovaná viacrozmerná štatistická analýza. Vedecké poznámky o štatistike, zv.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Odhad dimenzií modelu v regresii // Algoritmické a softvér aplikovaná štatistická analýza. Vedecké poznámky o štatistike, zväzok 36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asymptotika niektorých odhadov modelovej dimenzie v regresii // Applied Statistics. Vedecké poznámky o štatistike, zväzok 45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. O odhade regresného polynómu // Továrenské laboratórium. Diagnostika materiálov. 1994. T.60. č. 5. S.43-47.

16. Orlov A.I. Niektoré pravdepodobnostné otázky teórie klasifikácie // Aplikovaná štatistika. Vedecké poznámky o štatistike, zväzok 45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. O vývoji štatistiky nenumerických objektov // Návrh experimentov a analýza údajov: Nové trendy a výsledky. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metódy znižovania rozmerov // Príloha 1 ku knihe: Tolstova Yu.N. Základy viacrozmerného škálovania: Učebnica pre vysoké školy. - M.: Vydavateľstvo KDU, 2006. - 160 s.

19. Orlov A.I. Asymptotické správanie riešení extrémnych štatistických problémov // Analýza nenumerických údajov v systémovom výskume. Zbierka prác. Vol. 10. - M.: Celozväzový vedecko-výskumný ústav pre systémový výskum, 1982. S. 412.

20. Orlov A.I. Organizačné a ekonomické modelovanie: učebnica: za 3 hod.. Časť 1: Nenumerická štatistika. - M.: Vydavateľstvo MSTU im. N.E. Bauman. - 2009. - 541 s.

21. Lucenko E.V. Automatizovaná systémovo-kognitívna analýza v manažmente aktívne objekty(systémová teória informácie a jej aplikácia pri štúdiu ekonomických, sociálno-psychologických, technologických a organizačno-technických systémov): Monografia (vedecká publikácia). -Krásnodar: KubSAU. 2002. - 605 s. http://elibrary.ru/item.asp?id=18632909

1. Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Číslo 103. S. 136-162.

2. Kraskal Dž. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimenzionálne škálovanie // Séria článkov Sage University: Kvalitatívne aplikácie v sociálnych vedách. 1978. Číslo 11.

4. Harman G. Sovremennyj faktornyj analiz. M.: Štatistika, 1972. 489 s.

5. Orlov A.I. Zametki po teorii klassifikacii. / Sociológia: metodológia, metódy, matematické modely. 1991. č. 2. S.28-50.

6. Orlov A.I. Bazovye rezul"taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. Číslo 110. S. 219-239.

7. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Číslo 95. S. 23 - 45.

8. Terehina A.Ju. Analyz dannyh metódami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social"no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 s.

10. Tjurin Ju.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analýza informácií. M.: Nauchnyj Sovet AN SSSR po komplexnom probléme "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Estimate razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiza. Uchenye zapiski po štatistiky, t.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po štatistiky, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regressionnogo polinoma // Zavodskaja laboratorija. Diagnostické materiály. 1994. T.60. č. 5. S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po štatistiky, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. O vývoji štatistiky nenumerických objektov // Návrh experimentov a analýza údajov: Nové trendy a výsledky. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k book: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Vzdelávacia posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal"nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel"skij institut sistemnyh issledovanij, S.198

20. Orlov A.I. Organizacionno-jekonomicheskoe modelovanie: uchebnik: v 3 ch. Chast" 1: Nechislovaja štatistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social"no-psihologicheskih, tehnologicheskih a organizacie Monografno-tehnicheskih sistem:0 GAU -2dar:0). - 605 strán http://elibrary.ru/item.asp?id=18632909

Účel štúdie:

Posúdenie účinnosti techník znižovania rozmerov údajov s cieľom optimalizovať ich využitie v praxi rozpoznávania (identifikácie).

Ciele výskumu:

1. Prehľad literárnych zdrojov o existujúcich metódach na zníženie dimenzionality údajov.

2. Vykonávanie výskumu (experimentov) na porovnanie účinnosti algoritmov používaných v praxi na zníženie rozmerov údajov v klasifikačných problémoch

Metódy výskumu (softvér):

Programovací jazyk C++, knižnica OpenCV

Vnímanie vysokorozmerných údajov je pre ľudí ťažké a niekedy nemožné. V tomto ohľade sa stalo celkom prirodzené chcieť prejsť od viacrozmerného vzorkovania k malorozmerným údajom, aby sa na ne „mohlo pozerať“, vyhodnocovať a používať, a to aj na splnenie úloh rozpoznávania. Okrem prehľadnosti vám zníženie rozmerov umožňuje zbaviť sa faktorov (informácií), ktoré narúšajú štatistickú analýzu, predlžujú čas zberu informácií, zvyšujú rozptyl odhadov parametrov a charakteristiky rozdelenia.

Redukcia rozmerov je transformácia vysokorozmerných pôvodných údajov do novej reprezentácie nižšej dimenzie, ktorá zachováva základné informácie. V ideálnom prípade sa rozmer transformovanej reprezentácie zhoduje s vnútorným rozmerom údajov. Vnútorná dimenzia údajov je minimálny počet premenných potrebných na vyjadrenie všetkých možných vlastností údajov. Analytický model zostavený z redukovaného súboru údajov by sa mal ľahšie spracovať, implementovať a pochopiť ako model zostavený z pôvodného súboru.

Rozhodnutie zvoliť metódu redukcie rozmerov je založené na znalostiach charakteristík riešeného problému a očakávaných výsledkoch, ako aj na obmedzenom čase a výpočtových zdrojoch. Podľa prehľadov literatúry medzi najbežnejšie používané metódy redukcie rozmerov patrí analýza hlavných komponentov (PCA), analýza nezávislých komponentov (ICA) a rozklad singulárnych hodnôt (SVD).

Analýza hlavných komponentov (PCA) - najjednoduchšia metóda na zníženie rozmernosti údajov. Široko sa používa na transformáciu prvkov a zároveň znižuje rozmernosť údajov v problémoch klasifikácie. Metóda je založená na premietaní údajov do nového súradnicového systému nižšej dimenzie, ktorý je určený vlastnými vektormi a vlastnými hodnotami matice. Z matematického hľadiska je hlavnou zložkovou metódou ortogonálna lineárna transformácia.

Hlavnou myšlienkou metódy je vypočítať vlastné hodnoty a vlastné vektory kovariančnej matice údajov, aby sa minimalizoval rozptyl. Kovariančná matica sa používa na určenie vzájomného rozpätia okolo priemeru. Kovariancia dvoch náhodných premenných (dimenzií) je mierou ich lineárnej závislosti:

kde je matematické očakávanie náhodnej premennej X, je matematické očakávanie náhodnej premennej Y. Vzorec (1) môžeme napísať aj v tvare:

kde je priemer X, kde je priemer Y, N je rozmer údajov.

Po výpočte vlastných vektorov a vlastných hodnôt sa ich hodnoty zoradia v zostupnom poradí. Zložky sa teda získavajú v poradí klesajúcej dôležitosti. Vlastný vektor s najväčšou vlastnou hodnotou je hlavnou zložkou súboru údajov. Hlavné zložky sa získajú vynásobením riadkov vlastných vektorov zoradenými vlastnými hodnotami. Na nájdenie optimálneho priestoru nižšej dimenzie sa používa vzorec (3), pomocou ktorého sa vypočíta minimálna chyba medzi pôvodným súborom údajov a súborom získaným podľa nasledujúceho kritéria:

kde P je rozmer nového priestoru, N je rozmer pôvodnej vzorky, sú vlastné hodnoty a je prahová hodnota. Počas činnosti algoritmu získame maticu s údajmi MP, lineárne transformovanú z MN, po ktorej PCA nájde lineárne zobrazenie M, ktoré minimalizuje vyhodnocovaciu funkciu:

kde je euklidovská vzdialenosť medzi bodmi a , je euklidovská vzdialenosť medzi bodmi a , , . Minimum tejto vyhodnocovacej funkcie možno vypočítať vykonaním spektrálneho rozkladu Gramovej matice a vynásobením vlastných vektorov tejto matice koreňom zodpovedajúcich vlastných hodnôt.

Nezávislá analýza komponentov ( ICA ) , na rozdiel od PCA je to pomerne nová metóda, ktorá si však rýchlo získava na popularite. Je založená na myšlienke lineárna transformáciaúdaje do nových komponentov, ktoré sú čo najviac štatisticky nezávislé a nemusia byť navzájom nevyhnutne ortogonálne. Pre výskum v táto práca Bol zvolený algoritmus FastICa, ktorý je podrobne popísaný v článku. Hlavným cieľom tejto metódy je centrovanie (odčítanie priemeru od údajov) a bielenie (lineárna transformácia vektora x na vektor s nekorelovanými súradnicami, ktorých rozptyl je rovný jednej).

Kritériom nezávislosti v FastICA je negaussianstvo, ktoré sa meria pomocou koeficientu špičatosti:

Pre Gaussove náhodné premenné je táto hodnota nula, takže FastICA maximalizuje svoju hodnotu. Ak sú „vybielené“ údaje, potom kovariančná matica „vybielených“ údajov je maticou identity.

Takáto transformácia je vždy možná. Populárna metóda bielenia využíva spektrálny rozklad kovariančnej matice , kde je ortogonálna matica vlastných vektorov a je diagonálna matica vlastných hodnôt,. Ukazuje sa, že „bielenie“ môže byť reprezentované ako:

kde je matica vypočítaná komponentovou operáciou:

Experimenty

Na experimentálnu štúdiu navrhovaných metód boli použité storyboardové videosekvencie z databázy CASIA GAIT. Databáza obsahuje sekvencie binárnych obrázkov zodpovedajúcich jednotlivým snímkam videosekvencie, na ktorých už boli identifikované pohybujúce sa objekty.

Z celého súboru videosekvencií bolo náhodne vybraných 15 tried, v ktorých je uhol snímania 90 stupňov, ľudia sú vyobrazení v bežnom nezimnom oblečení a bez tašiek. V každej triede bolo 6 sekvencií. Dĺžka každej sekvencie bola najmenej 60 snímok. Triedy boli rozdelené do tréningových a testovacích sád po 3 sekvenciách.

Vlastnosti získané metódami PCA a ICA boli použité na trénovanie klasifikátora, ktorým bol v tejto práci podporný vektorový stroj (SVM).

Na zistenie kvality metódy bola hodnotená presnosť klasifikácie definovaná ako podiel správne klasifikovaných objektov. Počas experimentu sa zaznamenával aj čas strávený v tréningovom a testovacom režime.

Obrázok 1. a) Analýza hlavných komponentov (PCA) b) Metóda nezávislých komponentov (ICA)

Obrázok 1(a,b) znázorňuje závislosť presnosti klasifikácie od hodnoty rozmeru výstupných údajov po transformácii. Je vidieť, že v PCA sa presnosť klasifikácie mierne mení so zvyšujúcim sa počtom komponentov, ale pri použití ICA začína presnosť klesať, začínajúc od určitej hodnoty.

Obrázok 2. Závislosť klasifikačného času od počtu komponentov A) PCA , b) ICA

Obrázok 2(a,b) ukazuje závislosť času klasifikácie od počtu komponentov PCA a ICA. Nárast rozmerov bol v oboch prípadoch sprevádzaný lineárnym nárastom času spracovania. Z grafov je možné vidieť, že klasifikátor SVM fungoval rýchlejšie po redukcii rozmerov pomocou analýzy hlavných komponentov (PCA).

Metódy Principal Component Analisys (PCA), Independent Component Analisys (ICA) fungovali pomerne rýchlo a pri určitých parametroch boli v klasifikačnej úlohe dosiahnuté dobré výsledky. Ale s údajmi so zložitou štruktúrou tieto metódy nie vždy dosiahnu požadovaný výsledok. Preto v V poslednej dobeČoraz viac pozornosti sa venuje lokálnym nelineárnym metódam, ktoré vykonávajú projekciu údajov na určitú varietu, čo umožňuje zachovať štruktúru údajov.

V budúcnosti sa plánuje rozšírenie tak zoznamu algoritmov používaných na generovanie popisu funkcie, ako aj zoznamu použitých klasifikačných metód. Ďalšou dôležitou oblasťou výskumu sa zdá byť skrátenie času spracovania.

Bibliografia:

  1. Jolliffe, I.T., Analýza hlavných komponentov, Springer, 2002
  2. Hyvärinen a Erkki Oja, Nezávislá analýza komponentov: Algoritmy a aplikácie, Neurónové siete, 13, 2000
  3. Josiński, H. Extrakcia funkcií a klasifikácia video sekvencií chôdze na základe HMM na účely identifikácie človeka / Springer, 2013 - zväzok 481.

V dôsledku štúdia materiálu v kapitole 5 by študent mal:

vedieť

  • základné pojmy a úlohy znižovania rozmerov:
  • prístupy k riešeniu problému transformácie priestoru funkcie;

byť schopný

  • použite metódu hlavného komponentu na prechod k štandardizovaným ortogonálnym prvkom;
  • vyhodnotiť pokles informačného obsahu údajov pri zmenšení rozmeru priestoru prvkov;
  • vyriešiť problém konštrukcie optimálnych viacrozmerných mierok na štúdium objektov;

vlastné

  • metódy redukcie rozmerov na riešenie aplikovaných problémov štatistickej analýzy;
  • schopnosti interpretovať premenné v priestore transformovaných prvkov.

Základné pojmy a problémy redukcie rozmerov

Na prvý pohľad platí, že čím viac informácií o predmetoch štúdia v podobe súboru charakteristík charakterizujúcich ich bude pri tvorbe modelu použité, tým lepšie. Príliš veľa informácií však môže znížiť účinnosť analýzy údajov. Existuje dokonca pojem „prekliatie dimenzionality“ (priebeh dimenzionality), charakterizujúce problémy práce s vysokorozmernými údajmi. Potreba redukcie rozmerov v tej či onej forme je spojená s riešením rôznych štatistických problémov.

Neinformatívne vlastnosti sú zdrojom dodatočného šumu a ovplyvňujú presnosť odhadu parametrov modelu. Okrem toho súbory údajov s veľkým počtom funkcií môžu obsahovať skupiny korelovaných premenných. Prítomnosť takýchto skupín znakov znamená duplicitu informácií, čo môže skresliť špecifikáciu modelu a ovplyvniť kvalitu odhadu jeho parametrov. Čím väčšia je dimenzia dát, tým väčšie množstvo výpočtov pri ich algoritmickom spracovaní.

Je možné rozlíšiť dva smery pri znižovaní rozmeru priestoru prvkov na základe princípu premenných, ktoré sa na to používajú: výber prvkov z existujúceho počiatočného súboru a vytváranie nových prvkov transformáciou pôvodných údajov. V ideálnom prípade by zmenšená reprezentácia údajov mala mať dimenziu, ktorá sa zhoduje s dimenziou obsiahnutou v údajoch. (vnútorná dimenzionalita).

Hľadanie čo najinformatívnejších znakov charakterizujúcich skúmaný jav je zrejmým smerom zmenšovania rozmeru problému, ktorý si nevyžaduje transformáciu pôvodných premenných. To vám umožní urobiť model kompaktnejším a vyhnúť sa stratám spojeným s rušivým účinkom neinformatívnych prvkov. Výber informatívnych znakov pozostáva z nájdenia najlepšej podmnožiny zo súboru všetkých pôvodných premenných. Kritériom pre koncept „najlepšieho“ môže byť buď najvyššia kvalita modelovania pre danú dimenziu priestoru prvkov, alebo najmenšia dimenzia dát, na ktorej je možné model danej kvality postaviť.

Priame riešenie problému tvorby najlepší model je spojená s prehľadávaním všetkých možných kombinácií funkcií, čo sa zvyčajne zdá byť príliš prácne. Preto sa spravidla uchyľujú k priamemu alebo spätnému výberu vlastností. V postupoch priameho výberu sa premenné postupne pridávajú od počiatočného súboru, až kým sa nedosiahne požadovaná kvalita modelu. V algoritmoch na sekvenčnú redukciu priestoru pôvodných znakov (inverzný výber) sa postupne odstraňujú najmenej informatívne premenné, až kým sa nedosiahne prijateľné zníženie informačného obsahu modelu.

Treba brať do úvahy, že informačný obsah funkcií je relatívny. Výber by mal zabezpečiť vysoký informačný obsah súboru vlastností a nie celkový informačný obsah jeho základných premenných. Prítomnosť korelácie medzi znakmi teda znižuje ich celkový informačný obsah v dôsledku duplikácie informácií, ktoré sú im spoločné. Preto pridanie novej funkcie k tým, ktoré už boli vybraté, poskytuje zvýšenie informačného obsahu v rozsahu, ktorý obsahuje užitočná informácia, chýba v predtým vybratých premenných. Najjednoduchšou situáciou je výber navzájom ortogonálnych prvkov, v ktorom je algoritmus výberu implementovaný veľmi jednoducho: premenné sú zoradené podľa informačného obsahu a používa sa zloženie prvých prvkov v tomto rebríčku, ktoré zabezpečuje špecifikovaný informačný obsah. .

Obmedzenia metód výberu znakov za účelom zmenšenia rozmeru priestoru sú spojené s predpokladom priamej prítomnosti potrebných znakov v zdrojových dátach, čo sa zvyčajne ukáže ako nesprávne. Alternatívny prístup k redukcii rozmerov zahŕňa transformáciu prvkov na redukovaný súbor nových premenných. Na rozdiel od výberu počiatočných prvkov, vytvorenie priestoru nových prvkov zahŕňa vytvorenie nových premenných, ktoré sú zvyčajne funkciami pôvodných prvkov. Tieto premenné, nie priamo pozorovateľné, sa často nazývajú skryté, príp latentný. Počas procesu vytvárania môžu tieto premenné získať rôzne užitočné vlastnosti, ako je ortogonalita. V praxi sú pôvodné prvky zvyčajne prepojené, takže transformácia ich priestoru na ortogonálny generuje nové súradnicové znaky, v ktorých nedochádza k duplikácii informácií o skúmaných objektoch.

Mapovanie objektov v novom priestore ortogonálnych prvkov vytvára možnosť vizualizovať užitočnosť každého prvku z hľadiska rozdielov medzi týmito objektmi. Ak sú súradnice novej základne usporiadané podľa rozptylu, ktorý charakterizuje rozptyl hodnôt pre uvažované pozorovania, potom sa z praktického hľadiska stáva zbytočnosť niektorých prvkov s malými rozptylovými hodnotami zrejmá, pretože objekty založené na týchto znakoch sú prakticky nerozoznateľné v porovnaní s ich rozdielmi v informatívnejších premenných. V takejto situácii môžeme hovoriť o takzvanej degenerácii pôvodného feature priestoru od k premenné a skutočný rozmer tohto priestoru T môže byť menšia ako originál (m< k).

Zníženie priestoru funkcií je sprevádzané určitým znížením informačného obsahu údajov, ale úroveň prijateľného zníženia môže byť stanovená vopred. Extrakcia funkcií premieta súbor pôvodných premenných do priestoru nižšej dimenzie. Kompresia priestoru prvkov do dvoch alebo troch rozmerov môže byť užitočná na vizualizáciu údajov. Proces formovania priestoru nových funkcií teda zvyčajne vedie k menšiemu súboru skutočne informatívnych premenných. Na ich základe je možné postaviť kvalitnejší model ako model založený na menšom počte najinformatívnejších prvkov.

Vytváranie nových premenných na základe pôvodných sa používa na latentnú sémantickú analýzu, kompresiu údajov, klasifikáciu a rozpoznávanie vzorov, čím sa zvyšuje rýchlosť a efektívnosť procesov učenia. Komprimované údaje sa zvyčajne používajú na ďalšiu analýzu a modelovanie.

Jednou z dôležitých aplikácií transformácie priestoru znakov a redukcie rozmerov je konštrukcia syntetických latentných kategórií na základe nameraných hodnôt znakov. Tieto latentné znaky môžu charakterizovať určité všeobecné znaky skúmaného javu, integrujúce konkrétne vlastnosti pozorovaných objektov, čo umožňuje zostaviť integrálne indikátory rôznych úrovní zovšeobecnenia informácií.

Významná je úloha metód redukcie priestoru znakov pri skúmaní problému duplikácie informácií v pôvodných znakoch, čo vedie k „nafúknutiu“ rozptylu odhadov koeficientov regresného modelu. Prechod na nové, ideálne ortogonálne a zmysluplne interpretovateľné premenné je efektívnym prostriedkom modelovania v podmienkach multikolinearity zdrojových dát.

Transformácia pôvodného priestoru prvkov na ortogonálny je vhodná na riešenie klasifikačných problémov, pretože umožňuje rozumne aplikovať určité miery blízkosti alebo rozdielov medzi objektmi, ako napríklad euklidovskú vzdialenosť alebo druhú mocninu euklidovskej vzdialenosti. V regresnej analýze nám zostrojenie regresnej rovnice pomocou hlavných komponentov umožňuje vyriešiť problém multikolinearity.

  • V štatistike, strojovom učení a teórii informácií je redukcia dimenzií transformáciou údajov, ktorá pozostáva zo zníženia počtu premenných získaním hlavných premenných. Transformáciu možno rozdeliť na výber vlastností a extrakciu funkcií.

Súvisiace pojmy

Zmienky v literatúre

– načítanie a predspracovanie vstupných údajov, – manuálne a automatické označovanie stimulačných materiálov (výber oblastí záujmu), – algoritmus na výpočet nástupníckej reprezentačnej matice, – zostavenie rozšírenej dátovej tabuľky s hodnotami vstupných premenných potrebných na následná analýza, – metóda redukcia rozmerov priestor prvkov (metóda hlavných komponentov), ​​– vizualizácia zaťažení komponentov na výber interpretovateľných komponentov, – algoritmus na trénovanie rozhodovacieho stromu, – algoritmus na posúdenie prediktívnej schopnosti stromu, – vizualizácia rozhodovacieho stromu.

Súvisiace pojmy (pokračovanie)

Techniky spektrálneho zhlukovania využívajú spektrum (vlastné hodnoty) matice podobnosti údajov na vykonanie redukcie rozmerov pred zhlukovaním v priestoroch s nižšími rozmermi. Matica podobnosti sa poskytuje ako vstup a pozostáva z kvantitatívnych odhadov relatívnej podobnosti každého páru bodov v údajoch.

Spektrálne metódy sú triedou techník používaných v aplikovanej matematike na numerické riešenie určitých diferenciálnych rovníc, prípadne zahŕňajúce rýchlu Fourierovu transformáciu. Cieľom je prepísať riešenie diferenciálnych rovníc ako súčet niektorých „základných funkcií“ (napríklad ako Fourierove rady sú súčtom sínusoidov) a potom zvoliť koeficienty v súčte tak, aby čo najlepšie vyhovovali diferenciálnej rovnici.

Matematická analýza (klasická matematická analýza) - súbor odvetví matematiky zodpovedajúcich historickej časti nazývanej „infinitezimálna analýza“, kombinuje diferenciálny a integrálny počet.

Diferenciálna evolúcia je metóda viacrozmernej matematickej optimalizácie, ktorá patrí do triedy stochastických optimalizačných algoritmov (to znamená, že pracuje s náhodnými číslami) a využíva niektoré myšlienky genetických algoritmov, ale na rozdiel od nich nevyžaduje prácu s premennými v binárnom kóde. .

Metóda diskrétnych prvkov (DEM, z anglického Discrete element method) je rodina numerických metód určených na výpočet pohybu veľkého množstva častíc, ako sú molekuly, zrnká piesku, štrk, kamienky a iné zrnité médiá. Túto metódu pôvodne použil Cundall v roku 1971 na riešenie problémov mechaniky hornín.

Kapitola 13. METÓDA HLAVNÝCH KOMPONENTOV

13.1. Podstata problému redukcie rozmerov a rôzne metódy jeho riešenia

Pri výskume a praktickej štatistickej práci sa musíme vysporiadať so situáciami, keď celkový počet znakov zaznamenaných na každom z mnohých skúmaných objektov (krajiny, mestá, podniky, rodiny, pacienti, technické alebo environmentálne systémy) je veľmi veľký – približne sto alebo viac. Avšak dostupné viacrozmerné pozorovania

by mali byť podrobené štatistické spracovanie, porozumieť alebo vstúpiť do databázy, aby ste ich mohli použiť v správnom čase.

Túžba štatistika prezentovať každé z pozorovaní (13.1) vo forme vektora Z niektorých pomocných ukazovateľov s výrazne menším (ako) počtom komponentov je spôsobená predovšetkým týmito dôvodmi:

potreba vizuálnej reprezentácie (vizualizácie) počiatočných údajov (13.1), ktorá sa dosiahne ich premietnutím do špeciálne zvoleného trojrozmerného priestoru, roviny alebo číselnej osi (problémom tohto typu je venovaná časť IV);

túžba po lakonizme študovaných modelov, kvôli potrebe zjednodušiť výpočet a interpretáciu získaných štatistických záverov;

nutnosť výrazne skomprimovať objem uložených štatistických informácií (bez viditeľných strát v ich informačnom obsahu), ak hovoríme o zaznamenávaní a ukladaní polí typu (13.1) v špeciálnej databáze.

V tomto prípade môžu byť nové (pomocné) charakteristiky vybrané z pôvodných alebo určené podľa nejakého pravidla založeného na súbore počiatočných charakteristík, napríklad ako ich lineárne kombinácie. Pri formovaní nový systém charakteristiky druhého, kladiem v Utahu rôzne druhy požiadaviek, ako je najväčší informačný obsah (v určitom zmysle), vzájomná nekorelácia, najmenšie skreslenie geometrickej štruktúry súboru počiatočných údajov atď. V závislosti od variantu formálnej špecifikácie týchto požiadaviek (pozri nižšie a pozri tiež sekciu IV) dospejeme k jednému alebo druhému algoritmu redukcie dimenzií. Dostupné podľa najmenej, tri hlavné typy základných predpokladov, ktoré určujú možnosť prechodu z veľkého počtu počiatočných ukazovateľov stavu (správanie, prevádzková efektívnosť) analyzovaného systému k výrazne menšiemu počtu najinformatívnejších premenných. Toto je po prvé duplikácia informácií poskytovaných vysoko vzájomne prepojenými funkciami; po druhé, nedostatok informačného obsahu vlastností, ktoré sa pri prechode z jedného objektu na druhý menia len málo (nízka „variabilita“ vlastností); po tretie, možnosť agregácie, t. j. jednoduchého alebo „váženého“ súčtu, podľa určitých kritérií.

Formálne možno úlohu prechodu (s minimálnymi stratami v informačnom obsahu) na nový súbor funkcií opísať nasledovne. Nech je nejaká p-rozmerná vektorová funkcia pôvodných premenných a nech je istá špecifikovaná miera informatívnosti -rozmerného systému znakov Konkrétny výber funkcionálu závisí od špecifík reálneho riešeného problému a je založený na jedno z možných kritérií: kritérium autoinformatívnosti, zamerané na maximalizáciu zachovania informácií obsiahnutých v pôvodnom poli vo vzťahu k samotným pôvodným prvkom; a kritérium obsahu externých informácií, ktorého cieľom je maximalizovať „vytlačenie“ informácií obsiahnutých v tomto poli vo vzťahu k niektorým iným (externým) ukazovateľom.

Úlohou je určiť takú množinu znakov Z, ktorá sa nachádza v triede F prípustných transformácií počiatočných ukazovateľov, aby

Jedna alebo iná verzia špecifikácie tohto tvrdenia (ktorá určuje konkrétny výber miery informačného obsahu) a triedy prípustných transformácií) vedie k špecifickej metóde redukcie rozmerov: metóda hlavných komponentov, faktorová analýza, extrémne zoskupovanie parametrov, atď.

Vysvetlime si to na príkladoch.

13.1.1. Metóda hlavnej zložky (pozri § 13.2 – § 13.6).

Práve k prvým hlavným komponentom výskumník príde, ak ako triedu prípustných transformácií F zadefinuje všetky možné lineárne ortogonálne normalizované kombinácie počiatočných ukazovateľov, t.j.

(tu) je matematické očakávanie a ako miera informačného obsahu -dimenzionálneho systému ukazovateľov, výraz

(tu D, ako predtým, je znakom operácie výpočtu rozptylu zodpovedajúcej náhodnej premennej).

13.1.2. Faktorová analýza (pozri kapitolu 14).

Ako je známe (pozri § 14.1), model faktorovej analýzy vysvetľuje štruktúru súvislostí medzi počiatočnými ukazovateľmi tým, že správanie každého z nich štatisticky závisí od rovnakého súboru takzvaných spoločných faktorov, t.

kde - "zaťaženie" všeobecného faktora na počiatočnom indikátore - zvyšková "špecifická" náhodná zložka a - sú párovo nekorelované.

Ukazuje sa, že ak je F definovaná ako trieda všetkých možných lineárnych kombinácií, berúc do úvahy uvedené obmedzenia a ako meradlo informačného obsahu -rozmerného systému ukazovateľov, zvolíme hodnotu, potom riešenie optimalizácie problém (13.2) sa zhoduje s vektorom spoločných faktorov v modeli faktorovej analýzy. Tu je korelačná matica počiatočných ukazovateľov; korelačná matica ukazovateľov je euklidovská norma matice A.

13.1.3. Metóda extrémneho zoskupovania znakov (pozri článok 14.2.1).

IN túto metódu Hovoríme o rozdelení celkových počiatočných ukazovateľov do daného počtu skupín tak, že charakteristiky patriace do jednej skupiny by boli relatívne silne vzájomne korelované, zatiaľ čo charakteristiky patriace do rôznych skupín by boli slabo korelované. Zároveň je vyriešený problém nahradenia každej skupiny silne interkorelovaných počiatočných ukazovateľov jedným pomocným „výsledným“ ukazovateľom, ktorý by, prirodzene, mal byť v úzkej korelácii s charakteristikami svojej skupiny. Po definovaní všetkých normalizovaných lineárnych kombinácií ako triedy prípustných transformácií F počiatočných ukazovateľov hľadáme riešenie maximalizáciou (vzhľadom na S a ) funkčnej

kde je korelačný koeficient medzi premennými.

13.1.4. Viacrozmerné škálovanie (pozri kapitolu 16).

V mnohých situáciách a predovšetkým v situáciách, keď sa počiatočné štatistické údaje získavajú pomocou špeciálnych prieskumov, dotazníkov, odborných hodnotení, môžu nastať prípady, keď prvkom primárneho pozorovania nie je stav objektu opísaný vektorom, ale charakteristika párovej blízkosti (vzdialenosti) dvoch predmetov (alebo znakov) podľa čísel

V tomto prípade má výskumník ako pole počiatočných štatistických údajov maticu veľkosti (ak sa zohľadňujú charakteristiky párovej blízkosti objektov) alebo (ak sa zohľadňujú charakteristiky párovej blízkosti objektov) tvaru

kde veličiny sú interpretované buď ako vzdialenosti medzi objektmi (prvkami) i alebo ako poradia, ktoré špecifikujú poradie týchto vzdialeností. Úlohou viacrozmerného škálovania je „ponoriť“ naše objekty (prvky) do takého -rozmerného priestoru, t. j. zvoliť súradnicové osi tak, aby počiatočná geometrická konfigurácia množiny analyzovaných bodov objektu (alebo bodových prvkov) bola špecifikovaná pomocou ( 13.1) alebo (13.5), by sa ukázali byť najmenej skreslené v zmysle nejakého kritéria priemerného „stupňa skreslenia“ vzájomných párových vzdialeností.

Jedna z pomerne všeobecných schém viacrozmerného škálovania je určená kritériom

kde - vzdialenosť medzi objektmi v pôvodnom priestore, - vzdialenosť medzi rovnakými objektmi v požadovanom priestore nižšej dimenzie - sú voľné parametre, ktorých výber konkrétnych hodnôt je na uvážení výskumníka.

Po určení miery informačného obsahu požadovanej množiny znakov Z, napríklad ako prevrátenej hodnoty vyššie uvedeného stupňa skreslenia geometrickej štruktúry pôvodnej množiny bodov, zredukujeme tento problém na všeobecnú formuláciu (13.2 ), za predpokladu

13.1.5. Výber najinformatívnejších ukazovateľov v modeloch diskriminačnej analýzy (pozri § 1.4; 2.5).

Vyššie uvedené funkcie sú mierou autoinformatívnosti zodpovedajúceho systému funkcií. Uveďme teraz príklady kritérií pre obsah externých informácií. Nás bude zaujímať najmä informačný obsah sústavy ukazovateľov z hľadiska správneho zatriedenia objektov podľa týchto ukazovateľov v schéme diskriminačnej analýzy. V tomto prípade definujeme triedu prípustných transformácií F na základe požiadaviek, že možno uvažovať len o zástupcoch množiny počiatočných ukazovateľov, t.j.

Častou východiskovou tézou pri riešení problému identifikácie najinformatívnejších ukazovateľov z pôvodného súboru je konštatovanie, že vektor ukazovateľov danej dimenzie je tým informatívnejší, čím väčší je rozdiel v zákonitostiach jeho rozdelenia pravdepodobnosti, definovaných v rôznych triedy v posudzovanom klasifikačnom probléme. Ak zavedieme mieru párových rozdielov v zákonoch popisujúcich rozdelenie pravdepodobnosti vektora príznakov v triedach s číslami, potom môžeme formalizovať vyššie uvedený princíp výberu najinformatívnejších ukazovateľov ich určením z podmienky maximalizácie (o) hodnoty

Najbežnejšie používané miery rozdielu medzi zákonmi rozdelenia pravdepodobnosti sú vzdialenosť typu informácie (Kullbackova vzdialenosť, Mahalanobisova vzdialenosť), ako aj „variačná vzdialenosť“ (viac podrobností nájdete v .

13.1.6. Výber najinformatívnejších premenných v regresných modeloch (pozri).

Pri konštrukcii závislostí regresného typu je jedným z ústredných problémov identifikácia relatívne malého počtu premenných (z apriórneho súboru, ktoré najvýznamnejšie ovplyvňujú správanie sa sledovanej výslednej charakteristiky).

Tak ako v predchádzajúcom odseku, trieda F pozostáva zo všetkých možných množín premenných vybraných z počiatočnej množiny faktorových argumentov a zaoberáme sa kritériom externého informačného obsahu takýchto množín. Jeho typ sa zvyčajne špecifikuje pomocou viacnásobného koeficientu determinácie - charakteristika miery úzkej súvislosti medzi ukazovateľom y a množinou premenných. V tomto prípade pre pevnú dimenziu bude množina premenných samozrejme považovaná za najinformatívnejšiu. (z hľadiska presnosti popisu správania sa indikátora y), ak hodnota miery informačného obsahu na tomto súbore dosiahne maximum.