• No se han encontrado resultados

Evolución y profesionalización del proceso

4.3 El fansub

4.3.3 Evolución y profesionalización del proceso

Abstract: The purpose of common factor analysis is to explain the correlations or covariances among a set of variables in terms of a limited number of unobservable, latent variables. The latent variables are not generally computable as linear combinations of the original variables. In common factor analysis, it is assumed that the variables are linearly related if not for uncorrelated random error or unique variation in each variable; both the linear relations and the amount of unique variation can be estimated.

Key words: common factor analysis, multivariate procedures, rotation, SAS Enterprise Guide 1. Úvod

Faktorová analýza (FA = Factor Analysis) je metóda vhodná na zjednodušenie štatistických analýz. Základným cieľom FA je posúdiť štruktúru vzťahov medzi sledovanými premennými a zistiť, či je ich možné rozdeliť do skupín, v ktorých by ich vzájomné korelácie boli významné a medzi týmito skupinami by zase neboli významné. Cieľom je vytvoriť nové premenné (tzv. faktory), ktoré sú v praxi priamo nemerateľné a umožňujú pochopiť analyzované dáta a prípadne je ich možné použiť v ďalších analýzach.

Faktorová analýza vznikla v psychológii (Ch. Spearman, 1904), kde sa aj dlho výhradne používala a aj dnes sa často používa. O jej ďalší rozvoj a zdokonalenie sa zaslúžili vedci z oblasti spoločenskovedných disciplín (L. L. Thurstone, R. B. Cattel, C. Burt, G. Thomson a iní) a štatistici (D. N. Lawley, M. S. Bartlett, C. R. Rao a ďalší). V posledných 40-tich rokoch prenikla aj do iných vedných odborov.

Faktorová analýza je však štatistikmi často kritizovaná pre jej nejednoznačné riešenie, pre subjektivitu v niektorých jej cieľoch a krokoch, hmlistú interpretáciu a približnosť výsledkov. Povaha FA je skôr heuristická a prieskumná (exploratívna) ako overovacia (konfirmatívna). Jej použitie vyžaduje rešpektovanie predpokladov a podmienok tejto metódy, skúsenosti s jej použitím a hlavne tiež znalosti predmetu aplikačnej oblasti. Mnohí jej prívrženci súčasne varujú pred rutinným použitím FA vo výskume a pred „klamaním“ pomocou FA.

Termín spoločný faktor (common factor) sa vo FA používa na označenie nepozorovateľnej, hypotetickej premennej, ktorá prispieva k vysvetleniu najmenej dvoch pôvodných premenných. Špecifický faktor (unique factor) je zase nepozorovateľná, hypotetická premenná, ktorá prispieva k vysvetleniu len jednej pôvodnej premennej. Model FA predpokladá len jeden špecifický faktor pre každú pôvodnú premennú.

Poznáme dva druhy faktorovej analýzy: 1. prieskumnú (exploratory) a

2. potvrdzujúcu (confirmatory) faktorovú analýzu.

Ak výskumník nemá alebo má len málo znalostí o faktorovej štruktúre premenných, tak použije na jej odhalenie prieskumnú FA. Na druhej strane, ak výskumník predpokladá, že faktorová štruktúra je známa, respektíve má nejakú hypotézu a priori, tak na jej overenie použije potvrdzujúcu FA. V tomto príspevku sa budeme ďalej zaoberať len prieskumnou FA.

2. Všeobecná schéma aplikovania faktorovej analýzy

Pri aplikovaní faktorovej analýzy sa odporúča dodržať nasledovné kroky:

1. krok: Výber premenných

V úvode je veľmi dôležitý výber premenných (indikátorov) do FA, ktorý sa robí na základe vecnej analýzy problému. Po výbere premenných (indikátorov) je treba zvážiť aj veľkosť vzorky. Pri počte p zvolených premenných do FA je potrebné mať dostatočný počet štatistických jednotiek n (pozorovaní). Neexistuje presné pravidlo pre určenie rozsahu vzorky. Môžeme použiť len niektoré z empirických pravidiel, napr. že rozsah vzorky n by mal spĺňať kritérium n>10p.

2. krok: Odhad korelačnej matice a posúdenie vhodnosti dát pre faktorovú analýzu

Po výbere premenných je potrebné vypočítať ich výberovú kovariančnú, resp. korelačnú maticu (čo je v praxi bežnejší prípad, lebo zvyčajne sú premenné vyjadrené v rôznych merných jednotkách).

Z hľadiska FA by mali byť vybrané premenné závislé, lebo len vtedy je možné predpokladať existenciu spoločných faktorov – latentných premenných a následne redukovať dimenziu údajov. K tomuto účelu nám poslúži analýza korelačnej matice.

Bartlettov test sféričnosti1

Sú aj iné možnosti, ako posúdiť vhodnosť výberových dát na FA. Obľúbená je štatistika KMO (Kaiser – Meyer – Olkin), ktorá je založená na porovnaní koeficientov korelácie s parciálnymi koeficientmi korelácie:

testuje nulovú hypotézu, že korelačná matica sa rovná jednotkovej matici, čiže že všetky koeficienty korelácie mimo hlavnej diagonály sú rovné 0. Tento test vyžaduje, aby náhodný vektor indikátorov X mal viacrozmerné normálne rozdelenie. Dáta považujeme vhodné na FA, ak zamietneme nulovú hypotézu. Bartlettov test má viacero podôb. Tento test SAS EG neposkytuje.

2 ., 2 2 ij parc p j i ij p j i j i ij p r r r KMO ≠ ≠ ≠ ∑ ∑ + ∑ ∑ ∑ ∑ = , (1)

kde rij je párový koeficient korelácie medzi Xi a Xj a rparc.,ij

KMO štatistika sa počíta ako celková miera adekvátnosti (vhodnosti) výberových dát pre FA (MSA - Kaiser's measure of sampling adequacy overall) a aj ako čiastková miera adekvátnosti pre jednotlivé indikátory. Je to miera homogenity premenných. Hodnoty KMO miery sa netestujú, ale používa sa nasledovná tabuľka (

koeficient korelácie. Veľké rozdiely medzi odpovedajúcimi si párovými a parciálnymi koeficientmi korelácie signalizujú silné závislosti v skupine premenných.

Tabuľka 1) odporučení podľa Kaisera a Ricea (1974)2

Ako môžeme vidieť z tabuľky 1, odporúčajú sa vyššie hodnoty KMO miery pre vzorku dát ako 0,5. Dobré je, keď KMO miera je vyššia ako 0,8. Miera okolo 0,6 je ešte v tolerancii. Ak je KMO miera nižšia ako 0,5, tak môžeme zvýšiť jej hodnotu, ak nepoužijeme vo FA takú premennú, ktorá má nízku individuálnu hodnotu KMO miery. Hodnoty KMO miery SAS EG vo výstupe procedúry FACTOR poskytuje.

:

1 Testovacie kritérium pre Bartlettov test je uvedené napr. v knihe Hebák P. a kolektív: Vícerozmerné statistické

metody (2). Informatorium. Praha 2005. 9. kapitola.

2Tabuľka odporučení je prebratá z knihy Subhash Sharma: Applied Multivariate Techniques. New York, John

Tabuľka 1: Hodnoty KMO miery pre adekvátnosť výberových dát na FA

Hodnota KMO štatistiky Odporúčanie pre adekvátnosť výberových dát na FA ≥ 0,9 vynikajúce <0,8; 0,9) chvályhodné <0,7; 0,8) stredne užitočné <0,6; 0,7) priemerné <0,5; 0,6) slabé <0,5 nedostatočné

3. krok: Odhad parametrov faktorového modelu

Po tom čo sme posúdili vhodnosť dát pre FA, treba sa rozhodnúť, ktorú z metód odhadovania parametrov (faktorových váh) FA modelu zvolíme. Na odhad parametrov FA modelu bolo vyvinutých mnoho postupov, resp. metód extrakcie faktorov. Veľká časť vyvinutých metód má len historický význam a dnes sa už nepoužíva. V systéme SAS EG procedúra FACTOR ponúka 7 metód na odhad parametrov faktorového modelu:

1. metóda hlavných komponentov (PCA – Principal component analysis),

2. iteračná metóda hlavných faktorov, ktorá predstavuje modifikáciu metódy PCA a označuje sa skratkou PAF (Iterated principal factor analysis),

3. metóda maximálnej vierohodnosti (ML – Maximum-likelihood factor analysis), 4. Harrisova komponentná analýza (Harris component analysis),

5. Image covariance matrix, 6. Alpha factor analysis,

7. Unweighted least squares factor analysis.

Nedá sa jednoznačne povedať, ktorá metóda je najlepšia. Medzi najobľúbenejšie patrí metóda hlavných faktorov PAF. Metóda maximálnej vierohodnosti má oproti ostatným metódam výhody v tom, že je nezávislá na použitých merných jednotkách a poskytuje určité kritéria pre odhad vhodného počtu spoločných faktorov.

Existuje celý rad objektívnych a subjektívnych rád a možností ako aspoň približne určiť počet spoločných faktorov q:

1. Začať FA metódou PCA a určiť počiatočný počet faktorov, ktorý je len orientačný, ale niekde treba začať.

2. Odhadom počtu spoločných faktorov môže byť počet vlastných čísiel redukovanej korelačnej matice väčších ako jedna.

3. Niekedy apriórne vieme z iných analýz alebo z teoretickej analýzy problematiky, koľko spoločných faktorov je potrebných na charakterizovanie vzťahov medzi indikátormi.

4. Spoločné faktory by mali vysvetliť čo najviac celkového rozptylu. V exaktných vedách by to malo byť 90-95% a v spoločenských vedách viac ako 60-70%.

5. Spoločné faktory by mali reprezentovať viac ako 90% celkovej komunality, ktorá je daná súčtom komunalít všetkých p vstupných premenných (indikátorov).

6. Môžeme použiť graf „scree plot“, ktorý zobrazuje počet faktorov na osi x a na osi y percento vysvetlenej variability, t.j. hodnoty vlastných čísiel redukovanej kovariančnej, resp. korelačnej matice. Za optimálny počet faktorov je treba považovať hodnotu na x-ovej osi pred bodom zlomu na krivke vlastných čísiel.

7. Do konečného riešenia sa nemajú zahrňovať tzv. triviálne faktory. Triviálne faktory sú také, ktoré významne korelujú len s jedným indikátorom. Lepšie je takýto indikátor z FA vylúčiť a začať znovu. To neznamená, že daná premenná je nepodstatná, ale nehodí sa do faktorovej analýzy a môže byť uvažovaná samostatne.

Metóda maximálnej vierohodnosti poskytuje objektívnejšie kritériá pre hodnotenie počtu faktorov. Jednou z možností je test počtu faktorov vierohodnostným pomerom, ktorý

vyžaduje predpoklad viacrozmerného normálneho rozdelenia indikátorov a dostatočne veľký rozsah vzorky n.

4. krok: Rotácia a interpretácia

V treťom kroku FA získame len počiatočný odhad matice faktorových váh. Odporúča sa použiť viacero techník rotácie a výsledky porovnať a posúdiť z hľadiska interpretovateľnosti faktorov. Treba zistiť, či výsledok rotácie je logický, či podporuje teóriu alebo empirické zistenia z danej vecnej problematiky.

Ortogonálna transformácia faktorov (tzv. rotácia faktorov) je výpočtová operácia, ktorou sa z matice faktorových váh získava nová matica. Pojem rotácie sa do FA preniesol z geometrického zobrazenia transformácie faktorových váh. Ortogonálna transformácia je geometricky pevná (rigidná) rotácia q súradnicových osí v p-rozmernom priestore.

Teória FA a štatistické programy poskytujú celý rad metód transformácie (rotácie) faktorov. Je potrebné sa rozhodnúť, či použijeme ortogonálnu (pravouhlú, kolmú) rotáciu alebo kosouhlú (šikmú) rotáciu. Ortogonálna rotácia vedie k riešeniu s nekorelovanými (nezávislými) faktormi. Prvky matice faktorových váh je možné interpretovať ako regresné koeficienty závislosti indikátorov na faktoroch a tiež ako korelačné koeficienty medzi nimi. Kosouhlá rotácia vedie ku získaniu závislých faktorov, čiže naviac ešte poskytuje korelačnú maticu medzi faktormi. Kosouhlú rotáciu niektorí autori odmietajú, kým iní autori ju vítajú. Tvrdia, že pre prax sú reálnejšie korelované (závislé) spoločné faktory.

5. krok: Odhad faktorových skóre a aplikácia výsledkov faktorovej analýzy

Ak je to potrebné, tak odhadneme faktorové skóre, tzn. hodnoty spoločných faktorov pre jednotlivé štatistické jednotky. Hodnoty FA skóre sa dajú ďalej použiť v iných štatistických analýzach, napr. v regresných modeloch ako menší počet nezávislých premenných oproti pôvodnému počtu, v zhlukovej analýze ako vstupné premenné, ktoré sú nekorelované (len po použití ortogonálnej rotácie), v diskriminačnej analýze a pod.

3. Príklad

Postupnosť krokov pri faktorovej analýze budeme demonštrovať na demografických údajoch za 79 okresov Slovenska. K dispozícii máme nasledované priemerné demografické ukazovatele za obdobie rokov 2001 až 2005:

Tabuľka 2: Zoznam vstupných premenných

Premenná Popis

cislo okresu číslo okresu okres názov okresu

us_m úhrnná sobášnosť muži

sr_m štandardizovaná rozvodovosť muži us úhrnná sobášnosť ženy

sr štandardizovaná rozvodovosť ženy up úhrnná plodnosť

prvs_m priemerný vek pri prvom sobáši muži prvr_m priemerný vek rozvode muži prvs priemerný vek pri prvom sobáši prvr priemerný vek rozvode prvp priemerný vek pri prvom pôrode

Na základe analýzy korelačnej matice pre 10 indikátorov a ich KMO miery (Kaiser's Measure of Sampling Adequacy: Overall MSA = 0.76341472) sme usúdili, že dáta sú vhodné na faktorovú analýzu. Na odhad parametrov faktorového modelu sme najskôr použili metódu hlavných komponentov a získali sme 2 faktory, ktoré môžeme pokladať za štatisticky

významné (použili sme Kaiserovo pravidlo o vlastných číslach väčších ako 1, viď Tabuľka 3). Tieto dva odhadnuté latentné faktory vysvetľujú až 83,12% celkovej variability dát. Na zlepšenie ich interpretácie sme použili ortogonálnu transformáciu (rotáciu) varimax. Po rotácii sme získali až 4 významné faktory, ktoré vysvetľujú až 92,26% variability (Tabuľka 4). Môžeme konštatovať, že prvý faktor je pozitívne skorelovaný so sobášnosťou mužov a žien, plodnosťou a záporne s rozvodovosťou mužov a žien. Druhý faktor je vysoko pozitívne skorelovaný hlavne s priemerným vekom rozvodov mužov a žien. Tretí faktor je korelovaný s ostatnými priemernými vekmi a štvrtý faktor len s rozvodovosťou mužov a žien (Tabuľka 5).

Tabuľka 3: Vlastné čísla (časť, PCA metóda)

Eigenvalues of the Correlation Matrix: Total = 10 Average = 1

Eigenvalue Difference Proportion Cumulative 1 6.330 4.349 0.633 0.633 2 1.982 1.232 0.198 0.831 3 0.749 0.280 0.075 0.906 4 0.470 0.189 0.047 0.953

Tabuľka 4: Vysvetlená variabilita faktormi po rotácii

Variance Explained by Each Factor Factor1 Factor2 Factor3 Factor4

3.0887 2.8278 2.1083 1.2006

Tabuľka 5: Faktorové váhy (po rotácii varimax)

Rotated Factor Pattern

Factor1 Factor2 Factor3 Factor4 us_m 0.990 -0.079 -0.066 -0.089 us 0.874 -0.254 -0.134 -0.178 sr_m -0.586 0.329 0.155 0.714 sr -0.610 0.251 0.093 0.735 up 0.658 -0.215 -0.265 -0.192 prvs_m -0.275 0.472 0.751 0.166 prvs -0.177 0.547 0.786 0.143 prvr_m -0.168 0.949 0.195 0.125 prvr -0.141 0.953 0.221 0.092 prvp -0.203 0.456 0.846 0.051 4. Záver

FA je podobná metóde analýzy hlavných komponentov (PCA), pretože tiež je určená na vytváranie nových premenných a na zníženie dimenzie dát s čo najmenšou stratou informácie. Do určitej miery je možné FA považovať za rozšírenie PCA. Na rozdiel od PCA však vychádza zo snahy vysvetliť závislosti medzi pôvodnými premennými. Medzi nedostatky PCA patrí, že je závislá na merných jednotkách premenných, neposkytuje jednoznačné kritérium pre rozhodnutie či zvolený počet HK vysvetľuje dostatočné percento celkovej variability a nezaoberá sa chybovým rozptylom premenných. Prístup FA čiastočne odstraňuje tieto nedostatky PCA, ale má však iné slabé miesta. FA má veľa subjektívnych aspektov a nejednoznačnosť odhadov faktorových parametrov. Prednosťou FA je jej väčšia obecnosť a úspornosť, i keď niektoré odhady vyžadujú splnenie aspoň približného viacrozmerného normálneho rozdelenia. Dôležité je aj určenie počtu spoločných faktorov pred vykonaním FA, ktoré musí vychádzať z hypotéz výskumníka v predmetnej aplikačnej oblasti.

5. Literatúra

HEBÁK,PETR AKOLEKTÍV: Vícerozmerné statistické metody (2). Informatorium. Praha 2005.

STANKOVIČOVÁ, IVETA: Viacrozmerná analýza rentability poisťovní SR pomocou Enterprise Guide, In: 10.

medzinárodný seminár Výpočtová štatistika. Bratislava: SŠDS 2001. ISBN 80-88946-14-X SHARMA,SUBHASH:Applied Multivariate Techniques. New York, John Wiley & Sons, Inc., 1996.

VOJTKOVÁ, MÁRIA: Viackriteriálne hodnotenie podnikov priemyslu Slovenskej republiky, Ekonomické rozhľady. Roč. 2003, č. 3, s. 320-331, ISSN 0323-262X

Zdroj dát: Výskumné demografické centrum, INFOSTAT Bratislava

Adresa autora:

Ing. Iveta Stankovičová, PhD.

Katedra informačných systémov, Fakulta managementu UK v Bratislave Odbojárov 10, 820 05 Bratislava