Softvér na analýzu údajov — Projektová správa
2026-04-29
Situácia:
mtcars: 11 premenných, 32 áutRiešenie — PCA:
Transformuj \(p\) premenných na \(k \ll p\) komponentov, ktoré zachovávajú čo najviac informácie.
Algoritmus PCA — 4 kroky:
Štandardizácia: \(z_{ij} = \dfrac{x_{ij} - \bar{x}_j}{s_j}\)
Kovariančná matica: \(\mathbf{C} = \dfrac{1}{n-1}\mathbf{Z}^\top\mathbf{Z}\)
Spektrálny rozklad: \(\mathbf{C}\mathbf{v}_i = \lambda_i \mathbf{v}_i\)
Projekcia: \(\mathbf{PC}_k = \mathbf{Z}\mathbf{v}_k\)
Vysvetlená variabilita \(k\)-teho komponentu: \[\text{PVE}_k = \frac{\lambda_k}{\sum_{i=1}^{p} \lambda_i} \times 100\%\]
| mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mazda RX4 | 21.0 | 6 | 160 | 110 | 3.9 | 2.6 | 16.5 | 0 | 1 | 4 | 4 |
| Mazda RX4 Wag | 21.0 | 6 | 160 | 110 | 3.9 | 2.9 | 17.0 | 0 | 1 | 4 | 4 |
| Datsun 710 | 22.8 | 4 | 108 | 93 | 3.9 | 2.3 | 18.6 | 1 | 1 | 4 | 1 |
| Hornet 4 Drive | 21.4 | 6 | 258 | 110 | 3.1 | 3.2 | 19.4 | 1 | 0 | 3 | 1 |
| Hornet Sportabout | 18.7 | 8 | 360 | 175 | 3.1 | 3.4 | 17.0 | 0 | 0 | 3 | 2 |
| Valiant | 18.1 | 6 | 225 | 105 | 2.8 | 3.5 | 20.2 | 1 | 0 | 3 | 1 |
32 modelov automobilov (1974) · 11 technických premenných · Zdroj: Henderson & Velleman (1981)
PC Eigenvalue PVE Cumulative
1 PC1 6.61 60.08 60.08
2 PC2 2.65 24.10 84.17
3 PC3 0.63 5.70 89.87
4 PC4 0.27 2.45 92.32
5 PC5 0.22 2.03 94.36
PC1 — „Sila vozidla” (60.1%)
cyl, disp, hp, wt, carbmpg, dratSilnejší motor = vyššia spotreba
PC2 — „Konfigurácia” (24.1%)
qsec, vscarb, hpVýsledky:
| Pôvodné premenné | 11 |
| Komponenty (80%) | 4 |
| PC1+PC2 variabilita | 84.2% |
| Separácia áut | ✅ |
Kľúčové zistenia:
„PCA is arguably the most important tool in multivariate statistics.”
— Jolliffe & Cadima (2016)
Softvér na analýzu údajov · PCA · 2026