Luku 10 Liitteet

10.1 Vektoreista

Vektori (\(d\)-ulotteinen) on järjestetty lista lukuja \((x_1, x_2, \ldots, x_d)\), \(x_i\in\mathbb{R}\). Eli vektori voidaan tulkita avaruuden \(\mathbb{R}^d\) alkiona. Esimerkiksi \(2\)-ulotteiset vektorit voidaan piirtää pisteinä tai paikkavektoreina (nuoli lähtien nollasta päättyen vektorin määräämiin koordinaatteihin) tasossa \(\mathbb{R}^2\) kuten kuvassa 10.1. Samoin \(d\)-ulotteiset vektorit voidaan tulkita pisteinä avaruudessa \(\mathbb{R}^d\) mutta visualisointi muuttuu mahdottomaksi kun \(d > 3\). Korostamme vielä, että vektorien alkioiden järjestyksellä on väliä eli esimerkiksi \((1, 2) \neq (2, 1)\).

Huomautus (Vektorinotaatioista).

Joskus vektorit erotetaan luvuista lihavoimalla vektorit. Tässä monisteessa käytämme kyseistä periaatetta eli \(\boldsymbol x\) tulkitaan vektorina ja \(x\) lukuna.
Usein oletuksena vektorit tulkitaan pystyvektoreina. Sillä onko \(\boldsymbol x\) pysty- vai vaakavektori on merkitystä vektoreiden välisissä laskutoimituksissa. Muista, että notaatio \(\boldsymbol x^T\) tarkoittaa transpoosia, joka muuttaa vaakavektorin pystyvektoriksi ja toisinpäin. Eli esimerkiksi \((1, 4, 2.4)^T\) on \(3\)-ulotteinen pystyvektori \[\begin{equation*} \begin{pmatrix} 1 \\ 4 \\ 2.4 \end{pmatrix}, \end{equation*}\] joten monisteessa merkitsemme pystyvektoreita esimerkiksi notaatiolla \(\boldsymbol y = (4, 1, 8, 2)^T\).

Vektorin \(\boldsymbol x = (x_1, x_2, \cdots, x_d)\in\mathbb{R}^d\) suuruutta tai pituutta voidaan mitata sen normin \(\|\boldsymbol x\|\) avulla, \[\begin{equation} \|\boldsymbol x\| = \sqrt{\sum_{i = 1}^d x_i^2}. \tag{10.1} \end{equation}\] Yllä olevassa yhtälössä esitetty normi on nimeltään Euklidinen normi (eng: Euclidean norm), joka on yksi yleisimmistä normeista. Muitakin normeja on kuitenkin olemassa:

\(\|\boldsymbol x\|_1 = \sum_{i=1}^d |x_i|\)
- Kyseiselle normille on useita nimityksiä kuten taksikuskin normi (eng: taxicab norm) ja Manhattanin normi (eng: Manhattan norm).
Olkoon \(A\in\mathbb{R}^{d\times d}\) positiivisesti definiitti matriisi. Tällöin matriisia vastaavan käänteismatriisin \(\boldsymbol A^{-1}\) avulla voidaan määritellä normi \(\|\boldsymbol x\|_{\boldsymbol A} = \sqrt{\boldsymbol x^T \boldsymbol A^{-1} \boldsymbol x}\).
- Tätä jo hieman monimutkaisempaa normia käytetään esimerkiksi moniulotteisen normaalijakauman tiheysfunktion määritelmässä. Tällä kurssilla ei tarvitse tietää, mitä “positiivisesti definiitti” tarkoittaa. On kuitenkin hyvä huomata, että normin määritelmässä käytetty matriisi \(\boldsymbol A\) ei voi olla aivan mikä tahansa matriisi. Kuitenkin esimerkiksi luvussa 2.5 määritellyt kovarianssimatriisit ovat aina positiivisesti definiittejä. Kyseisen normin avulla laskettua vektoreiden \(\boldsymbol x\) ja \(\boldsymbol y\) välistä etäisyyttä \(\|\boldsymbol x - \boldsymbol y\|_{\boldsymbol A}\) tilastotietelijät kutsuvat usein Mahalanobisin etäisyydeksi (eng: Mahalanobis distance). Etäisyys on siis nimetty kuuluisan intialaisen tilastotieteilijän Prasanta Chandra Mahalanobisin mukaan.

Normin valinta riippuu kontekstista eikä tuttu Euklidinen normi ole välttämättä paras valinta kaikissa tilanteissa. Painotetaan myös vielä, että normin (\(\|\boldsymbol x - \boldsymbol y\|\), \(\|\boldsymbol x - \boldsymbol y\|_1\) tai \(\|\boldsymbol x - \boldsymbol y\|_{\boldsymbol A}\)) avulla voidaan mitata kahden vektorin \(\boldsymbol x\) ja \(\boldsymbol y\) välistä etäisyyttä. Etäisyys tulkitaan hieman eri tavalla riippuen valitusta normista.

Suuruuden lisäksi vektorilla on suunta. Työkalu vektorin suunnan määrittämiseen on pistetulo. Jos vektorin suuruutta mitataan Euklidisella normilla, niin kahden vektorin \(\boldsymbol x\in\mathbb{R}^d\) ja \(\boldsymbol y\in\mathbb{R}^d\) välinen pistetulo määritellään seuraavasti, \[\begin{equation*} \langle \boldsymbol x, \boldsymbol y\rangle = \sum_{i = 1}^d x_i y_i. \end{equation*}\] Erityisesti kaksi vektoria \(\boldsymbol x\) ja \(\boldsymbol y\) ovat suorassa kulmassa toisiinsa nähden jos ja vain jos \(\langle \boldsymbol x, \boldsymbol y\rangle = 0\).

Esimerkki 10.1 (Vektorin suuruus ja suunta)

Kuvan 10.1 vektoreilla \((2,2)^T\) ja \((-1, \sqrt{7})^T\) on sama normi.
Kuvan 10.1 vektoreiden \((2, 2)^T\) ja \((-1, 1)^T\) välinen pistetulo on nolla.

Kuva 10.1: Vektoreita karteesisessa koordinaatistossa.

10.2 Matriiseista

Matriisi on suorakulmion muotoinen taulukko lukuja, joka on järjestetty rivien ja sarakkeiden mukaan. Matriisi, jossa on \(n\) riviä ja \(d\) saraketta on \((n\times d)\)-matriisi \[\begin{equation*} \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1d} \\ a_{21} & a_{22} & \cdots & a_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nd} \end{pmatrix}. \end{equation*}\] Jos matriisi nimetään jonkun muuttujan kuten \(\boldsymbol A\) mukaan, niin kyseisen matriisin alkioita merkitään notaatiolla \(\boldsymbol A_{ij}\). Esimerkiksi jos \[\begin{equation*} \boldsymbol A = \begin{pmatrix} 3 & 6 \\ 2 & 8 \end{pmatrix}, \end{equation*}\] niin \(\boldsymbol A_{11} = 3\), \(\boldsymbol A_{12} = 6\), \(\boldsymbol A_{21} = 2\) ja \(\boldsymbol A_{22} = 8\). Matriisia \(A\in\mathbb{R}^{n\times n}\), jolla on sama määrä rivejä kuin sarakkeita kutsutaan neliömatriisiksi. Huomaa myös, että vektorit ovat erityistapauksia matriiseista. Myös matriisit usein lihavoidaan kuten vektorit. Samaa periaatetta noudatetaan tässä monisteessa. Pystyvektori on \(n\times 1\) matriisi ja vaakavektori on \(1\times d\) matriisi.

Seuraavaksi kertaamme matriiseihin liittyviä laskutoimituksia. Esitysteknisistä syistä rajoitumme \(2\times 2\) matriiseihin, vaikka alla olevat laskutoimitukset toimivat myös \((n\times d)\)-matriiseille. Matriisien peruslaskutoimitukset kuten summa \[\begin{equation*} \boldsymbol A + \boldsymbol B = \begin{pmatrix} \boldsymbol A_{11} + \boldsymbol B_{11} & \boldsymbol A_{12} + \boldsymbol B_{12} \\ \boldsymbol A_{21} + \boldsymbol B_{21} & \boldsymbol A_{22} + \boldsymbol B_{22} \end{pmatrix} \end{equation*}\] ja skalaarilla (luvulla) kertominen \[\begin{equation*} c \boldsymbol A = \begin{pmatrix} c \boldsymbol A_{11} & c \boldsymbol A_{12} \\ c \boldsymbol A_{21} & c \boldsymbol A_{22} \end{pmatrix} \end{equation*}\] toimivat alkioittain.

Matriisitulo on hieman monimutkaisempi laskutoimitus. Kun \(A\) on \((n\times d)\)-matriisi, ja \(B\) on \((d \times m)\)-matriisi, niin tulomatriisi \(AB\) on \((n \times m)\)-matriisi, jonka alkiot ovat muotoa \[\begin{equation*} (AB)_{ij} = \sum_{k = 1}^d a_{ik}b_{kj}. \end{equation*}\] Esimerkiksi \[\begin{equation*} \begin{split} \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 5 & 6 \\ 7 & 8 \end{pmatrix} &= \begin{pmatrix} 1\cdot 5 + 2\cdot 7 & 1\cdot 6 + 2\cdot 8 \\ 3\cdot 5 + 4\cdot 7 & 3\cdot 6 + 4\cdot 8 \end{pmatrix} \\ &= \begin{pmatrix} 19 & 22 \\ 43 & 50 \end{pmatrix} \end{split} \end{equation*}\] Alla on muutamia matriisikertolaskun ominaisuuksia:

\((AB)C = A(BC)\)
\(A(B + C) = AB + AC\)
Matriisitulo ei ole aina vaihdannainen: \(AB \neq BA\)

Kun \(\boldsymbol A\) on \((2\times 2)\)-matriisi \[\begin{equation*} \boldsymbol A = \begin{pmatrix} \boldsymbol A_{11} & \boldsymbol A_{12} \\ \boldsymbol A_{21} & \boldsymbol A_{22} \end{pmatrix}, \end{equation*}\] niin matriisia vastaava determinantti lasketaan kaavalla \[\begin{equation*} \mathrm{Det}\left(\boldsymbol A\right) = \boldsymbol A_{11}\boldsymbol A_{22} - \boldsymbol A_{21}\boldsymbol A_{12}. \end{equation*}\] Determinantin laskukaavaa tapauksille \(d > 2\) emme käy tällä kurssilla. Huomaa, että determinantin tulos on reaaliluku. Determinantti tärkeä, koska se eräänlainen matriisin “tunnusluku”. Alla on kuvattu muutama determinantin keskeinen ominaisuus. Olkoon \(\boldsymbol A\) ja \(\boldsymbol B\) neliömatriiseja.

\(\mathrm{Det}\left(\boldsymbol A\right) = 0\) tarkoittaa, että matriisi \(\boldsymbol A\) on singulaarinen eli \(\boldsymbol A\) ei ole kääntyvä.
\(\mathrm{Det}\left(\boldsymbol A \boldsymbol B\right) = \mathrm{Det}\left(\boldsymbol A\right) \mathrm{Det}\left(\boldsymbol B\right)\).

Kun \(\boldsymbol A\) on neliömatriisi, niin sen käänteismatriisi \(\boldsymbol A^{-1}\) toteuttaa \[\begin{equation*} \boldsymbol A \boldsymbol A^{-1} = \boldsymbol A^{-1} \boldsymbol A = \boldsymbol I, \end{equation*}\] jossa \(\boldsymbol I\) on identiteettimatriisi. Esimerkiksi \(2\times 2\) identiteettimatriisi on \[\begin{equation*} \boldsymbol I = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}. \end{equation*}\] Jos \(2\times 2\) matriisin \(\boldsymbol A\) käänteismatriisi on olemassa eli \(\mathrm{Det}\left(\boldsymbol A\right) \neq 0\), niin se voidaan laskea kaavalla \[\begin{equation*} \boldsymbol A^{-1} = \frac{1}{\mathrm{Det}\left(\boldsymbol A\right)} \begin{pmatrix} \boldsymbol A_{22} & -\boldsymbol A_{12} \\ -\boldsymbol A_{21} & \boldsymbol A_{11} \end{pmatrix}. \end{equation*}\] Huomaa, että identiteettimatriisi on erityinen. Esimerkiksi matriisien kertolaskun suhteen identiteettimatriisi toimii kuten luku 1 eli \(\boldsymbol A \boldsymbol I = \boldsymbol I \boldsymbol A = \boldsymbol A\).

Transpoosi operaatio voidaan yleistää myös matriiseille. Eli matriisin \(\boldsymbol A\) transpoosi \(\boldsymbol A^T\) vaihtaa rivit sarakkeiksi ja sarakkeet riveiksi. Esimerkiksi jos \[\begin{equation*} \boldsymbol A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}, \end{equation*}\] niin \[\begin{equation*} \boldsymbol A^T = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \\ \end{pmatrix}. \end{equation*}\] Alla on muutamia keskeisiä transpoosin ominaisuuksia.

\(\left(\boldsymbol A^T\right)^T = \boldsymbol A\),
\(\left(\boldsymbol A + \boldsymbol B\right)^T = \boldsymbol A^T + \boldsymbol B^T\) ja
\(\left(\boldsymbol A \boldsymbol B\right)^T = \boldsymbol B^T \boldsymbol A^T\).