분류 전체보기 150

8. 특이값과 특이벡터

강의정리 $m$ x $n$ 행렬 $A$ 에 대해서 $A^T A$ 는 대칭인 양의 정부호 행렬 Symetric Positive Definte 이다. ( 열이 독립인 가정하에. ) $A^T A = V\Lambda V^T $ ($n$ x $n$) 로 표현할 수 있고, $V$ 는 고유벡터, $\Lambda$는 고유값으로 나타낼 수 있다. 여기서 고유벡터들은 정규직교하고 고유값은 0 보다 크다. ( 대칭인 양의 정부호 ) 다른 대칭행렬 $AA^T = U\Lambda U^T$ ( $m$ x $m$ ) 로 표현할 수도있다. 여기서 고유값은 $A^TA$ 와 동일하지만 $\Lambda$ 행렬은 $m$ x $m$ 이다. 따라서 부족한 대각성분은 0 으로 채워진다. 우리가 찾으려는 것은 아래 식이고, $r$ 은 Rank 이..

선형머수학 2022.04.13

7. 대칭인 양의 정부호 행렬 Symmetric Positive Definite

대칭인 양의 정부호 행렬은 모든 고유값이 양수 에너지 $x^TSx$ > 0 ( $x \neq 0 ) $ $S = A^TA$ ( $A$ 의 col 은 독립 ) 행렬식 > 0 ( 모든 leading 행렬의 행렬식 ) 소거법 elimination 에서 모든 pivots ( 주축들 ) > 0 을 만족한다. $S$ 와 $T$ 가 양의 정부호 행렬일 때 $S + T$ 는 양의 정부호행렬인가? -> $x^T(S+T)x = x^TSx + x^TTx > 0$ yes! $S^{-1} 은 양의 정부호행렬인가? -> $S^{-1}$ 의 고유값은 $\frac{1}{\lambda}$ 임. yes! $Q^TSQ$ 는 양의 정부호 행렬인가? -> $Q^{-1}SQ$ 는 $S$ 와 닮음이고 고유값이 같다. yes! $x^TQ^TSQx..

선형머수학 2022.04.11

6. 고유값과 고유벡터

행렬 $A$ 에 고유벡터를 곱하면, 방향이 변하지 않는 성질을 가진다. $x = A$ 의 고유벡터, $\lambda = A$ 의 고유값 $Ax=\lambda x$ 고유벡터 $x$ 는 단지 고유값 $\lambda$ 만 곱한 형태라, $A^2$ 의 고유벡터도 $x$ 로 동일하다. $k=1 \cdots $ 에 대해 $A^kx = \lambda^k x $ 이고, $\lambda \neq 0$ 에 대해 $A^{-1}x = \frac{1}{\lambda}x$ 이다. 그래서 $\lambda= 0 $ 인경우 $A$ 의 역행렬은 없다. 또한 행렬을 지수화한 $e^{At}x$ 에서도 $e^{\lambda t}x$ 으로 변환된다. 대부분의 $n$ x $n$ 행렬에는 $n$ 개의 독립인 고유벡터 $x_1 \cdots x_n$..

선형머수학 2022.04.11

5. 직교행렬과 부분공간

직교 orthogornal 서로 직교인 벡터 $x$ , $y$ 는 $x^Ty = x_1y_1 + \cdots + x_ny_n = 0 $ 으로 판정한다. $x$, $y$ 가 복소 성분을 포함하면 $\bar{x}^T y = 0 $ 으로 판정한다. 부분 공간의 직교 기저 : 모든 벡터 $v_i^T v_j = 0 $ 을 만족한다. $i \neq j $ 정규 직교 기저 : $v_i^T v_i$ = 1 인 직교 기저, 직교 기저를 정규 직교 기저로 만들려면 각 벡터를 $||v_i||$ 으로 나눈다. 직교 부분공간 orthogornal subspace $R$, $N$ : 공간 $R$ 의 모든 벡터는 공간 $N$ 의 모든 벡터는 직교한다. $Ax=0$ 에서 행공간과 영공간은 직교한다. $A$의 각행과 $x$ 의 곱은 ..

선형머수학 2022.04.09

4. 소거법과 $A=LU$

기본적인 문제 $Ax = b$ 의 해를 구하기 위해, 대수적으로 방정식을 단순화 하여 문제를 해결하는 법을 알아본다. $n$ x $n$ 행렬 $A$ 와 $n$ x $1$ 열벡터 $b$ 가 있을때, $x_1$ ~ $x_{n-1}$ 까지 소거해 $A_n x_n = b_n$ 을 얻고, 차례로 $x_2$, $x_1$ 을 구할 수 있다. 이 과정을 랭크가 1인 행렬 관점에서 소거법을 살펴보면, 위의 과정은 행렬 $lu^*$ 를 제거하는 과정이다. 행렬 $A$는 랭크가 1 인 행렬들의 합이고 이는 $A=LU$로 표현할 수 있다. ( $L$ : 하삼각행렬, $U$ : 상삼각행렬 ) $A=LU$는 행교환이 없는 소거법 행렬의 표현으로, 대수학적 접근이다. ( 연립방정식 ) EX) $ \begin{bmatrix} 1 &..

선형머수학 2022.04.09

3. 네 가지 기본 부분공간

$m$ x $n$ 행렬 $A$ 의 4가지 부분공간, 2개의 $R^m$ 부분공간, 2개의 $R^n$ 부분공간 - 열공간 $C(A)$는 행렬 $A$의 모든 열의 일차결합을 포함한다. - 행공간 $C(A^T)$ 는 행렬 $A$의 모든 행의 일차결합을 포함한다. - 영공간 $N(A)$ 는 $Ax=0$의 모든 해를 포함한다. - 좌영공간 $N(A^T)$ 는 $A^Ty=0$ 의 모든 해를 포함한다. EX) $ A = \begin{bmatrix} 1 & 2 \\ 3 & 6 \\ \end{bmatrix} = uv^T $ 에서, $m=2$, $n=2$ 이다. 열공간 $C(A)$는 $ u = \begin{bmatrix} 1 \\ 3 \end{bmatrix} $ 를 지나는 직선이고, 행렬 $A$ 의 2열은 이 직선위에 있다..

선형머수학 2022.04.06

2. 행렬 곱셈 $AB$

행렬 $AB$를 구하는 방식에는 내적 방식과 외적 방식이 있다. 내적은 $A$ 의 행과 $B$의 열의 곱의 합 형태이고, 외적은 $A$ 의 열과 $B$의 행을 곱하는 방법이다. 외적 $ uv^T = \begin{bmatrix} 2 \\ 2 \\ 1 \end{bmatrix} \begin{bmatrix} 3 & 4 & 6 \\ \end{bmatrix} = \begin{bmatrix} 6 & 8 & 12 \\ 6 & 8 & 12 \\3 & 4 & 6 \\ \end{bmatrix} = $ 랭크1인 행렬 $uv^T$ 의 모든 열은 $u$ 의 배수이고, 모든 행은 $v^T$ 의 배수이다. $uv^T$ 의 랭크는 1이고, 행렬 $A$ 의 행공간은 행렬 $A^T$의 열공간이다. 행 랭크 = 열 랭크, r 개의 일차독립..

선형머수학 2022.04.05

1. 행렬 $A$ 의 열을 이용한 곱셈 $Ax$

$Ax = b $ $Ax = \lambda x $ $Av = \sigma w $ $ ||Ax||^2 / ||x||^2 $ 의 최소화 행렬 A를 분해 1. $ Ax = b $ 행렬 $ A = \begin{bmatrix} 2 & 3 \\ 2 & 4 \\ 3 & 7 \\ \end{bmatrix} $ , 벡터 $ x = \begin{bmatrix} x_1 \\ x_2 \\ \end{bmatrix} $ 의 곱셈은 행을 이용 : 행, 열의 내적 $행 \cdot 열 = (2, 3) \cdot (x_1, x_2) = 2x_1 + 3x_2 $ 열을 이용 : 열의 일차 결합 $ x_1\begin{bmatrix} 2 \\ 2 \\ 3 \end{bmatrix}+x_2\begin{bmatrix}3 \\ 4 \\ 7 \end{b..

선형머수학 2022.04.04

Residual Connection

Residual Connection Residual Connection 은 Skip Connection 이라고도하는 계층사이를 연결하는 연결방식이다. 네트워크를 더 깊게 만들수록 표현력이 오히려 떨어지는 현상을 보고, 이런일은 optimize 를 잘 수행하지 못하기 때문이라고 생각해서 이전 Layer 보다 학습이 덜되지는 않게 이전 학습된 결과에 이번 Layer에서 더 학습할 잔여 학습이 있다면 이를 학습하는 방식이다. 의미적으로는 이번에 학습할 게 전혀없고 쓸데없는 Layer 라면 최소한 이전 Layer 의 결과를 그대로 출력하는 방식을 의미한다. 그래서 신경망이 깊어질수록 optimize 가 덜 되지는 않도록 한다. 사실 실제에서는 이전 결과를 그대로 출력하는 일 ( Identity mapping )..

Batch Normalization

Batch Normalization batch normalization 은 미니배치 내의 데이터들에 대해 각 위치의 원소들을 평균 0 표준편차 1의 분포로 만들어 주고, scale factor 을 곱하고 shift factor 을 더하는 정규화 방법이다. 깊은 네트워크를 학습시킬때 역전파 층 처리를 진행하다보면 gradient 가 폭주 혹은 소실 될 가능성이 있다. 이는 각 층의 입력을 구성하는 성분별 분포가 심하게 달라서, 특정 입력이 가중치 파라미터의 기울기를 좌지우지할 때 쉽게 일어난다. 그래서 여러 입력 성분간의 분포간에 적절한 균형을 잡아주는 것이 필요하다. 이를 해결하기위해 Kernel Initialization 을 사용하더라도, 학습 중간에 발생하는 폭주와 소실을 감소시켜주기는 힘들다. Ba..