세찬하늘
[머신러닝 기초] 선형대수와 확률이론(1) 본문
3월 11일 수업내용 정리
머신러닝 수업, 오리엔테이션을 제외하고 본격적으로 수업을 한 첫 시간
수업내용은 머신러닝을 들어가기 전 알아야할 선형대수와 확률이론을 공부
머신러닝 모델도 결국 기초 선형대수와 확률이론을 알아야 이해가 가능하기 때문에
전체적인 복습 차원에서 수업을 진행
하지만, 나는 복습할게 없는 무지랭이....
이번에도 챗과 함께 내용정리
📚 머신러닝 기초: 선형대수와 확률이론 총정리
🚩 Ⅰ. 선형대수의 기초 개념
- 스칼라(Scalar): 하나의 숫자 (방향 없음, 크기만 있음), 우리가 아는 숫자'5' 같은거ㅡ

- 벡터(Vector): 숫자 여러개가 모여있는 것(방향이 있는 리스트)
- 🚀 벡터에서 방향이 왜 중요할까?
벡터는 크기(길이)뿐만 아니라 방향도 가진다.
그렇다면 방향이 필요한 이유는 뭘까?- 위치와 이동을 표현할 때
- 예를 들어, 자동차가 10km 이동했다고 할 때,
- "어디로?"가 없다면 정보가 불완전해!
- "동쪽으로 10km" → 방향이 포함되면 이동이 정확하게 정의됨.
- 예를 들어, 자동차가 10km 이동했다고 할 때,
- 힘(Force)과 운동량
- 물체를 "미는 힘"도 방향이 있다.
- 예를 들어, 벽을 미는 힘(10N)이지만 벽과 수직이면? → 움직이지 않음!
- 힘의 방향이 운동 방향과 같아야 효과적으로 이동 가능.
- 기계학습과 그래픽스
- 이미지 필터에서 픽셀 값 변화 → 특정 방향으로 강조됨.
- 3D 그래픽에서 물체의 움직임을 계산할 때 벡터 방향이 필요함.
- 벡터는 길이와 방향을 가진다.
- 2km(크기) 동쪽(방)으로 가라
- 원소의 개수가 차원(dimension)을 결정
- 위치와 이동을 표현할 때
- ✅ 방향이 중요한 이유

- 행렬(Matrix): 숫자가 행(row)과 열(column)로 구성된 2차원 배열
- 수학시간에 배운 그거

- 텐서(Tensor): 3차원 이상의 배열 (스칼라→벡터(1차원)→행렬(2차원)→텐서(3차원 이상) 순으로 확장됨)
- 행렬보다 높은 차원의 데이터
- 컬러 이미지(사진)은 (가로, 세로, 색상채널)로 이루어진 3차원 데이
- 단위 행렬(Identity Matrix):
- 대각선 성분이 1, 나머지는 0
- 곱해지는 행렬을 변화시키지 않음 (Ix=xI\mathbf{x} = \mathbf{x})
- 역행렬(Inverse Matrix): 행렬의 곱셈에 대해 원래 행렬과 곱했을 때 단위행렬을 만드는 행렬
🧮 행렬의 연산
- 벡터 내적(Vector Inner Product): 같은 차원의 벡터끼리 각 원소를 곱해 더한 값
- 두 벡터가 얼마나 같은 방향인지 측

- 🚀 벡터 내적에서 두 벡터가 얼마나 같은 방향인지?
"벡터 내적(Dot Product)이 두 벡터가 얼마나 같은 방향인지 알려준다."
이걸 왜 알아야 할까? 🤔 - 내적의 수식:
- 두 벡터가 같은 방향이면 내적이 크다!
- 예: (3,4)⋅(6,8)(3,4) \cdot (6,8) → 같은 방향이면 크기가 커짐.
- 현실 예시: 자동차의 이동 방향과 힘이 같은 방향일 때 가장 효율적!
- 두 벡터가 직각(90°)이면 내적이 0이다!
- 예: (3,4)⋅(−4,3)=0(3,4) \cdot (-4,3) = 0
- 현실 예시: 수직으로 미는 힘은 아무런 이동을 일으키지 않음.
- 두 벡터가 반대 방향이면 내적이 음수다!
- 예: (3,4)⋅(−3,−4)=−25(3,4) \cdot (-3,-4) = -25
- 현실 예시: 자동차가 한 방향으로 가는데, 바람이 정반대 방향이면 방해됨.
✔️ 기계학습에서 두 개의 데이터가 얼마나 비슷한지 비교할 때 사용됨.
✔️ 추천 시스템에서 "내가 좋아할 만한 영화" 추천할 때 사용됨. - 두 벡터가 같은 방향이면 내적이 크다!
- 행렬곱(Matrix Multiplication): 첫 번째 행렬의 행벡터와 두 번째 행렬의 열벡터를 곱하고 더한 값
행렬 곱셈이 어떻게 현실에서 사용되는지 성적표 예시를 더 자세히 살펴보자!
📌 예제: 성적표 계산
1️⃣ 데이터 정리 (행렬로 표현하기)
학생 3명(A, B, C)이 과목 3개(수학, 과학, 영어)를 들었다고 하자.
학생별 성적을 행렬로 정리하면:

(각 행 = 학생, 각 열 = 과목)
💡 그런데, 각 과목의 중요도가 다를 수 있지!
과목별 중요도(가중치)를 벡터로 설정해보자:

(수학 30%, 과학 40%, 영어 30% 반영)

- 아다마르 곱(Hadamard Product): 같은 크기의 행렬끼리 원소 단위로 곱

- 역행렬 : 곱했을 때 단위행렬을 만들어주는 행렬
- 단위행렬 = 행렬의 곱셈에서 아무런 영향을 주지 않는 행렬(like 1)
- 역행렬의 존재 조건: 정방행렬이면서 열벡터들이 선형 독립일 때만 존재

- 역행렬이 존재하지 않는 경우
- 비정방 행렬(non-square matrix)
- 선형종속(열벡터 중 하나 이상이 다른 벡터로 표현 가능)
노름(Norm) - 벡터의 크기, 즉 "길이"를 측정하는 방법!
💡 비유:
- 노름은 "어떤 벡터가 얼마나 큰지" 측정하는 기준이야.
- 쉽게 말하면, 우리가 걸은 거리를 잴 때 사용할 수 있어!
- "직선으로 걸었어?" → L2 노름 (유클리드 거리)
- "코너를 돌면서 걸었어?" → L1 노름 (맨해튼 거리)



🎯 노름 정리 - "거리 측정 기준!"
노름 종류정의예제 (3,4)특징
L1 노름 | 절댓값의 합 | 3 + 4 = 7 | 신호등을 따라 이동 (맨해튼 거리) |
L2 노름 | 피타고라스 거리 | √(3² + 4²) = 5 | 대각선 최단 거리 |
L∞ 노름 | 가장 큰 값 | max(3,4) = 4 | 가장 큰 거리만 따짐 |
고유값 분해(Eigen Decomposition) -
행렬을 "핵심 정보"로 쪼개는 방법!
💡 비유:
- 행렬이 하는 일을 쉽게 이해하기 위해 쪼개는 과정!
- 큰 행렬을 간단한 조각들(고유값, 고유벡터)로 변환하는 것!
- 마치 "빅데이터에서 중요한 패턴만 뽑아내는 것" 과 비슷해!
✅ 고유값 & 고유벡터 개념
📌 고유벡터(Eigenvector):
- "행렬이 곱해져도 방향이 바뀌지 않는 벡터"
- 즉, "고유한(특별한) 방향을 가진 벡터"
📌 고유값(Eigenvalue):
- "고유벡터가 늘어나거나 줄어드는 비율"
- 즉, "벡터가 얼마나 커지는지 / 작아지는지"
📌 수식:

✅ 고유값 분해란?
💡 비유:
- 📸 "사진을 보고 → 핵심적인 색깔만 뽑아내는 것"
- 🧩 "퍼즐을 조각내서 중요한 부분만 남기는 것"
📌 행렬을 다음처럼 분해할 수 있어!

➡️ 즉, 행렬을 단순한 조각(고유값 + 고유벡터)으S로 변환!
✅ 고유값 분해 예제

🔥 최종 정리!
✔️ 노름(Norm) → 벡터 크기(거리)를 측정하는 방법
✔️ L1 노름: 신호등만 따라 걷기 (맨해튼 거리)
✔️ L2 노름: 대각선으로 최단 거리
✔️ 고유값 분해: 행렬을 고유값과 고유벡터로 쪼개는 것!(나중에 제대로 정리해야지)
✔️ PCA (차원축소), 그래프 분석 등에 활용(이거도 나중에 파이썬이랑 같이!)
🎲 확률 이론 기초
- 확률(Probability): 사건이 일어날 가능성(0~1)
- 확률변수(Random Variable): 어떤 사건이 발생했을 때 나오는 결과를 숫자로 표현한 것
- 이산 확률변수(discrete): 특정한 값만 취함, 주사위 눈금, 동전 앞뒤
- 연속 확률변수(continuous): 특정 범위 내 무한한 값 가능, 사람 키(170.000001, 170.000002), 온도
- 확률 밀도 함수(PDF)
- 💡 PDF란?
- 연속 확률변수의 확률을 나타내는 함수!
- 특정 값의 확률은 0 (무한히 많은 값 중 하나라서)
- 구간을 적분해서 확률을 구해야 함!
- "키가 정확히 170.000000cm일 확률?" → 0
- "키가 170~175cm 사이일 확률?" → PDF를 적분해서 구함!
- 💡 PDF란?
- 마지날 확률(Marginal Probability): 전체 중 특정 변수만 선택하여 나머지 변수 제거한 확률
- 📌 예제 1: 주사위 + 동전 던지기 🎲🪙
- "주사위를 던지고 동전도 던졌어! 그런데 주사위 숫자만 알고 싶어!"
- 동전의 정보는 무시하고 "주사위 숫자가 나올 확률"만 계산 → 마지날 확률!
- 필요 없는 변수를 싹 지워버리는 것!
- 📌 예제 1: 주사위 + 동전 던지기 🎲🪙
- 조건부 확률(Conditional Probability): 어떤 사건이 발생했을 때 다른 사건이 일어날 확률

🔖 기대값(Expectation), 분산(Variance), 공분산(Covariance)
- 기대값: 랜덤 변수의 평균적 예상값

- 분산(Variance): 평균으로부터 떨어진 정도

- 공분산(Covariance): 두 변수의 선형 관계, 독립이면 공분산은 0

📈 자주 쓰이는 확률 분포
- 베르누이 분포: 성공/실패로 나오는 확률 분포
- 이항 분포(Binomial Distribution): 여러 번 시도 중 성공 횟수, 농구 슛 성공 횟수
- 정규분포(Gaussian): 자연 현상의 대표적인 분포, 평균과 표준편차로 표현, 중심극한정리에 의해 자주 사용됨