본문 바로가기

AIML

(6)
Small n, Large p 개념 정리 개념이 문제는 특성의 수(p)가 샘플의 수(n)보다 훨씬 많은 경우를 가리킵니다.수학적으로 p >> n으로 표현됩니다.n: 샘플 수 (데이터셋의 행 수)p: 특성 수 (데이터셋의 열 수)발생 원인이 문제는 주로 다음과 같은 상황에서 발생합니다:데이터 수집이 어려운 분야 (예: 의학)고차원 데이터를 다루는 경우 (예: 유전체학)희귀한 현상을 연구하는 경우제조 산업 데이터문제점Small n, Large p 상황은 다음과 같은 문제를 야기할 수 있습니다.과적합(Overfitting): 모델이 훈련 데이터에 지나치게 맞춰져 일반화 성능이 떨어짐차원의 저주: 고차원 공간에서 데이터 포인트가 희소해져 패턴 인식이 어려워짐통계적 신뢰성 저하: 추정해야 할 파라미터가 많아 결과의 신뢰도가 떨어짐해결 방법이 문제를 해결..
분류모델 성능 지표 - AUC(Area Under the Curve) 정리 1. AUC 개념AUC(Area Under the Curve)는 딥러닝을 포함한 머신러닝 분류 모델의 성능을 평가하는 중요한 지표입니다. 주로 이진 분류 문제에서 사용되며, ROC(Receiver Operating Characteristic) 곡선 아래의 면적을 나타냅니다.  1. AUC는 ROC 곡선 아래의 면적을 의미합니다2. ROC 곡선은 다양한 분류 임계값에서 모델의 성능을 보여주는 그래프입니다3. ROC 곡선은 x축에 False Positive Rate(FPR), y축에 True Positive Rate(TPR)를 표시합니다. X 축: False Positive Rate (FPR)실제 음성 샘플 중 양성으로 잘못 분류된 비율을 나타냅니다.$$ \text{Specificity} = \frac{TN..
분류모델 성능 지표 - Accuracy, Recall, Precision, Specificity, F1 Score, G-Mean 1. Confusion Matrix (혼동 행렬)모델의 성능 지표는 분류 결과를 나타내는 혼동 행렬(Confusion Matric)로 만들 수 있다.정상을 Negative 불량을 Positive 라 정의하고 맞출 경우 True, 틀릴 경우 False 라고 정의한다.클래스 = {정상, 불량}예측 클래스(Predicted Class)정상 (Negative)불량(Positive)실제 클래스(Actual Class)정상(Negative)TN (True Negative)FP (False Positive)불량(Positive)FN (False Negative)TP (True Positive) 2. Accuracy (정확도)정의전체 예측 중 올바르게 분류된 비율을 나타냅니다.$$ \text{Accruacy} = \f..
분류모델 성능 지표 - MSE, MAE, MAPE, R2 MSE, MAE, MAPE, R2는 회귀 모델의 성능을 평가하는 데 사용되는 주요 지표들입니다. 1. MSE (Mean Squared Error)MSE는 예측값과 실제값의 차이를 제곱한 후 평균을 낸 값입니다.\( MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \)위 식에서 \( y \) 는 실제 출력변수고 \( \hat{y} \) 는 예측한 출력변수입니다.MSE는 오차를 제곱하기 때문에 큰 오차에 더 민감합니다.값이 작을수록 모델의 성능이 좋다고 평가합니다.2. MAE (Mean Absolute Error)MAE는 예측값과 실제값의 차이의 절댓값을 평균한 값입니다.\( MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_..
GBM 과 XGBoost 정리 1. GBM (Gradient Boosting Machine)GBM은 약한 학습기(주로 결정 트리)를 순차적으로 학습시켜 강한 학습기를 만드는 부스팅 알고리즘입니다.이전 모델의 잔차(residual)를 학습하여 성능을 개선합니다.손실 함수를 최소화하는 방향으로 학습을 진행합니다.과적합 방지를 위한 기본적인 정규화 기법을 사용합니다.2. XGBoost (eXtreme Gradient Boosting)XGBoost는 GBM을 기반으로 개발된 고성능 구현체로, 여러 가지 개선사항을 포함하고 있습니다.병렬 처리를 통해 학습 속도가 빠릅니다.더 강력한 정규화 기법(L1, L2)을 사용하여 과적합을 방지합니다.결측치 처리 기능이 내장되어 있습니다.다양한 목적 함수와 평가 지표를 지원합니다.3. GBM과 XGBoos..
Entropy, Cross-Entropy, Binary Cross-Entropy, KL Divergence 정리 정의1. Entropy (엔트로피)정보 이론에서 정보량 측정에 사용됩니다.엔트로피는 확률 분포의 불확실성이나 무작위성을 측정하는 척도입니다.\( H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x) \)여기서 X는 확률 변수, p(x)는 X의 확률 분포입니다.엔트로피가 높을수록 분포가 더 균일하고 예측하기 어렵습니다.2. Cross-Entropy (크로스 엔트로피)다중 클래스 분류 문제의 손실 함수로 사용됩니다.크로스 엔트로피는 두 확률 분포 간의 차이를 측정합니다.\( H(p,q) = -\sum_{x} p(x) \log q(x) \)p는 실제 분포, q는 예측 분포입니다.3. Binary Cross-Entropy (이진 크로스 엔트로피)이진 분류 문제의 손실 함수로 사용..