2024년 2월 21일 수요일

클래스 불균형

학습데이터에서 클래스(label)에서 불균형이 있는 경우를 말한다.

클래스 불균형 문제 해결 방법

1. 과소표집

무작위로 정상 데이터를 일부만 선택해 유익한 데이터만 남기는 방법이다.

예시 : CNN, OSS, ENN, 랜덤과소표집

2. 과대표집

무작위로 소수의 데이터를 복제하는 방법

예시 : 랜덤과대표집, SMOTE, ADASTN

변수 변환

분석 목적에 맞게 데이터를 변환하는 것을 변수변환이라고 부른다.

1. 카테고리 임베딩

범주형에서 연속형으로 변환, 예를 들어 학생 이름의 범주값을 학생의 나이, 주민등록번호, 학생번호 등으로 변환하여 사용

2. 더미변수화

남자면 0, 여자면 1로 변환하는 방법

3. 데이터 구간화

나이를 10대, 20대, 30대 등 범주화하는 방법

4. 데이터 정형화/정량화

문서와 같은 데이터를 단어 빈도수로 정형화하는 방법

5. 정규화

최소-최대 표준화, Z-표준화 등등

6. 표준화

로그변환, 루트 제곱근 변환 등

7. 버닝(Burning)

데이터 값을 몇 개의 Bin으로 분할하여 계산하는 방법

차원의 저주 등 여러 가지 간단한 개념

차원의 저주

데이터의 차원이 많아질수록 모형의 성능은 하락하게 되는 현상을 말한다.


다중공선성

독립변수들 간의 상관관계가 있을 경우를 의미한다.


위와 같은 이유들로 인해 차원축소가 필요하다.

차원축소 방법은 변수선택과 변수추출로 나뉜다.


PCA(주성분 분석)

PCA는 여러 변수들 간의 존재하는 상관관계를 이용해서 선형 연관성이 없는 저차원 공간으로 축소하는 방법을 말한다.


선형판별분석(LDA)

LDA는 지도학습으로 데이터의 분포를 학습하여 결정경계를 만들어 데이터를 분류한다.

LDA는 클래스의 정보를 보호하면서 차원을 최소로 줄이는 방법이다.


t-SNE

T-분포를 이용하여 확률적 차원축소하는 방법이다.


SVD

행렬분해로 차원축소를 하는 방법 중 하나이다.


비음수 행렬 분해(NNMF)

행렬의 원소들이 음수가 되지 않게 하면서 행렬분해를 하는 방법이다.


파생변수

기존 변수들을 조합하여 새롭게 만들어진 변수를 파생변수라고 말한다.

파생변수 생성 방법

1. 하나의 변수에서 정보를 추출해 새로운 변수를 생성

예) 주민등록번호에서 나이와 성별을 추출

2. 한 레코드의 값을 결합하여 파생변수를 생성한다.

3. 조건문을 이용해 파생변수를 생성한다.

단위변환, 표현형식 변환, 요약 통계량 변환, 정보추출, 변수결합, 조건문 이용해서 파생변수 생성 가능하다.

변수 선택

 변수 선택이란 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 선택하여 변수의 개수를 줄이는 방법을 의미한다.

변수 선택의 장점은 다음과 같다.

1. 모델의 학습속도가 빨라진다.

2. 모델의 복잡성이 줄어들고 사용자가 모델을 해석하기 더 쉽다.

3. 모델의 정확성이 향상될 수 있다.

4. 과적합을 줄일 수 있다.


변수선택 방법

1. 필터 방법

전처리 과정 중에 각종 통계량을 이용해서 불필요한 특징들을 걸러내는 방법

2. 래퍼 방법

2-1. 전진 선택법

가장 유의미한 변수를 하나씩 추가하는 방법

2-2. 후진 제거법

모두 적합한 모형에서 변수를 하나씩 제거하는 방법

2-3. 단계적 방법

아무것도 적합하지 않은 모형에서 변수를 하나씩 적합하면서 그 전 단계에서 적합된 변수들의 유의미성을 다시 한번 더 검증하는 방법

2-4. AIC

AIC=2ln(L)+2k 값이 작을수록 더 좋은 모형이라고 판단

3. 임베디드 방법

모형 학습과정에서 변수 선택을 같이 포함하는 방법

예시)라쏘(LASSO)



이상값 검출 방법

1. 분산을 이용해서 이상값 검출

2. 가능도를 이용해서 이상값 검출

3. 근접 이웃 기반 이상치 탐지

4. 밀도를 기반으로 한 탐지

5. 사분위수


이상값을 처리하는 방법으로는 삭제, 대체, 스케일링, 정규화 방법 등이 있다.

이상값의 원인 : 표본추출 오류, 고의적인 이상값, 데이터 입력 오류, 실험오류, 측정오류 등


결측값의 유형 및 처리하는 법

 결측값이 결과에 영향을 주는 경우 비무작위 결측, 영향을 주지 않는 경우 무작위 결측이라고 한다.

1. 완전 무작위 결측

다른 변수와 무관하게 랜덤으로 발생한 결측

예) 설문조사 시 특정 항목에 대답하지 않은 경우

2. 무작위 결측

다른 변수와 연관이 있지만, 그 자체가 결과에 영향을 미치지 않는 결측

예) 성별에 따라 응답 확률이 달라서 생기는 결측

3. 비무작위 결측

결과에 영향을 미치는 결측 값

예) 임금을 조사할 때, 임금이 낮은 사람이 임금에 대해 응답할 확률이 낮아서 생기는 결측


결측값 처리하는 방법

1. 결측값을 삭제

2. 목록 삭제

3. 특정 값으로 대체

4. 단순 확률 대치법


결측값이란 무엇일까요?

결측값이란 데이터 세트에서 값이 없는 셀 또는 레코드를 의미합니다. 설문 조사에서 응답자가 질문에 답변하지 않거나, 데이터베이스에서 특정 정보가 누락된 경우 등 다양한 이유로 발생할 수 있습니다.

결측값의 종류

결측값은 발생 원인에 따라 다음과 같이 분류될 수 있습니다.

  • MCAR (Missing Completely At Random): 완전히 무작위 결측
    • 데이터 수집 과정의 오류, 전산 시스템 문제 등으로 인해 발생
    • 다른 변수와 관련 없이 무작위로 발생
  • MAR (Missing At Random): 무작위 결측
    • 특정 변수와는 관련 없이 무작위로 발생
    • 다른 변수에 의해 영향을 받지 않지만, 관찰되지 않은 변수에 의해 영향을 받을 수 있음
  • MNAR (Missing Not At Random): 무작위가 아닌 결측
    • 특정 변수와 관련하여 발생
    • 관찰되지 않은 변수에 의해 영향을 받음

결측값의 문제점

결측값은 데이터 분석 결과에 심각한 영향을 미칠 수 있습니다.

  • 분석 결과의 정확도를 떨어뜨릴 수 있습니다.
  • 표본의 대표성을 훼손할 수 있습니다.
  • 모델의 편향을 유발할 수 있습니다.

결측값 처리 방법

결측값을 처리하는 방법은 여러 가지가 있습니다.

  • 제거: 결측값이 있는 데이터를 전체 분석에서 제거
    • 가장 간단한 방법이지만, 데이터 손실이 발생할 수 있음
  • 평균값 또는 중앙값으로 대체: 결측값을 다른 데이터의 평균값 또는 중앙값으로 대체
    • 간단하지만, 데이터 분포를 왜곡할 수 있음
  • 회귀분석을 이용한 예측: 다른 변수를 이용하여 결측값을 예측
    • 비교적 정확하지만, 모델링 과정이 복잡할 수 있음
  • 핫덱(Hot Deck) 임퓨팅: 유사한 데이터를 기반으로 결측값을 채우는 방법
    • 비교적 정확하고 간단하지만, 적절한 유사 데이터를 찾는 것이 어려울 수 있음

결측값 처리 시 고려 사항

결측값을 처리하기 전에 다음과 같은 사항을 고려해야 합니다.

  • 결측값의 발생 원인: MCAR, MAR, MNAR 중 어떤 유형인지 확인
  • 결측값의 양: 데이터 전체 대비 결측값의 비율 확인
  • 결측값의 영향: 결측값이 분석 결과에 미치는 영향 평가

결측값 처리 방법은 데이터의 특성과 분석 목적에 따라 달라질 수 있습니다. 따라서 적절한 방법을 선택하는 것이 중요합니다.


로지스틱 회귀란?

 

로지스틱 회귀란 무엇일까요?

로지스틱 회귀는 사건의 발생 확률을 예측하는 데 사용되는 통계 모델입니다. 선형 회귀와 유사하지만, 종속 변수가 범주형 변수인 경우 사용됩니다. 즉, 로지스틱 회귀는 두 개 이상의 범주 중 하나를 선택할 확률을 예측하는 데 사용됩니다.

로지스틱 회귀의 작동 방식

로지스틱 회귀는 시그모이드 함수라는 S자 모양의 함수를 사용합니다. 시그모이드 함수는 입력값에 따라 0과 1 사이의 값을 출력합니다. 이 함수는 사건의 발생 확률을 나타냅니다.

시그모이드 함수

로지스틱 회귀 모델은 독립 변수와 시그모이드 함수를 사용하여 종속 변수의 확률을 예측합니다. 독립 변수는 사건의 발생 확률에 영향을 미치는 변수입니다.

로지스틱 회귀의 예시

다음은 로지스틱 회귀의 몇 가지 예시입니다.

  • 고객이 제품을 구매할 확률을 예측
  • 환자가 질병에 걸릴 확률을 예측
  • 학생이 시험에 합격할 확률을 예측

로지스틱 회귀의 장점

로지스틱 회귀는 다음과 같은 장점이 있습니다.

  • 사용하기 쉬운 모델입니다.
  • 다양한 변수를 사용할 수 있습니다.
  • 비선형 관계를 모델링할 수 있습니다.

로지스틱 회귀의 단점

로지스틱 회귀는 다음과 같은 단점이 있습니다.

  • 모델링 과정이 복잡할 수 있습니다.
  • 모델의 정확도는 데이터의 질에 따라 달라집니다.
  • 다중 공선성 문제에 취약합니다.

로지스틱 회귀의 활용 분야

로지스틱 회귀는 다양한 분야에서 활용되고 있습니다.

  • 마케팅
  • 금융
  • 의료
  • 교육
  • 과학