로지스틱 회귀는 회귀가 아닌 분류 모델이다.
그와 다르게 선형 회귀 (Linear Regression) 는 범주형 변수를 예측하는 모델이다. 다중 선형 회귀는 선형적으로 표현된 관계를 잘 나타낼 수 있는 회귀계수를 데이터로부터 추정하는 모델이다. 회귀 계수는 기울기와 절편, 모델을 찾는 파라미터 값이었다.
로지스틱 회귀를 위한 이진분류와 다중분류를 알아보고 분류 모델인 로지스틱 회귀도 다중 회귀를 위한 선형 방정식이기에 확률 값 (0부터 1까지)값으로 출력해야 한다. 이를 도와주는 activation function 이 sigmoid function 이다.
여기서 z 는 입력값이라 하면 z 값이 음의 무한대, 양의 무한대로 가까워져도 [0, 1] 사이의 값을 갖는다.
이진 분류일 경우엔 0.5보다 크면 1, 0.5보다 작으면 0으로 판단한다.
odds 는 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률을 뜻한다.
P(A)가 1에 가까울 수록 odds 값은 커지고 P(A)가 0에 가까울 수록 값은 작아진다. 다시말해 승산이 커진다는 건 발생할 확률이 크다는 걸 의미한다.
odds ratio는 독립변수에 대해 종속변수가 1이될 확률과 0이될 확률의 비율이다.
선형 회귀식으로 예측하면 독립변수가 [0, 1] 값이 되고 y 가
선형 회귀식:
Soft max 함수는 로지스틱 함수의 다차원 일반화로 다항 로지스틱 회귀에서 쓰인다. neural network 에서 확률 분포를 얻기 위한 활성화 함수의 마지막 값으로 많이 사용되며 이름과 달리 max 함수를 매끄럽게 하는 게 아니라 arg max 함수를 매끄럽게 하는 역할이다.
다시 말해 soft max 함수는 선택지가 K개 있을 때 K 차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정하는 함수다. 이는 linear classification 을 여러번 결합한 결과이다.
선형 회귀와 차이점
로지스틱 회귀의 기본 접근은 선형 회귀 방식을 사용하는 것이었다. 독립변수의 선형결합과 회귀계수의 선형예측함수에서 비롯되었다. 그렇지만 종속변수와 독립변수의 관계에 차이가 있다.
1. 이항분류 데이터에 대해 종속변수의 결과가 [0, 1]로 제한된다.
2. 종속변수가 이진적이기 때문에 조건부 확률에서 정규분포 대신 이항분포를 따른다.
즉 단순 선형회귀를 적용하면 [0, 1] 를 벗어나는 결과가 나오기 때문에 예측 정확도가 떨어지니 이를 해결하기 위해 로지스틱 회귀는 연속 증가 함수이며 [0, 1] 에서 값을 갖는 연결함수 형태로 변형되었다.
정리
- 로지스틱 회귀: 선형방정식을 활용한 분류 알고리즘. 선형 회귀와 달리 시그모이드, 소프트맥스 함수를 통해 클래스 확률을 출력한다.
- 시그모이드 함수: 출력을 0과 1사이의 값으로 압축하고 이진 분류를 위해 사용된다.
- 소프트 맥스 함수: 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화해서 합이 1이 되도록 만든다.
'ML' 카테고리의 다른 글
[ML] 회귀분석에서의 SST, SSR, SSE (0) | 2024.09.21 |
---|