로지스틱 회귀 모델의 비용 함수 미분해보기
반응형
로지스틱 회귀는 입력을 두 가지의 범주로 분류하는 선형 이진 분류 모델이다.
선형 회귀 식에 로지스틱 함수를 씌워 출력값을 0-1 사이의 확률 값으로 만들어 분류를 수행한다.
ˆp=hθ(x)=σ(θ⊤x)σ(t)=11+exp(−t)
입력 x에 대한 예측 ˆy는 다음과 같다.
ˆy={0if ˆp<0.51if ˆp≥0.5
로지스틱 회귀의 비용 함수는 다음과 같다.
J(θ)=−1mm∑i=1[y(i)log(ˆp(i))+(1−y(i))log(1−ˆp(i))]
비용함수를 가중치 θ에 대하여 미분 과정은 다음과 같다.
∂∂ˆpJ(θ)=[yiˆpi−1−yi1−ˆpi]′=[yi−yiˆpi−ˆpi+yiˆpiˆpi(1−ˆpi)]′=[yi−ˆpiˆpi(1−ˆpi)]′
이때, p=σ(Z),Zi=θ⊤xi이므로,
∂ˆpi∂Zi=∂∂Zi[11+e−Zi]=∂∂Zi(1+e−Zi)−1=(−1)(1+e−Zi)−2(e−Zi)(−1)=e−Zi(1+e−Zi)2=11+e−Zie−Zi1+e−Zi=σ(Zi)(1−σ(Zi))
∂Zi∂θi=∂∂θi[θi⊤xij]=xij
위 미분을 이용하여, J(θ)를 θ로 미분하면 아래와 같다.
∂∂θiJ(θ)=−1mm∑i=1[yi−ˆpiˆpi(1−ˆpi)(ˆpi(1−ˆpi))xij]=−1mm∑i=1[(yi−ˆpi)xij]=1m[xij(ˆpi−yi)]=1mm∑i=1(σ(θ⊤xi)−yi)xij
반응형
'Deep Learning > 공부 노트' 카테고리의 다른 글
거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로 (2) | 2024.03.12 |
---|---|
서포트 벡터 머신(SVM)의 최적화 (0) | 2023.12.13 |
연구 인생 첫 논문 서베이를 마치며 (서베이 팁) (1) | 2023.07.17 |
예제로 보는 트랜스포머/어텐션 (Attention is All You Need) (2) | 2023.05.31 |
Video-to-Video Retrieval 맛보기 (0) | 2023.05.01 |
댓글
이 글 공유하기
다른 글
-
거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로
거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로
2024.03.12 -
서포트 벡터 머신(SVM)의 최적화
서포트 벡터 머신(SVM)의 최적화
2023.12.13 -
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)
2023.07.17 -
예제로 보는 트랜스포머/어텐션 (Attention is All You Need)
예제로 보는 트랜스포머/어텐션 (Attention is All You Need)
2023.05.31
댓글을 사용할 수 없습니다.