이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

로지스틱 회귀 모델의 비용 함수 미분해보기

  • 2023.12.18 17:26
  • Deep Learning/공부 노트
반응형

로지스틱 회귀는 입력을 두 가지의 범주로 분류하는 선형 이진 분류 모델이다.
선형 회귀 식에 로지스틱 함수를 씌워 출력값을 0-1 사이의 확률 값으로 만들어 분류를 수행한다.

$$ \hat p = h_\theta (\mathbf{x}) = \sigma(\theta^\top_\mathbf{x})\\
\sigma(t) = \frac{1}{1+\exp(-t)}$$

입력 $\mathbf x$에 대한 예측 $\hat y$는 다음과 같다.

$$\hat y = \begin{cases} 0 &\text{if }\hat p < 0.5 \\ 1 & \text{if } \hat p \geq 0.5  \end{cases}$$ 

로지스틱 회귀의 비용 함수는 다음과 같다.

$$ J(\theta) = -\frac{1}{m}\sum^m_{i=1}[y^{(i)} \log(\hat p^{(i)}) + (1-y^{(i)}) \log(1-\hat p^{(i)})] $$

비용함수를 가중치 $\theta$에 대하여 미분 과정은 다음과 같다.

$$ \frac{\partial }{\partial \hat p}J(\theta) = [\frac{y^i}{\hat p^i} - \frac{1-y^i}{1-\hat p^i}]'\\
= [\frac{y^i - y^i\hat p^i - \hat p^i + y^i\hat p^i}{\hat p^i(1-\hat p^i)}]'\\
=[\frac{y^i - \hat p^i}{\hat p^i (1-\hat p^i)}]'$$

이때, $p = \sigma(Z), Z^i = \theta^\top\mathbf x^i$이므로,

$$\frac{\partial \hat p^i}{\partial Z^i} = \frac{\partial}{\partial Z^i}[\frac{1}{1+e^{-Z^i}}]\\
= \frac{\partial}{\partial Z^i}(1+e^{-Z^i})^{-1}\\
=(-1)(1+e^{-Z^i})^{-2}(e^{-Z^i})(-1)\\
=\frac{e^{-Z^i}}{(1+e^{-Z^i})^2} = \frac{1}{1+e^{-Z^i}}\frac{e^{-Z^i}}{1+e^{-Z^i}}\\
= \sigma(Z^i)(1-\sigma(Z^i))$$

$$\frac{\partial Z^i}{\partial \theta^i}=\frac{\partial}{\partial \theta^i}[\theta^{i\top}x^i_j] = x^i_j$$

위 미분을 이용하여, $J(\theta)$를 $\theta$로 미분하면 아래와 같다.

$$\frac{\partial}{\partial \theta^i}J(\theta) = -\frac{1}{m}\sum^m_{i=1}[\frac{y^i-\hat p^i}{\hat p^i(1-\hat p^i)}(\hat p^i(1-\hat p^i))x^i_j]\\
= -\frac{1}{m}\sum^m_{i=1}[(y^i-\hat p^i)x^i_j] = \frac{1}{m}[x^i_j(\hat p^i-y^i)]\\
= \frac{1}{m}\sum^m_{i=1}(\sigma(\theta^\top x^i)-y^i)x^i_j$$

반응형

'Deep Learning > 공부 노트' 카테고리의 다른 글

거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로  (2) 2024.03.12
서포트 벡터 머신(SVM)의 최적화  (0) 2023.12.13
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)  (1) 2023.07.17
예제로 보는 트랜스포머/어텐션 (Attention is All You Need)  (2) 2023.05.31
Video-to-Video Retrieval 맛보기  (0) 2023.05.01

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • 거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로

    거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로

    2024.03.12
  • 서포트 벡터 머신(SVM)의 최적화

    서포트 벡터 머신(SVM)의 최적화

    2023.12.13
  • 연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

    연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

    2023.07.17
  • 예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

    예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

    2023.05.31
다른 글 더 둘러보기

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (280) N
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (46) N
      • 회고 & 계획 (18) N
      • 내 이야기 (9)
      • 리뷰 (3)
      • 군대에 간 공돌이 (10)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바