이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

Deep Learning

  • 컴퓨터와 수학, 몽상 조금
로지스틱 회귀 모델의 비용 함수 미분해보기

로지스틱 회귀 모델의 비용 함수 미분해보기

2023.12.18
로지스틱 회귀는 입력을 두 가지의 범주로 분류하는 선형 이진 분류 모델이다. 선형 회귀 식에 로지스틱 함수를 씌워 출력값을 0-1 사이의 확률 값으로 만들어 분류를 수행한다. $$ \hat p = h_\theta (\mathbf{x}) = \sigma(\theta^\top_\mathbf{x})\\ \sigma(t) = \frac{1}{1+\exp(-t)}$$ 입력 $\mathbf x$에 대한 예측 $\hat y$는 다음과 같다. $$\hat y = \begin{cases} 0 &\text{if }\hat p < 0.5 \\ 1 & \text{if } \hat p \geq 0.5 \end{cases}$$ 로지스틱 회귀의 비용 함수는 다음과 같다. $$ J(\theta) = -\frac{1}{m}\sum^m..
서포트 벡터 머신(SVM)의 최적화

서포트 벡터 머신(SVM)의 최적화

2023.12.13
본 포스팅은 고려대학교 강필성 교수님의 강의를 참고하여, SVM의 최적화 방법을 다룬 포스팅입니다. SVM의 기본 정의만 궁굼하신 분은 제 이전 포스팅을 참고해주세요! 서포트 벡터 머신은 두 데이터 집합을 나누는 결정 경계의 마진(margin)이 최대화 되는 결정 경계 $wx+b=0$를 탐색하는 모델이다. 마진이란 결정 경계와 가장 가까운 샘플인 서포트 벡터와 결정 경계의 거리를 의미한다. 위 그림에서, 파란색 샘플들의 클래스가 $y_i=1$이고 빨간색 샘플들의 클래스가 $y_i=-1$이라고 하면, 모든 샘플이 $y_i(wx+b) \geq 1$을 만족한다. 자료에 따라 결정 경계와 서포트 벡터의 거리 $\frac{1}{||w||^2}$를 마진으로 보기도 하고 서포트 벡터와 서포트 벡터의 거리 (즉, 앞선..
Clover : Towards A Unified Video-Language Alignment and Fusion Model 리뷰 [CVPR 2023]

Clover : Towards A Unified Video-Language Alignment and Fusion Model 리뷰 [CVPR 2023]

2023.12.01
이번 논문은 V-T Retrieval과 VQA 두 downstream task에서 모두 좋은 성능을 보이며, 동시에 효율적인 Universal Video-Language pre-training 방법을 제안한 Clover입니다. Video-Text / Text-Video Retrieval과 Video Question Answering(VQA)과 같은 Video-Language Understanding task을 잘 풀기 위해 대규모 비디오-텍스트 쌍 데이터셋에서 사전학습한 모델을 만들고자 하는 연구가 최근 몇 년간 활발히 진행되어 왔는데요. 이때, 각 downstream task가 요구하는 feature의 차이로 인해 특정 task에 강한 모델은 비교적 쉽게 만들 수 있었지만, 여러 downstream t..
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval [MM 2022]

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval [MM 2022]

2023.11.17
이번 논문은 CLIP을 활용한 Video-Text Retrieval 논문인 X-CLIP입니다. Video-Text Retrieval은 비디오와 텍스트를 각각 임베딩하여 벡터로 만든 후, 쿼리에 대한 유사도가 가장 높은 비디오들을 검색하는 task입니다. 이때, 기존 연구들은 비디오 전체와 텍스트 전체를 각각 하나의 벡터로 만들어 비교하는 coarse-grained 방식과 비디오와 텍스트를 구성하는 프레임과 단어들을 비교하는 fine-grained 방식이 주를 이뤘는데요. 드물게 두 방식을 모두 사용하는 cross-grained(= multi-grained) 방식이 있었는데, 이 연구는 cross-grained에 해당합니다. 본 논문에서는 multi-grained contrastive model인 X-CL..
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 리뷰 [Neurocomputing 2022]

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 리뷰 [Neurocomputing 2022]

2023.11.05
이번 논문은 Video-Text Retrieval task에서 baseline 모델로 자주 등장하여 언제 읽어야지 하고 있던 CLIP4Clip입니다. 비디오의 클립(전체 비디오를 몇 초 정도의 짧은 영상으로 분할한 것)을 검색하기 위하여 Image-Text pretrained model인 CLIP을 사용한 연구로, 이미지에서 학습된 CLIP 모델을 비디오에 잘 적용하기 위한 다양한 실험이 돋보이는 연구입니다. 2021년, 대규모 이미지-텍스트 데이터셋에서 사전학습된 CLIP 모델이 등장하여 이미지 분야는 물론이고 비디오 분야에서도 기존 SOTA 모델들을 크게 앞서는 놀라운 성과들을 내기 시작했습니다. 이미 CLIP이 비디오에서 좋은 성능을 보여주기는 하였지만, 연구자들은 애초에 이미지에서 학습된 CLIP..
LocVTP: Video-Text Pre-training for Temporal Localization 리뷰 (ECCV 2022)

LocVTP: Video-Text Pre-training for Temporal Localization 리뷰 (ECCV 2022)

2023.10.27
여느 Vision 연구분야와 마찬가지로 비디오 영역에서도 자연어와 비전 feature의 align을 통해 전이 가능하고 좋은 표현력을 갖는 representation을 학습하고자 하는 Video-Text Pre-training (VTP)이 많이 연구되고 있습니다. 그러나 많은 VTP 모델들이 video-level의 정보만을 이용하는 retrieval task에 맞게 학습되어, temporal grounding과 같은 temporal localization 기반의 downstream task에서는 상대적으로 좋지 못한 성능을 보이는 문제가 있었습니다. 본 논문에서는 이러한 기존 VTP 방법들이 localization 기반의 downstream task들에 적합하지 않음을 실험적으로 보이고, 새로운 Loca..
Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization 리뷰 [CVPR 2023]

Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization 리뷰 [CVPR 2023]

2023.09.12
기존의 Weakly-Supervised Temporal Action Localization (W-TAL) 방법론들은 대부분 classification-based pre-training (CBP) 방법을 사용하였습니다. (BaS-Net 리뷰) 그러나 classification과 localization은 근본적으로 목표가 다르기 때문에, CBP 방법은 temporal localizationd의 결과가 좋지 않은 단점이 있었습니다. 본 논문에서는 이를 해결하기 위해 CLIP과 같은 Vision-Language Pre-training (VLP) 모델이 가지고 있는 action knowledge를 distillation 하는 방법을 제안합니다. 기존 CBP 방법들은 classification의 정확도를 높이기 위..
CLIP-VIP: Adapting Pre-Trained Image-Text Model to Video-Language Alignment 리뷰 [ICLR 2023]

CLIP-VIP: Adapting Pre-Trained Image-Text Model to Video-Language Alignment 리뷰 [ICLR 2023]

2023.09.08
대규모의 이미지와 텍스트 쌍에서 사전학습을 수행한 CLIP이 많은 image task에서 좋은 성능을 보임에 따라 CLIP을 video task에서도 활용하고자 하는 연구들이 많이 수행되었고, 몇몇은 좋은 결과를 보이기도 했습니다. 그러나 이러한 모델들은 이미지에서 학습된 CLIP을 그대로 사용하였기에, 비디오-텍스트 데이터를 이용한 추가 사전학습(post-pretraining)을 통해 비디오 도메인에 CLIP을 더 최적화하고자 하는 연구들이 수행되었는데요. 이러한 연구들은 어째서인지 그다지 좋은 결과를 보이지 못하였다고 합니다. 따라서 본 논문은 CLIP이 비디오-텍스트 데이터에서 post-pretraining을 잘하지 못하는 이유를 찾고, 이를 해결하고자 합니다. 저자들은 여러 실험을 통해, 데이터셋..
Boosting Weakly-Supervised Temporal Action Localization with Text Information 리뷰 [CVPR 2023]

Boosting Weakly-Supervised Temporal Action Localization with Text Information 리뷰 [CVPR 2023]

2023.09.08
Temporal Action Localization (TAL)은 영상에서 어떤 액션의 종류와 액션이 발생하는 시간을 예측하는 task입니다. TAL을 지도학습하기 위해서는 어떤 영상에 등장하는 액션의 종류와 액션의 시간을 annotation 해줘야 하기 때문에, annotation 비용이 큰 task에 속하는데요. 이러한 한계를 극복하기 위하여, 액션이 등장하는 시간에 대한 annotation 없이 TAL을 수행하는 Weakly-Supervised Temporal Action Localization (WTAL)이 제안되게 됩니다. WTAL은 몇 년간의 연구를 거쳐 많이 발전해 왔으나, 근본적으로 영상에 등장하는 액션의 temporal annotation이 없기 때문에 액션의 발생 시간을 정확히 예측하지 ..
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring 리뷰 [CVPR 2023]

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring 리뷰 [CVPR 2023]

2023.09.01
CLIP과 같은 Image-text 사전학습 모델이 놀라운 visual representation learning 능력을 보여줌에 따라, 이를 Video에 적용하고자 하는 관심도 늘어났습니다. 이 논문에서는 CLIP 기반의 image-to-video knowledge transferring 관점에서 temporal modeling을 분석하여 image-text 사전학습 모델을 video 영역으로 확장하는 것을 다루고 있습니다. 기존에도 많은 연구들이 CLIP을 video retrieval이나 video action recognition과 같은 video understanding task에 적용하고자 하였는데요, 2D 이미지에서 학습된 CLIP 모델을 비디오에 적용하기 위해서는, CLIP의 visual b..
CLIP: Learning Transferable Visual Models From Natural Language Supervision 리뷰 [ICML 2021]

CLIP: Learning Transferable Visual Models From Natural Language Supervision 리뷰 [ICML 2021]

2023.08.24
이 논문은 최근 멀티 모달 열풍의 주역(?)이라고도 할 수 있는 CLIP을 제안한 논문입니다. 굉장히 분량도 많고 내용도 어려워서 약간 피하고 있었는데, 용기를 내어 읽어보고자 REVIEW에 도전하게 되었습니다. 논문이 27 페이지로 분량이 매우 긴데, 16페이지까지는 우리가 흔히 논문에서 볼 수 있는 Method, Expermients와 같은 내용이며 그 이후로는 심층적인 분석과 한계, CLIP의 영향에 대한 고찰 등이 담겨있습니다. 그럼, 리뷰 시작하겠습니다. Introduction 논문은 기존의 SOTA 컴퓨터 비전 모델들이 학습된 데이터셋에서 사전에 정의된 class들만을 이용하여 학습되기 때문에, 새로운 task를 적용하기 위한 활용성과 일반화 성능이 떨어지는 한계를 지적하며 시작됩니다. 예를 ..
Everything at Once - Multi-modal Fusion Transformer for Video Retrieval 리뷰 [CVPR 2022]

Everything at Once - Multi-modal Fusion Transformer for Video Retrieval 리뷰 [CVPR 2022]

2023.08.03
현재 연구실에서 Vision 기반의 Video to Video Retrieval 분야를 공부하고 있으나, 언젠가 Multi-modal로의 전환이 이루어질 것이라고 생각하기도 하고, 개인적으로도 관심이 있어 해당 분야의 논문을 탐색해 보았다. 이 논문은 MIT-IBM Watson AI Lab에서 나온 논문으로, 영상과 음성, 텍스트의 모달리티로부터 얻어진 토큰들을 트랜스포머를 통해 퓨전 하여 video retrieval을 수행한다. 영상만을 이용해 검색을 수행하는 Video Retrieval과는 사뭇 다르지만, 한번 읽어보자. 저자들은 HowTo100M이라는 유튜브에서 수집된 영상 데이터를 통해 비디오를 다음 3가지 모달리티로 정의합니다. 비디오에 포함된 프레임들의 시각적 정보, 영상 $v$ 비디오에 포함..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • 5
    • ···
    • 7
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (279) N
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (45) N
      • 회고 & 계획 (17)
      • 내 이야기 (9)
      • 리뷰 (3)
      • 군대에 간 공돌이 (10) N
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바