이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

Deep Learning/논문 리뷰

  • 컴퓨터와 수학, 몽상 조금
BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

2023.06.23
영상에서 어떠한 행동(action)이 일어나는 구간을 찾아내는 Temporal Action Detection 모델은 일반적으로 이미지에서의 Object Detection과 유사하게 액션이 일어나는 것으로 보이는 구간을 찾아내는 proposal과 이렇게 제안된 구간이 어떤 액션에 속하는지, 혹은 사실 액션이 없는 background 영역인지 판별하는 분류(classification)의 두 단계로 구성된다. 이 논문의 저자들은 기존의 여러 연구를 통해 classification은 꽤나 잘 수행하게 되었지만, proposal의 성능이 아직 부족한 것이 temporal action detection의 한계라고 지적하며, 따라서 더 좋은 temporal proposal 방법을 사용하여 성능을 개선할 수 있다고 주..
TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

2023.06.05
이 논문은 최근 필자가 자주 보고 있는 Video Action Localization Task를 위한 TAL-Net을 제안한 논문으로, 이전에 리뷰한 R-C3D와 유사하게 Faster R-CNN에서 영감을 받은 논문이라고 한다. 저자들은 THUMOS'14 데이터셋과 ActivityNet Challenge에서 action proposal과 localization에서 모두 SOTA를 달성하였다. 저자들은 Temporal Action Localization Task를 위해 Faster R-CNN 구조를 활용하며 다음 요소들에 주안점을 두었다. 매우 다양한 길이의 action들을 어떻게 다룰 것인가? action의 길이는 아주 큰 다양성을 갖는데, Faster R-CNN의 앵커 구조로는 담기 어렵다. Tempo..
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

2023.06.01
이 논문은 2017년 ICCV에 제출된 논문으로, untimmed video 내에서 어떤 action의 class를 분류하고, 해당 action이 등장하는 구간을 판별하는 Action Detection(Localization) 문제를 다룬다. 저자들은 end-to-end로 학습 가능하며, 합성곱 계층으로만 구성된 모델인 Region Convolutional 3D Network, R-C3D를 제안한다. 이 모델은 THUMOS 2014 데이터셋에서 기존 모델들보다 빠르며, SOTA를 달성하였다. 기존 Action Localization 모델들은 대게 영상 전체를 sliding window 방식으로 탐색하며 action이 존재하는 segment를 분류하는 classification 문제로 접근하거나, 별도의 ..
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

2023.05.31
이 논문은 2016년 소개된 Video Action Localization 논문으로, Object Detection을 위한 2-stage 방법들과 유사하게 Proposal Network와 Classification, Localization Network 총 3가지로 구성된 Multi Stage 3D CNN을 활용한 Action Localization을 수행한다. Action Localization이란 영상이 어떤 Action을 담고 있는지 분류하는 Action Recognition에서 나아가, 영상의 어떤 구간이 어떤 행동을 담고 있는지, Temporal 한 정보까지 다루는 task이다. video recognition은 명백하게 하나의 action을 포함하도록 편집된 영상(trimmed video)을 ..
TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

2023.05.25
이 논문은 딥러닝 기반 Video Understanding 분야에서 속도가 빠르지만 정확도가 낮은 2D CNN과 정확도가 높지만 속도가 느린 3D CNN의 단점을 극복하여 빠르면서도 정확한 Video Understanding을 위한 방법인 TSM을 제안한다. 영상은 이미지의 공간적 정보에 더하여 시간적인 정보를 담고 있는데, 이는 영상의 내용을 파악하는데 아주 중요하다. 예를 들어, 상자를 여는 영상과 상자를 닫는 영상은 시간적인 순서가 역전되면 의미가 바뀌며, 시간적인 정보가 없으면 판별하기 매우 어렵다. 이러한 동영상의 시간적 정보를 활용하기 위하여 사용되는 합성곱 계층 기반의 두 가지 접근 방식이 있다. 하나는 이미지 분석에 흔히 사용되는 2D CNN을 활용하는 것이다. 영상의 각 프레임을 2D 합..
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

2023.05.24
이 논문은 초기 video action classification 분야 논문으로, 2018년 공개되었다. 논문에서는 기존 Video Action Classification 문제를 위한 데이터셋(UCF-101, HMDB-51)들이 모두 소규모 데이터셋이기에, 각 모델의 성능을 정확히 평가하고 높은 성능을 내기 어렵다는 것을 지적하였다. 이에 따라 Video Action Recogniton을 위한 새로운 대규모 데이터셋인 Kinetics 데이터셋을 제안한다. 또한, 이 Task를 위한 새로운 모델인 Inflated 3D ConvNet(I3D)을 제안하는데, 이 모델은 ImageNet에서 사전학습된 강력한 파라미터를 이용할 수 있는 특징이 있다. I3D는 HMDB-51과 UCF-101에서 각각 80.9%, 9..
ImageBind: One Embedding Space To Bind Them All 리뷰

ImageBind: One Embedding Space To Bind Them All 리뷰

2023.05.16
이번 논문 리뷰는 최근 공개된 CVPR 2023 Accepted Paper이자 공개 직후 엄청난 관심(깃허브 스타 5000+)을 받고 있는 ImageBind입니다. 제가 연구해보고 싶었던 분야인 Multimodal Joint Embedding Space 분야를 연 논문이 아닌가 생각이 듭니다. 이런 게 나오려면 몇 년은 더 걸릴 줄 알았는데, 벌써 나오고 말았네요... 개인적으로 제가 읽어 본 논문들 중 가장 큰 충격을 받은 논문인 것 같습니다. 바로 리뷰 시작해 보겠습니다. 소개 딥러닝 모델들은 어떤 잠재 공간에 데이터를 임베딩하는 함수로 볼 수 있다. 이 벡터를 비교하여 분류나 회귀와 같은 문제를 풀 수도 있고, 이 벡터를 원래 데이터로 복원하는 모델을 통해 압축이나 생성, 변형 등 다양한 task를..
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약

2023.05.12
이전 VVS 리뷰글에 이어, 해당 논문을 다 읽고 더 쉽고 짧게 요약해보았습니다. 자세한 내용이 궁굼하신 분들은 이전 리뷰글을 참고해주시기 바랍니다. Introduction 영상 기반 비디오 검색(video-to-video retireval)은 어떤 쿼리 영상(query)이 주어지면, 수많은 영상들로 구성된 데이터베이스(DB)에서 해당 쿼리와 유관한 영상들을 찾아내는 task이다. 주어진 쿼리 영상과 DB 속 영상들을 영상 서술자(video descriptor)라는 벡터 형태로 변환한 후, 쿼리 영상의 서술자와 유사한 순서로 DB 속 영상들을 정렬하여 유사도가 가장 높은 영상들을 검색 결과로 삼는 것이다. 즉, 비디오 검색의 핵심은 "유사한 영상들이 유사한 서술자 벡터를 갖고, 유사하지 않은 영상들이 유..
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 리뷰

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 리뷰

2023.05.01
대규모 데이터를 다루는 콘텐츠 기반 비디오 검색(CBVR) 연구에서 효율성은 정확도만큼이나 중요하다. 그렇기에 지금까지 많은 Video-level feature 기반 연구가 진행되었지만, 긴 영상을 자르지(trim) 않고 하나의 feature로 만드는 것의 어려움으로 인해 지금까지는 Frame-level feature 기반 연구에 비하여 충분한 성과가 없었다. 이 논문에서, 저자들은 서로 무관한 프레임들을 적절히 suppression 하는 것이 video-level feature 기반 연구의 한계를 극복할 단서가 될 수 있음을 보이며, 나아가 Video-to-Video Suppression network(VVS)를 해법으로 제시한다. Introduction 정보 검색(Information Retrieva..
ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning 리뷰

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning 리뷰

2023.04.04
이 논문은 2019년 ICCV에 개제 된 논문으로, Video Retrieval 문제를 해결하기 위한 기존 모델들이, 프레임 전체, 때로는 영상 전체를 하나의 벡터로 임베딩하여 시공간적 정보를 잃었던 것과는 달리, 시공간적 정보를 세세하게 고려하는 영상 유사도 학습 구조를 제안한다. 이 CNN 기반 모델은 프레임 간 유사도로부터 비디오 간 유사도를 구하게 되는데, 이를 통해 각 영상 내부적(intra)인 정보와 영상 사이(inter)의 정보 모두를 고려한다. ViSiL 모델에서 각 프레임 쌍의 유사도는 CNN feature frame에 대한 텐서 닷 연산(Tensor Dot, TD)과 Chamfer Similarity(CS)를 통해 구해지는데, 이를 통해 feature들이 aggregation 되기 전에..
Near-Duplicate Video Retrieval with Deep Metric Learning 리뷰

Near-Duplicate Video Retrieval with Deep Metric Learning 리뷰

2023.03.30
이 논문은 Deep Metric Learning(DML)을 활용한 효과적인 유사-중복 영상 검색(Near-Duplicate Video Retrieval, NDVR) 방법을 제안한다. 개발과 평가 과정 모두에서 같은 데이터셋으로부터 추출된 정보를 사용하는 2017년 당시 기존 SOTA 모델들과 달리, 이 논문에서는 별도의 데이터셋에서 triplet으로 학습된 모델에, 흔히 사용되는 CC_WEB_VIDEO 데이터셋을 이용하여 평가를 진행한다. 저자들은 AlexNet과 GoogleNet 구조를 활용하여 실험을 진행하였고, 평가 데이터셋을 학습에 사용하지 않고도 SOTA를 달성하였다. 저자들은 기존의 NDVR 연구들이 특정 데이터셋에서 학습과 평가가 동시에 이루어져, 다른 데이터셋에서의 평가 성능이 좋지 않음을..
Near-Duplicate Video Retrieval by Aggregating Intermediate CNN Layers 리뷰

Near-Duplicate Video Retrieval by Aggregating Intermediate CNN Layers 리뷰

2023.03.29
유사 중복 동영상 검색(Near-duplicate video retrieval, NDVR)은 카메라 앵글, 인코딩 방식과 같이 아주 작은 차이만 존재하고 사실상 같은 영상을 검색하는 task로, 인터넷의 발전에 따른 동영상 콘텐츠의 증가에 따라 중요하게 관심받는 분야 중 하나이다. NDVR task를 정의하는 다양한 방법이 있지만, 이 논문에서는 NDVR을 다음과 같이 정의한다. 유사 중복 영상은 원본 영상과 동일한, 혹은 거의 동일한 영상이지만, 파일 포맷, 인코딩 속성, 영상학적인 차이(색조, 광량 등), 영상 편집(자막, 로고, 외곽선 등), 영상 길이와 같은 영역에서 차이가 있는 영상을 말한다. 이 논문은 2017년, 당시 CNN의 성공에 힘입어 영상 검색 문제에 CNN 중간의 feature를 활..
  • 최신
    • 1
    • 2
    • 3
    • 4
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (276)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (42)
      • 회고 & 계획 (16)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바