이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

Deep Learning

  • 컴퓨터와 수학, 몽상 조금
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 리뷰 (IJCV 2022)

DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 리뷰 (IJCV 2022)

2023.07.27
이 논문은 당시 Video Retrieval SOTA 모델인 ViSiL이 성능은 높지만, 매우 많은 연산을 요구하여 속도가 느린 점을 해결하고자 knowledge distillation과 Selector 모델을 활용한다. Video Retrieval에는 속도가 빠르지만 정확도가 떨어지는 video-level 방법(coarse-grained)과 속도가 느리지만 정확도가 높은 frame-level 방법(fine-grained)이 있는데, DnS는 먼저 video-level 모델 하나와 frame-level 모델 두 개를 student 모델로 두고, ViSiL을 teacher 모델 삼아 knowledge distillation을 수행한다. 그다음, 추론 단계에서 속도가 빠른 video-level student..
TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning 리뷰 (WACV 2021)

TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning 리뷰 (WACV 2021)

2023.07.18
이 논문은 Video Retrieval에서 Self-attention 구조를 통해 장거리의 temporal information을 포함한 video representation을 생성하는 Temporal Context Aggregation (TCA) 방법을 제안한다. 저자들은 TCA 기법과 이를 위한 supervised contrastive learning을 통해 기존 STOA 모델 대비 약 17% 향상된 성능을 보였다. 저자들은 기존의 video retrieval 방법들이 video-level feature 기반이든 frame-level feature 기반이던 간에, 각 프레임을 하나의 이미지나 짧은 클립으로 다루는 경향이 중요하지 않은 장면이 반복적으로 등장할 수 있는 영상에서 멀리 떨어진 시간적 정보..
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

2023.07.17
연구실에 들어온 지 7개월, 마침내(?) 말로만 듣던 첫 서베이를 수행하게 되었다. 서베이(survey)란 어떤 분야의 연구나 프로젝트를 본격적으로 시작하기에 앞서, 해당 분야의 선행 연구 논문들을 조사하고 정리하는 과정이다. 서베이를 통해 기존 기술의 수준과 연구 방향을 파악하고, 우리가 진행할 연구의 방향이나 목표 수준을 설정하게 된다. 예를 들어 내가 새로운 치킨 양념을 개발하고자 한다면, 먼저 기존에 어떤 맛의 양념이 유행인지, 양념의 정량적인 지표가 어디까지 달성되었는지 알아야 한다. 시장에서 달콤한 양념이 유행인데 뜬끔없는 짠 양념을 연구한다거나, 이미 3000 스코빌의 매운맛 양념이 개발되었는데, 2800 스코빌의 매운맛 양념을 개발한다면 연구가 주목받기 어려울 것이다. 혹은 기존에 어떤 기..
Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

2023.07.04
이번 논문은 Weakly-Supervised Temporal Action Localization 분야의 논문으로, 무려 우리나라 연구진이 쓴 논문이다. 지금까지 많이 리뷰한 Temporal Action Localization (TAL)은 어떤 영상에서 어떤 액션이 등장하는 시간대와 액션의 종류를 찾아내는 task였다. 한편 이번에 리뷰할 Weakly-Supervised TAL (WTAL)은 같은 task에서 정답 라벨에 시간이 없이 액션의 클래스만 주어지는 task이다. 예를 들어 TAL에서 어떤 영상에 대한 라벨이 (2초~5초 다이빙)과 같이 주어졌다면, WTAL에서는 (다이빙)만 주어진다. 이러한 상황에서 당연히 액션이 일어난 시간까지 알아내도록 학습하려면 어려움이 따른다. 이 논문은 액션이 없는 b..
Vision Transformer 리뷰 (ViT)

Vision Transformer 리뷰 (ViT)

2023.06.29
2017년, 그야말로 혜성처럼 등장한 트랜스포머는 자연어 처리 분야의 모든 분야에서 놀라운 성능을 보여주며 그야말로 분야를 정복해 버렸다. 트랜스포머의 강점은 컴퓨팅의 효율성과 scalability에 있었다. 트랜스포머는 다른 모델에 비해 학습에 요구되는 연산량이 적었다. 또한, n개의 반복되는 인코더-디코더 구조로 구성되어 모델의 크기를 조절하기가 매우 용이했다. 덕분에 연구자들은 손쉽게 매우 큰 규모의 트랜스포머 기반 신경망을 설계할 수 있었으며, 트랜스포머 모델에서는 (데이터가 충분히 클 경우) 모델의 크기가 커짐에 따라 성능이 하락하는 saturation도 발생하지 않았다. 이러한 트랜스포머의 성공에 힘입어, 이미지를 다루는 컴퓨터 비전 분야에서도 트랜스포머나 셀프 어텐션 구조를 활용하려는 다양한..
BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

2023.06.23
영상에서 어떠한 행동(action)이 일어나는 구간을 찾아내는 Temporal Action Detection 모델은 일반적으로 이미지에서의 Object Detection과 유사하게 액션이 일어나는 것으로 보이는 구간을 찾아내는 proposal과 이렇게 제안된 구간이 어떤 액션에 속하는지, 혹은 사실 액션이 없는 background 영역인지 판별하는 분류(classification)의 두 단계로 구성된다. 이 논문의 저자들은 기존의 여러 연구를 통해 classification은 꽤나 잘 수행하게 되었지만, proposal의 성능이 아직 부족한 것이 temporal action detection의 한계라고 지적하며, 따라서 더 좋은 temporal proposal 방법을 사용하여 성능을 개선할 수 있다고 주..
TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

2023.06.05
이 논문은 최근 필자가 자주 보고 있는 Video Action Localization Task를 위한 TAL-Net을 제안한 논문으로, 이전에 리뷰한 R-C3D와 유사하게 Faster R-CNN에서 영감을 받은 논문이라고 한다. 저자들은 THUMOS'14 데이터셋과 ActivityNet Challenge에서 action proposal과 localization에서 모두 SOTA를 달성하였다. 저자들은 Temporal Action Localization Task를 위해 Faster R-CNN 구조를 활용하며 다음 요소들에 주안점을 두었다. 매우 다양한 길이의 action들을 어떻게 다룰 것인가? action의 길이는 아주 큰 다양성을 갖는데, Faster R-CNN의 앵커 구조로는 담기 어렵다. Tempo..
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

2023.06.01
이 논문은 2017년 ICCV에 제출된 논문으로, untimmed video 내에서 어떤 action의 class를 분류하고, 해당 action이 등장하는 구간을 판별하는 Action Detection(Localization) 문제를 다룬다. 저자들은 end-to-end로 학습 가능하며, 합성곱 계층으로만 구성된 모델인 Region Convolutional 3D Network, R-C3D를 제안한다. 이 모델은 THUMOS 2014 데이터셋에서 기존 모델들보다 빠르며, SOTA를 달성하였다. 기존 Action Localization 모델들은 대게 영상 전체를 sliding window 방식으로 탐색하며 action이 존재하는 segment를 분류하는 classification 문제로 접근하거나, 별도의 ..
예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

2023.05.31
트랜스포머 모델의 중요성은 딥러닝 분야에 대해 공부하거나, 적어도 관심을 가지고 있는 사람이라면 구태여 설명할 필요가 없을 것이다. 2017년 NeurIPS에 소개된 이 모델은 그 논문의 도발적인 제목인 "Attention Is All You Need"(어텐션만 있으면 됨)에 걸맞는 파급력을 보였다. 해당 논문의 등장 이후로 트랜스포머가 제안된 자연어 처리 분야의 연구 방향은 기존의 순환 신경망(Recurrent Neural Nets, RNNs) 기반 방법론에서 어텐션 기반의 방법론으로 완전히 선회하였고, 이윽고 최근 엄청난 주목을 받고 있는 GPT까지 발전하였다. 자연어 처리 뿐만 아니라, 합성곱 신경망 이외에 대안이 없어 보였던 컴퓨터 비전 분야에서도 Vision Transformer(ViT)가 등장..
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

2023.05.31
이 논문은 2016년 소개된 Video Action Localization 논문으로, Object Detection을 위한 2-stage 방법들과 유사하게 Proposal Network와 Classification, Localization Network 총 3가지로 구성된 Multi Stage 3D CNN을 활용한 Action Localization을 수행한다. Action Localization이란 영상이 어떤 Action을 담고 있는지 분류하는 Action Recognition에서 나아가, 영상의 어떤 구간이 어떤 행동을 담고 있는지, Temporal 한 정보까지 다루는 task이다. video recognition은 명백하게 하나의 action을 포함하도록 편집된 영상(trimmed video)을 ..
TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

2023.05.25
이 논문은 딥러닝 기반 Video Understanding 분야에서 속도가 빠르지만 정확도가 낮은 2D CNN과 정확도가 높지만 속도가 느린 3D CNN의 단점을 극복하여 빠르면서도 정확한 Video Understanding을 위한 방법인 TSM을 제안한다. 영상은 이미지의 공간적 정보에 더하여 시간적인 정보를 담고 있는데, 이는 영상의 내용을 파악하는데 아주 중요하다. 예를 들어, 상자를 여는 영상과 상자를 닫는 영상은 시간적인 순서가 역전되면 의미가 바뀌며, 시간적인 정보가 없으면 판별하기 매우 어렵다. 이러한 동영상의 시간적 정보를 활용하기 위하여 사용되는 합성곱 계층 기반의 두 가지 접근 방식이 있다. 하나는 이미지 분석에 흔히 사용되는 2D CNN을 활용하는 것이다. 영상의 각 프레임을 2D 합..
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

2023.05.24
이 논문은 초기 video action classification 분야 논문으로, 2018년 공개되었다. 논문에서는 기존 Video Action Classification 문제를 위한 데이터셋(UCF-101, HMDB-51)들이 모두 소규모 데이터셋이기에, 각 모델의 성능을 정확히 평가하고 높은 성능을 내기 어렵다는 것을 지적하였다. 이에 따라 Video Action Recogniton을 위한 새로운 대규모 데이터셋인 Kinetics 데이터셋을 제안한다. 또한, 이 Task를 위한 새로운 모델인 Inflated 3D ConvNet(I3D)을 제안하는데, 이 모델은 ImageNet에서 사전학습된 강력한 파라미터를 이용할 수 있는 특징이 있다. I3D는 HMDB-51과 UCF-101에서 각각 80.9%, 9..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (277)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (43)
      • 회고 & 계획 (17)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바