이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

전체 글

  • 컴퓨터와 수학, 몽상 조금
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

2023.07.17
연구실에 들어온 지 7개월, 마침내(?) 말로만 듣던 첫 서베이를 수행하게 되었다. 서베이(survey)란 어떤 분야의 연구나 프로젝트를 본격적으로 시작하기에 앞서, 해당 분야의 선행 연구 논문들을 조사하고 정리하는 과정이다. 서베이를 통해 기존 기술의 수준과 연구 방향을 파악하고, 우리가 진행할 연구의 방향이나 목표 수준을 설정하게 된다. 예를 들어 내가 새로운 치킨 양념을 개발하고자 한다면, 먼저 기존에 어떤 맛의 양념이 유행인지, 양념의 정량적인 지표가 어디까지 달성되었는지 알아야 한다. 시장에서 달콤한 양념이 유행인데 뜬끔없는 짠 양념을 연구한다거나, 이미 3000 스코빌의 매운맛 양념이 개발되었는데, 2800 스코빌의 매운맛 양념을 개발한다면 연구가 주목받기 어려울 것이다. 혹은 기존에 어떤 기..
Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

2023.07.04
이번 논문은 Weakly-Supervised Temporal Action Localization 분야의 논문으로, 무려 우리나라 연구진이 쓴 논문이다. 지금까지 많이 리뷰한 Temporal Action Localization (TAL)은 어떤 영상에서 어떤 액션이 등장하는 시간대와 액션의 종류를 찾아내는 task였다. 한편 이번에 리뷰할 Weakly-Supervised TAL (WTAL)은 같은 task에서 정답 라벨에 시간이 없이 액션의 클래스만 주어지는 task이다. 예를 들어 TAL에서 어떤 영상에 대한 라벨이 (2초~5초 다이빙)과 같이 주어졌다면, WTAL에서는 (다이빙)만 주어진다. 이러한 상황에서 당연히 액션이 일어난 시간까지 알아내도록 학습하려면 어려움이 따른다. 이 논문은 액션이 없는 b..
Vision Transformer 리뷰 (ViT)

Vision Transformer 리뷰 (ViT)

2023.06.29
2017년, 그야말로 혜성처럼 등장한 트랜스포머는 자연어 처리 분야의 모든 분야에서 놀라운 성능을 보여주며 그야말로 분야를 정복해 버렸다. 트랜스포머의 강점은 컴퓨팅의 효율성과 scalability에 있었다. 트랜스포머는 다른 모델에 비해 학습에 요구되는 연산량이 적었다. 또한, n개의 반복되는 인코더-디코더 구조로 구성되어 모델의 크기를 조절하기가 매우 용이했다. 덕분에 연구자들은 손쉽게 매우 큰 규모의 트랜스포머 기반 신경망을 설계할 수 있었으며, 트랜스포머 모델에서는 (데이터가 충분히 클 경우) 모델의 크기가 커짐에 따라 성능이 하락하는 saturation도 발생하지 않았다. 이러한 트랜스포머의 성공에 힘입어, 이미지를 다루는 컴퓨터 비전 분야에서도 트랜스포머나 셀프 어텐션 구조를 활용하려는 다양한..
내가 부족한 줄 아는 사람이 되자. [2023 하반기 계획]

내가 부족한 줄 아는 사람이 되자. [2023 하반기 계획]

2023.06.25
오랜만에 계획 글을 쓴다. 군대에 있을 때는 애초에 내가 계획하고 활용할 수 있는 시간이 얼마 없다는 핑계로 무계획의 삶을 살았지만, 이제 다시 목표지향적인 삶을 살아야지. 1학기를 보내며 연구실 일정 따라가랴, 수업 들으면서 학점 관리하랴 주어지는 과제들을 수행하며 살다 보니 내가 하고 싶었던 것들을 못 하거나, 해야 할 것들을 힘들단 핑계로 안 하기도 하였는데, 이런 부분도 이제 잘 계획해서 실천해 봐야겠다. 장기 목표: 척척 학사가 되자. 6개월간 연구실에 적응하고, 선배 연구원들을 보며 연구원으로써 가져야 할 자질에 대해 생각해 볼 수 있었다. 학사 졸업 후 본격적으로 석사 과정을 시작하기 앞서 남은 1년 6개월. 내 목표는 다음과 같은 요소를 체득하는 것이다. 연구 스스로 최신 논문 follow..
병장에서 연구원으로 [2023년 상반기 회고]

병장에서 연구원으로 [2023년 상반기 회고]

2023.06.25
전역, 연구실 합류, 개강을 거쳐 정신없이 살다 보니 어느새 3학년 1학기가, 2023년의 절반이 지나가 있었다. 어찌 보면 당연한 이야기겠지만, 지난 6개월을 보내며 내게 있어 가장 영향이 컸던 것은 단연 연구실일 것이다. 군대 2년, 코로나 1년으로 3년 만에 복귀한 대학교 대면수업을 따라가는 것도 쉬운 일은 아니었지만, 상상으로만 그려왔던 연구실에 실제로 들어가, 학부연구생의 한 학기를 보낸 낯선 경험에 비하면 정말 아무것도 아니었던 것이다. 좋은 것이든 나쁜 것이든 정말 많은 경험과 생각을 한 6개월이었고, 하루 빨리 회고를 쓰고 정리하고 싶어 기말고사 시험 기간이 끝나기를 손꼽아 기다렸다. 생각해 보면, 필자가 회고글을 작성하기 시작한 대학교 1학년 ~ 2학년에는 매번 뭔가 새로운 성과를 거두는..
BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

BMN: Boundary-Matching Network for Temporal Action Proposal Generation 리뷰 (ICCV 2019)

2023.06.23
영상에서 어떠한 행동(action)이 일어나는 구간을 찾아내는 Temporal Action Detection 모델은 일반적으로 이미지에서의 Object Detection과 유사하게 액션이 일어나는 것으로 보이는 구간을 찾아내는 proposal과 이렇게 제안된 구간이 어떤 액션에 속하는지, 혹은 사실 액션이 없는 background 영역인지 판별하는 분류(classification)의 두 단계로 구성된다. 이 논문의 저자들은 기존의 여러 연구를 통해 classification은 꽤나 잘 수행하게 되었지만, proposal의 성능이 아직 부족한 것이 temporal action detection의 한계라고 지적하며, 따라서 더 좋은 temporal proposal 방법을 사용하여 성능을 개선할 수 있다고 주..
TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

TAL-Net: Rethinking the Faster R-CNN Architecture for Temporal Action Localization 리뷰 (CVPR 2018)

2023.06.05
이 논문은 최근 필자가 자주 보고 있는 Video Action Localization Task를 위한 TAL-Net을 제안한 논문으로, 이전에 리뷰한 R-C3D와 유사하게 Faster R-CNN에서 영감을 받은 논문이라고 한다. 저자들은 THUMOS'14 데이터셋과 ActivityNet Challenge에서 action proposal과 localization에서 모두 SOTA를 달성하였다. 저자들은 Temporal Action Localization Task를 위해 Faster R-CNN 구조를 활용하며 다음 요소들에 주안점을 두었다. 매우 다양한 길이의 action들을 어떻게 다룰 것인가? action의 길이는 아주 큰 다양성을 갖는데, Faster R-CNN의 앵커 구조로는 담기 어렵다. Tempo..
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection 리뷰 (ICCV 2017)

2023.06.01
이 논문은 2017년 ICCV에 제출된 논문으로, untimmed video 내에서 어떤 action의 class를 분류하고, 해당 action이 등장하는 구간을 판별하는 Action Detection(Localization) 문제를 다룬다. 저자들은 end-to-end로 학습 가능하며, 합성곱 계층으로만 구성된 모델인 Region Convolutional 3D Network, R-C3D를 제안한다. 이 모델은 THUMOS 2014 데이터셋에서 기존 모델들보다 빠르며, SOTA를 달성하였다. 기존 Action Localization 모델들은 대게 영상 전체를 sliding window 방식으로 탐색하며 action이 존재하는 segment를 분류하는 classification 문제로 접근하거나, 별도의 ..
예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

예제로 보는 트랜스포머/어텐션 (Attention is All You Need)

2023.05.31
트랜스포머 모델의 중요성은 딥러닝 분야에 대해 공부하거나, 적어도 관심을 가지고 있는 사람이라면 구태여 설명할 필요가 없을 것이다. 2017년 NeurIPS에 소개된 이 모델은 그 논문의 도발적인 제목인 "Attention Is All You Need"(어텐션만 있으면 됨)에 걸맞는 파급력을 보였다. 해당 논문의 등장 이후로 트랜스포머가 제안된 자연어 처리 분야의 연구 방향은 기존의 순환 신경망(Recurrent Neural Nets, RNNs) 기반 방법론에서 어텐션 기반의 방법론으로 완전히 선회하였고, 이윽고 최근 엄청난 주목을 받고 있는 GPT까지 발전하였다. 자연어 처리 뿐만 아니라, 합성곱 신경망 이외에 대안이 없어 보였던 컴퓨터 비전 분야에서도 Vision Transformer(ViT)가 등장..
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)

2023.05.31
이 논문은 2016년 소개된 Video Action Localization 논문으로, Object Detection을 위한 2-stage 방법들과 유사하게 Proposal Network와 Classification, Localization Network 총 3가지로 구성된 Multi Stage 3D CNN을 활용한 Action Localization을 수행한다. Action Localization이란 영상이 어떤 Action을 담고 있는지 분류하는 Action Recognition에서 나아가, 영상의 어떤 구간이 어떤 행동을 담고 있는지, Temporal 한 정보까지 다루는 task이다. video recognition은 명백하게 하나의 action을 포함하도록 편집된 영상(trimmed video)을 ..
TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)

2023.05.25
이 논문은 딥러닝 기반 Video Understanding 분야에서 속도가 빠르지만 정확도가 낮은 2D CNN과 정확도가 높지만 속도가 느린 3D CNN의 단점을 극복하여 빠르면서도 정확한 Video Understanding을 위한 방법인 TSM을 제안한다. 영상은 이미지의 공간적 정보에 더하여 시간적인 정보를 담고 있는데, 이는 영상의 내용을 파악하는데 아주 중요하다. 예를 들어, 상자를 여는 영상과 상자를 닫는 영상은 시간적인 순서가 역전되면 의미가 바뀌며, 시간적인 정보가 없으면 판별하기 매우 어렵다. 이러한 동영상의 시간적 정보를 활용하기 위하여 사용되는 합성곱 계층 기반의 두 가지 접근 방식이 있다. 하나는 이미지 분석에 흔히 사용되는 2D CNN을 활용하는 것이다. 영상의 각 프레임을 2D 합..
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰

2023.05.24
이 논문은 초기 video action classification 분야 논문으로, 2018년 공개되었다. 논문에서는 기존 Video Action Classification 문제를 위한 데이터셋(UCF-101, HMDB-51)들이 모두 소규모 데이터셋이기에, 각 모델의 성능을 정확히 평가하고 높은 성능을 내기 어렵다는 것을 지적하였다. 이에 따라 Video Action Recogniton을 위한 새로운 대규모 데이터셋인 Kinetics 데이터셋을 제안한다. 또한, 이 Task를 위한 새로운 모델인 Inflated 3D ConvNet(I3D)을 제안하는데, 이 모델은 ImageNet에서 사전학습된 강력한 파라미터를 이용할 수 있는 특징이 있다. I3D는 HMDB-51과 UCF-101에서 각각 80.9%, 9..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • ···
    • 23
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (276)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (42)
      • 회고 & 계획 (16)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바