Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (I3D) 논문 리뷰
이 논문은 초기 video action classification 분야 논문으로, 2018년 공개되었다.
논문에서는 기존 Video Action Classification 문제를 위한 데이터셋(UCF-101, HMDB-51)들이 모두 소규모 데이터셋이기에, 각 모델의 성능을 정확히 평가하고 높은 성능을 내기 어렵다는 것을 지적하였다. 이에 따라 Video Action Recogniton을 위한 새로운 대규모 데이터셋인 Kinetics 데이터셋을 제안한다. 또한, 이 Task를 위한 새로운 모델인 Inflated 3D ConvNet(I3D)을 제안하는데, 이 모델은 ImageNet에서 사전학습된 강력한 파라미터를 이용할 수 있는 특징이 있다. I3D는 HMDB-51과 UCF-101에서 각각 80.9%, 98.0% 성능으로 SOTA를 달성하였다.
참고로 제목의 Quo Vadis는 성경에 나오는 구절인 "Quo vadis, domine?(주여, 어디로 가시나이까?)"와 동명의 소설 원작 영화의 오마주로, "Action Recognition이여 어디로 가는가?" 정도의 의미이다.
Kinetics 데이터셋
저자들은 이미지 분야에서 ImageNet 대규모 데이터셋에서 사전학습된 모델들이 분류뿐 아니라 다양한 영역에서 좋은 효과를 내는 것처럼, 비디오 분야에서도 대규모의 데이터셋이 필요하다고 주장한다. 이에 따라 기존 video 분야 데이터셋들보다 훨씬 큰 Kinetics 데이터셋을 제안한다. 이 데이터셋은 유튜브에서 수집된 400 가지의 사람의 Action에 대하여 각각 400개 이상의 영상으로 구성되어 있다. (총 24만 개의 학습 영상과 4만개의 테스트 영상으로 구성된다고 한다.)
저자들은 기존 Video Action Classification 모델들이 평가에 사용된 데이터가 제한되어 있어 제대로 성능을 평가받지 못했다고 판단하여, 새로운 Kinetics 데이터셋으로 사전학습을 진행한 후, 기존 데이터(HMDB-51, UCF-101)에서 파인튜닝하여 다시 평가를 진행하였다. 그 결과, 모델들의 성능이 개선됨을 확인할 수 있었다.
저자들은 이러한 실험 과정에서 알아낸 사실들을 바탕으로 새로운 Two-Stream Inflated 3D ConvNets(I3D)라는 구조를 제안하였다.
기존의 Action Classification 모델들
ConvNet+LSTM
이 구조는 이미지에서 강력한 성능을 보이는 합성곱 구조와, 자연어 처리와 같은 시계열 데이터에서 강력한 성능을 보이는 LSTM을 융합한 구조이다. 영상의 각 프레임(이미지)을 합성곱 계층을 거쳐 특성으로 변환하고, 이를 LSTM에 입력하여 동영상의 액션을 판단한다. 가장 단순하고 직관적인 방법이라 생각된다.
3D ConvNets
이 방법은 일반적으로 이미지에서 사용되는 2차원 합성곱을 3차원으로 확장한 3D 합성곱을 활용한다. 이를 통해 영상의 너비, 높이에 더하여 시간 축까지 합성곱을 수행할 수 있지만 파라미터의 수와 연산량이 크게 증가하며, 이미지에서 얻은 2D 합성곱 신경망의 파라미터를 사용할 수 없다는 단점이 있다고 한다.
Two-Stream Networks
이 방법은 영상에서 한 장의 이미지와, Optical Flow를 이용한다. Optical Flow는 이전 프레임과 현재 프레임 사이에서 각 픽셀이 이동한 것을 모션벡터로 나타낸 2채널 이미지 형태이다. Two-Stream 방법은 이 Optical Flow 10개를 채널 축으로 쌓은 데이터와 한 장의 RGB 이미지를 ImageNet에서 학습된 2D 합성곱 계층을 통해 처리하고, 두 특성을 합쳐 사용한다. 이 방법은 학습과 추론이 매우 간편하며, 높은 성능을 보이는 편이라고 한다.
(논문 작성 당시) 최근에는 이 방법을 강화하여, 위에서 설명한 방법으로 얻은 feature map을 3D 합성곱을 거치는 3D-Fused Two-Stream 방법이 사용되었다고 한다.
새로운 방법: Two-Stream 3D-ConvNet
저자들은 ImageNet 2D 합성곱 신경망의 구조와 사전학습된 파라미터를 사용하여 고성능의 3D 합성곱 신경망을 구축한다.
Inflating 2D ConvNets into 3D
저자들은 ImageNet에서 성공적으로 동작한 2D 합성곱 구조를 3D에도 적용하고자 하였다. 이를 위해, 단순히 합성곱 계층과 풀링 계층의 kernel_size를 시간축으로도 확대하는 방법을 사용하였다. 예를 들어, $3\times 3$ 크기의 kernel을 갖는 합성곱 계층은 $3\times 3\times 3$크기의 3D 합성곱 계층으로 만들었다.
Bootstrapping 3D filters from 2D filters
저자들은 ImageNet 신경망의 구조뿐 아니라 사전학습된 가중치도 사용하고자 하였다. 저자들은 ImageNet에서 사전학습된 2D CNN 필터의 가중치를 시간축으로 복제하여 3D CNN 필터로 만들고, 가중치를 복제한 만큼 나누었다. 이로 인해 결과적으로 ImageNet의 이미지와 그 이미지를 시간축으로 복제하여 만든 동영상(boring video)에 대한 CNN의 출력이 같아진다.
Receptive field in time
이미지 2D 합성곱에서는 일반적으로 가로, 세로의 stride를 동일하게 두어 가로 상에 놓인 픽셀들과 세로 상에 놓인 픽셀들이 차이가 없도록 하지만, 시간 축에 대해서도 이러한 방식을 고수할 필요는 없다. 저자들은 실험적으로 이러한 stride를 1이나 2로 설정하는 것이 좋음을 확인하였다.
Two 3D Streams
이러한 3D 합성곱 구조를 활용하여 RGB 이미지로부터 공간적, 시간적 정보를 모두 얻을 수 있지만, 여전히 optical flow를 사용하는 것이 성능에 도움이 되었기 때문에 저자들은 모델을 Two Stream으로 구성하였다. 저자들은 RGB 기반의 모델과 optical flow 기반의 모델을 별도로 학습시켜, 테스트 시에는 두 모델의 출력의 평균을 사용하였다.
Implementation
저자들은 ImageNet에서 사전학습된 Inception-V1을 base network로 사용하였다.
Experiments
앞서 소개한 모델들과 저자들이 제안한 I3D 모델의 성능 비교이다. 기존 모델들에 비해 상당히 높은 성능을 보이는 것을 알 수 있다. 우측에는 저자들이 제안한 방식으로 ImageNet 상에서 사전학습을 진행한 후, 평가 데이터인 Kinetics 데이터셋에서 파인튜닝한 모델인데, 저자들의 주장처럼 ImageNet에서 사전학습을 진행하는 것이 모든 모델의 성능을 향상한다.
original은 ImageNet 사전학습을 진행하지 않은 것이고, fixed는 kinetics에서 사전학습 후 모델을 freeze 하고 마지막 계층만 주어진 데이터에 맞게 파인튜닝한 모델, Full-FT는 kinetics 사전학습 후 전체 모델을 파인튜닝한 모델의 결과이다. 저자들이 만든 Kinetics 데이터셋이 ImageNet처럼 general video task의 성능을 향상하는 역할을 잘하고 있다.
위 표는 기존의 SOTA 모델들과 저자들이 제안한 방법들의 비교이다. ImageNet에서의 사전학습과 Kinetics의 사전학습 비교가 없는 것이 조금 아쉽다.
결론
이 논문은 비디오에도 ImageNet과 같은 대규모 데이터셋을 활용한 사전학습을 통해 성능을 향상하기 위하여 kinetics 데이터셋을 제안한다. 또한, 이미지 데이터셋인 ImageNet에서 고성능을 보인 모델의 구조를 비디오에 적용하고, 심지어 이미지 데이터셋으로 비디오 모델을 학습시키는 방법까지 고안한다.
더불어 I3D라는 3D 합성곱 기반 고성능의 모델을 제안하여 Video Action Classification 분야에서의 SOTA를 달성하였다.
Video 연구 분야가 초창기일 때 다양하게 분야에 기여한 좋은 논문이면서, 심플하여 읽기 좋았던 것 같다.
'Deep Learning > 논문 리뷰' 카테고리의 다른 글
댓글
이 글 공유하기
다른 글
-
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 리뷰 (CVPR 2016)
2023.05.31 -
TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)
TSM: Temporal Shift Module for Efficient Video Understanding 리뷰 (ICCV 2019)
2023.05.25 -
ImageBind: One Embedding Space To Bind Them All 리뷰
ImageBind: One Embedding Space To Bind Them All 리뷰
2023.05.16 -
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약
2023.05.12