Localizing Moments in Long Video Via Multimodal Guidance 리뷰 [ICCV 2023]
2024.02.12
이번에 리뷰할 논문은 이전에 리뷰한 Moment-DETR에 이어, moment retrieval 분야의 논문입니다. 다만 Moment-DETR이 150초 길이의 짧은 영상(QVHIGHLIGHTS 데이터셋)에서의 moment retrieval을 수행하였다면, 1시간 이상의 영화와 같은 긴 영상에서의 moment retrieval을 수행하는 것에 집중한 논문입니다. 2022년, 영화들로 구성된 MAD 데이터셋과 길이가 긴 1인칭 영상들로 구성된 Ego4D 데이터셋이 등장함에 따라, 기존의 video grounding 연구를 길이가 긴 영상에 확장할 수 있게 되었습니다. 그 결과, 길이가 짧은 영상에서는 잘 동작하던 방법론들이 길이가 긴 영상에서는 대체로 잘 동작하지 않는다는 것을 발견하게 되었는데요. 본 논..