1년차 학부연구생의 KCCV 2023 참관기
KCCV, Korean Conference of Computer Vision은 CVPR, ICCV를 비롯한 우수 컴퓨터 비전 학회에 논문을 제출한 뛰어난 한국 컴퓨터 비전 연구자들이 오럴 발표와 포스터 발표를 진행하는 학회이다.
학부 연구생으로 지낸 지 7개월 정도가 된 지금 시점에서 KCCV가 컴퓨터 비전 트렌드를 파악하고 우수한 논문들을 한국어로 배울 수 있는 좋은 기회가 될 것이라 기대하고 있었는데, 마침 감사하게도 연구실에서 KCCV에 갈 기회를 주셔서 다녀오게 되었다.
필자는 이전부터 Pycon, GTC Korea와 같이 한국에서 진행되는 학회에 참여하는 것을 즐기는 편이었는데, 코로나 이후 3년 이상을 오프라인 학회에 참여하지 못하였기에 정말 오랜만의 학회 참석이기도 하고, 컴퓨터 비전이라는 명확한 전공과 어느 정도의 이해를 가지고서는 처음 참여하는 학회였기에 이번 KCCV가 더욱 기대되었다.
KCCV는 하루 10편 이상의 oral 발표와, 약 25편 가량의 포스터 발표로 진행되었는데, 이를 통해 하루에 약 30편 이상의 논문을 가볍게나마 접하며 컴퓨터 비전의 트렌드를 엿볼 수 있었다. 결국 필자도 아는 것들에 더 집중하는 사람인지라, 필자가 관심이 있는 비디오와 멀티 모달 위주로 보기는 했지만, 그럼에도 한국어로 연구 내용을 소통할 수 있는 환경 덕분에 한층 더 다양한 분야를 접할 수 있었던 것 같다.
먼저, 컴퓨터 비전에 있어 항상 주목받는 분야였던 이미지 개선 (deblurring, super resolution 등)은 이번에도 꽤 많은 연구가 보였고, 생성 모델 관련된 연구도 몇 편 보였다. 또한, 생각 이상으로 비디오 관련 연구가 많았다. 특히, 비디오를 generative model을 통해 생성하거나 멀티 모달을 시도하는 등, 단순히 비디오를 시각적으로 분석하는 것 이상의 성숙된 연구가 많다는 느낌을 받았다. 전체적으로 가장 많이 본 키워드는 CLIP이었다. 멀티 모달 파운데이션 모델인 CLIP을 각자의 분야에 접목하여 개선하고자 한 시도가 많았던 것 같다.
한편, 기업 부스들도 몇 개 있었는데, 구직난이라 그런지 채용 공고가 많지는 않다고 느꼈다. 2019년도에는 어느 학회를 가든 기업 부스들마다 채용 상담, 홍보가 굉장히 적극적이었는데... 한편 구직 중인 AI 관련 포지션은 3D, NeRF와 같은 분야가 많이 눈에 띄었다. 3D가 대세이기는 한 것 같다.
전체적인 느낌은 이 정도로 하고, 이제 필자가 인상깊게 본 발표나 포스터들에 대한 감상을 정리해보고자 한다.
여기에 적히지 않은 논문들도 하나같이 훌륭한 논문이었겠지만.. 필자의 짧은 식견 상 필자가 모르는 분야의 논문은 이해하기가 어려웠다. 😅
Sound-guided Semantic Video Generation
기존의 Video Generation 모델들이 random noise vector를 기반으로 첫 프레임을 생성하고, 이어서 프레임들을 생성한 반면 이 모델은 sound를 이용해 영상을 생성한다. 이때, CLIP이 가진 Multi-modal embedding space를 통해 사운드로 적절한 영상을 생성한다.
필자가 Generative Model에 관한 지식은 적어, 이해하기 어려웠으나, CLIP을 활용하였고 Video를 생성한다는 점에서 필자의 관심 영역과 겹치는 부분이 많아 흥미로운 논문이었다.
Online Backfilling for Large-Scale Image Retrieval
이 내용은 Doctoral Colloquium에서 들은 것인데, 전체적으로 Doctoral Colloquium들이 재미있고 필자와 가까운 세대의 연구자들이라 그런지 연구 내용이 흥미로웠던 것 같다.
각설, 서울대의 서성욱 박사님은 Retrieval 문제에서 임베딩 모델을 교체할 때 발생하는 Re-indexing 문제를 다루었다.
Retrieval은 검색하고자 하는 DB의 데이터들을 어떤 임베딩 모델을 통해 indexing 해놓고, 쿼리가 입력되면 해당 쿼리를 indexing 하여 DB의 index들과 비교하는데, 이때 임베딩 모델의 성능을 업그레이드하고자 임베딩 모델을 교체하면 모든 DB의 reindexing을 수행해야 한다.
이때, 구 모델과 신 모델의 임베딩이 호환되지 않기 때문에, 비효율성이 발생한다. 때문에 Backward-Compatible Training 방법을 통해 새로운 모델이 기존 모델과 유사한 임베딩을 갖도록 하는 방법이 있다.
그러나 이러한 방법을 사용하면 결국 새로운 임베딩 모델의 성능이 떨어져 업그레이드를 수행하는 의미가 없어지기에, 성능을 희생하지 않으면서도 점차 새로운 모델의 성능을 온전히 누릴 수 있는 online backfilling을 연구하였다고 한다.
우리 연구실에서 Video Retrieval, 특히 실제 문제에 적용 가능한 Retrieval을 연구하고 있어 흥미로운 내용이었다.
Learning Language-Guided Spatiotemporal Representations for Video Understanding
이 내용도 Doctoral Colloquium에서 들었는데, 연세대 박정인 박사님은 최근 등장하고 있는 거대한 Foundation model들을 잘 파인튜닝하기 위한 parameter-efficient transfer learning을 연구하셨다.
특히 연산 비용이 큰 비디오에 적용할 수 있는 PETL을 위해, pretrained image model을 비디오에 적용하고자 하였는데, temporal modeling과 spatial modeling을 별도의 stream으로 분리하여 수행하여 이미지 모델을 downstream task에 활용하였다.
Improving Cross-Modal Retrieval with Set of Diverse Embeddings
이 방법 포스터 설명을 참 야무지게 해주셨는데.. 포스터 사진을 안 찍어왔다. Cross-modal Retrieval에서 MIL은 모달리티가 다르지만 유관한 샘플 쌍 하나만의 거리를 줄이는 반면, 유사한 임베딩의 집합들을 전체적으로 고려하는 Smooth-Chamfer Similairty를 도입하여 효과적인 cross modal embedding을 수행한다.
MELTR: Meta Loss Transformer for Learning to Fine-Tune Video Foundation Models
이 논문이 상당히 흥미로웠는데, 기존의 비디오 Foundation Model들은 여러 가지 task에 사용되는 Loss들을 조합하여 학습한 후, fine-tuning 할 때는 downstream task에 해당하는 Loss만 이용해 학습하였다. 저자들은 fine-tuning 단계에서 primary task가 아닌 이 task들에 해당하는 loss들을 버리는 것에 의문을 갖고, 이들을 transformer를 통해 병합하여 Auxiliary Loss를 만들어 학습에 활용하였다. 이를 통해 downstream task의 loss만 사용하는 것보다 좋은 fine tuning 결과를 얻을 수 있었다고 한다.
Invited Talk: Byond the standard benchmarks: on the importance of robust models and where to find them
2일 차의 마지막 세션은 CLIP의 2 저자이신 OpenAI 김종욱 박사님의 세션이었는데, 박사님이 학생 시절 개발한 crepe부터 CLIP, Whisper까지 연구를 수행하며 경험한 benchmark 성능에서는 알 수 없는 robustness에 대한 고찰이 새롭게 느껴졌다.
쉽지는 않은 일이겠지만, 데이터셋 선정 -> SOTA 달성 -> 논문 의 Standard 한 과정을 거치는 것 이상의 연구가 하고 싶어 졌고, 그러한 연구가 어떤 것인지 엿볼 수 있는 세션이었다.
최근 쏟아져나오는 연구들 사이에서 연구 방향을 어떻게 잡아야 할지, 어떤 것이 재밌고 의미 있을지 고민하고 있었는데, KCCV를 통해 짧은 시간 정말 많은 연구와 연구자 선배들을 접하며 식견이 많이 넓어진 것 같다.
언젠가 나도 KCCV에서 발표할 수 있는 날을 꿈꾸며.