필리포의 달걀
오늘 ImageBind 논문을 읽었다.
그리고 두근거림이 멈추지 않는다. 등 뒤로 식은땀이 비 오듯 흐른다. 손이 떨려서, 뭐라도 적지 않으면 가슴이 터질 것 같아서 글을 쓴다.
이 논문은 딥러닝, 그중에서도 요즘 핫한 생성형 모델(그림이나 텍스트를 생성하는)이나 검색 등, 임베딩 관련된 분야를 연구하는 사람들이라면 한 번쯤 꿈꾸었을, 궁극의 임베딩 공간을 만드는 방법을 소개한 논문이다.
쉽게 설명하면, 이 세상에는 정말 다양한 데이터가 있다. 우리는 오감을 통해 세상의 데이터를 받아들이고, 어떤 단어로 그 데이터를 인지한다. 이게 바로 임베딩이다. 붉은 과일의 모양과 새콤달콤한 맛을 느끼고 사과를 떠올리는 것.
그런데 인공지능에게는 이게 어렵다. 붉은 과일을 사과로 분류하게 할 수는 있다. 새콤 달콤한 맛을 apple로 정의할 수 있다. 그런데 도무지 이 맛과 모양을 모두 "사과"라는 공통된 무언가로 정의하지를 못 했다.
ImageBind는 이렇게 다양한, 구체적으로는 이미지, 텍스트, 비디오, 열화상, IMU(센서의 일종이다) 데이터를 하나의 공통 개념(벡터)으로 묶는다.
내가 지난 몇 년간 꿈꿔왔던, 마침내 연구실에 다니며 곧 발견할 수 있으리라 믿었던 목표를 누군가 먼저 해내고 말았다. 흔한 일이다.
오히려 좋아. 이걸 기반으로 어서 개선해서 더 좋은 모델을 만들어보자.
나는 설렘을 안고 ImageBind 논문을 읽기 시작했다.
과연 미국의 천재들은 어떻게 이 문제를 풀었을까?
와. 무섭도록 심플하다.
Methodology가 채 1 페이지를 가득 채우지 않는다.
기반 개념이 어려운 것도 아니다.
InfoNCE Loss, Contrastive Learning...
어제오늘 아무렇지 않게 들여다보던 것들이다.
저자들은 이것들을 이용해서 식을 몇 줄 보여주고, 이게 무슨 의미인지, 어떻게 확장 가능한지 설명한다.
와.. 이걸 이렇게 접근한다고?
그런데 이게 끝이야...?
숨 막힌다.
소름이 돋는다.
필리포가 달걀을 똑바로 세우는 것(콜럼버스의 달걀이라 와전된 이야기이다.)을 1열에서 바라본 기분이다.
간단하고 직관적인 수식과 그것이 동작하게 하는 세상이 압도적으로 느껴진다.
이 문제에 온갖 복잡하고 근거 없는 가설들을 세우고, 몇 년이면 풀 수 있으리라 생각한 지난날들이 한없이 부끄럽고 작아진다.
이제 말문이 막힌다.
와, 이거 몇 주는 가겠다.
감히 나도 언젠가, 이런 충격을 줄 수 있는 사람이 되기를 꿈꾼다.