연구 인생 첫 논문 서베이를 마치며 (서베이 팁)
연구실에 들어온 지 7개월, 마침내(?) 말로만 듣던 첫 서베이를 수행하게 되었다.
서베이(survey)란 어떤 분야의 연구나 프로젝트를 본격적으로 시작하기에 앞서, 해당 분야의 선행 연구 논문들을 조사하고 정리하는 과정이다. 서베이를 통해 기존 기술의 수준과 연구 방향을 파악하고, 우리가 진행할 연구의 방향이나 목표 수준을 설정하게 된다.
예를 들어 내가 새로운 치킨 양념을 개발하고자 한다면, 먼저 기존에 어떤 맛의 양념이 유행인지, 양념의 정량적인 지표가 어디까지 달성되었는지 알아야 한다. 시장에서 달콤한 양념이 유행인데 뜬끔없는 짠 양념을 연구한다거나, 이미 3000 스코빌의 매운맛 양념이 개발되었는데, 2800 스코빌의 매운맛 양념을 개발한다면 연구가 주목받기 어려울 것이다.
혹은 기존에 어떤 기술의 지표가 50%까지 달성되었는데, 갑자기 내가 90%를 목표로 연구를 시작한다면 굉장히 어려운 일이 될 것이다.
즉, 서베이는 앞으로 본격적인 연구나 작업을 시작하기에 앞서 반드시 진행해야 하면서, 정확히 수행해야 하는 작업인 것이다.
각설하고 필자는 앞서 말한 것처럼, 지난 주 연구 인생 첫 서베이를 경험하게 되었다. 이번 글에서는 첫 서베이를 수행하며 필자가 알게 된 서베이 방법을 정리하고, 간단한 소감을 나눠보고자 한다.
서베이의 시작: 조사할 요소 결정하기
서베이를 하라고 해도, 논문에서 어떤 것들을 정리해야 할지부터 난관이다. 수십 편의 논문들을 하나하나 깊이 이해하고 요약하고 있을 수도 없고... 먼저 조사할 요소들을 결정하고 액셀 시트를 생성해야 한다.
기본적으로는 논문의 제목, 학회나 학술지, 발행연도와 같은 기본 정보가 들어가야 할 것이다.
이 외에는 서베이의 목적에 따라 달라지겠지만, 필자는 논문의 한줄 요약, 성능 지표, 소스코드 공개 여부 등을 기록하였다.
웬만하면 처음부터 조사할 요소를 확실히 잘 정해야 편하다. 만약에 중간에 새로운 요소가 추가되면, 지금까지 읽은 논문 죄다 다시 읽어야 한다.
논문 찾기
이제 본격적인 논문 조사 시작이다. 사실 논문을 찾는 것이야말로 서베이의 전부이고, 각자만의 방법이 있겠지만, 여기서는 필자가 사용한 방법과 선배들이 알려준 방법을 정리해 보겠다.
먼저, 해당 분야에서 가장 유명하고 영향력 있는 논문에서 시작해 보자. 구글에 찾고자 하는 분야를 영어로 검색하면 (아주 마이너 한 분야가 아니라면) 어렵지 않게 인용수가 높고 영향력 있는 논문(SOTA 논문)을 찾을 수 있을 것이다. 혹은 관련된 학회나 학술지 홈페이지에서 해당 분야를 검색해 보는 것도 좋다.
이 논문의 Related Work 문단으로 가본다. 좋은 논문이라면 이전 연구의 흐름이 어느 정도 보이게 정리되어 있을 것이다. 여기에서 인용된 논문들을 모조리 들어가 본다. 서베이를 진행하면서, 중요한 논문이다 싶은 논문에서는 모두 이렇게 Related Work 털기를 진행한다.
어느 정도 과거까지 이런 식으로 Related Work를 털면, 해당 분야의 큰 흐름은 어느 정도 잡힌다.
구글 스칼라와 cite.gg라는 웹 서비스를 이용하면 내가 보고 있는 논문에서 인용했거나, 이 논문을 인용한 논문을 쉽게 찾을 수 있다.
데이터셋 털기
이건 AI 분야에 조금 한정되는 이야기인데, 아마 다른 연구 분야에서도 비슷하게 적용할 방법이 있으리라 생각된다.
어떤 연구 분야든 성능의 기준이 되는 지표와, 이를 측정하는 데 사용되는 대표적인 실험 방식(데이터셋)이 있을 것이다.
이 기준을 제시한 논문을 찾아 들어간다. 그리고 그 논문을 인용한 논문들을 턴다.
서베이 주의사항
서베이를 처음 진행하면서, 실수하고 수습하면서 배운 주의사항들을 공유한다.
- 모르는 요소는 최선을 다해서 찾는다.
- A 논문에 설명이 부족하다고 실망하지 말자. A 논문을 인용하거나 A 논문이 인용한 논문에 실험이나 설명이 있기도 하다.
- 그래도 모르겠으면 차라리 모르겠다고 하자.
- 만약 내 멋대로 써놨다가 그게 잘못된 정보이고, 그걸 기준으로 과제 목표를 설정했다면 대재앙이 발생할 수도 있다.
- 힘들게 찾은 정보에는 간단히 메모를 남기자.
- 나중에 이거 어디서 봤는데... 하지 말고 기록해 놓자.
- 귀찮아도 꼼꼼히 확인하자.
- 애매한 거 대충 적고 넘어갔다가 전체 재조사를 3번 정도 해보면 깨닫는다...
정리하고 보면 참 단순한데, 실제로 처음 서베이를 진행하려니 논문을 수십 편씩 들여다보는 것이 생각보다 오래 걸리고 힘들어서 고생을 참 많이 했다. 집중력이 계속 흐려져서 스트레스도 많이 받고, 무심코 대충 했다가 재조사하게 되면서 멘탈도 터져보고...
논문도 항상 선배나 교수님께서 추천해 주신 맛있는 논문만 읽다가 직접 찾아보려니 어찌나 힘들던지... 논문을 다 찾았다고 생각했는데, 찾아도 찾아도 계속 새로운 논문이 튀어나오는 것도 참 신기하더라... 처음에 서베이를 다 했다고 생각했을 때 논문이 20편이었는데, 선배들이 계속 더 찾아보라 하셔서 더 찾다 보니 40편이 넘었다.
아무튼 1주일을 무한 논문 지옥에서 구른 끝에, 인생 첫 서베이를 어찌어찌 마쳤다. 물론 아직 완벽한 것은 아니지만, 그래도 이제 서베이를 하는 법은 얼추 알았다고 할 수 있겠다.
다음 서베이는 잘할 수 있을 것 같은 자신감이 들면서도, 앞으로 한 달은 서베이는 쉬고 싶다는 생각이 든다.
참 부족한 후배의 첫 서베이를 짜증 한번 없이 끝까지 이끌어주신 연구실 선배님께 정말 감사드린다...
혹시 이 글을 읽고 서베이를 시작하실 새내기 연구원이 있다면, 파이팅을 전한다.