이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

전체 글

  • 컴퓨터와 수학, 몽상 조금
낭만 가득 유후인 여행 [공돌이의 나홀로 일본여행 1편]

낭만 가득 유후인 여행 [공돌이의 나홀로 일본여행 1편]

2023.09.03
두 번째 나 홀로 여행을 시작하며... 올해 3월, 생애 첫 혼자 여행을 다녀온 후로 나는 그야말로 나 홀로 여행 예찬론자가 되었다. 연구실 동료들, 가족들, 친구들... 만나는 사람마다 혼자 여행을 꼭 가보라고 귀에 딱지가 앉도록 권하고 다녔으며 삶이 힘들 때는 혼자 방문했던 제주에서의 추억을 되새기며 다음 여행을 꿈꾸었다. 내 첫 나홀로 여행 이야기는 이전 여행기에서 다루었으니 생략하겠지만 요컨대 나는 혼자 여행하며 오로지 스스로의 선택의 결과로 발생하는 모험을 겪으며 나를 둘러싼 복잡한 세상에서 벗어나는 경험을 하였고, 이 경험은 과장을 좀 보태자면 내 삶을 완전히 바꿔놓았기에, 이러한 경이로운 체험을 나만의 것으로 하기에는 너무나도 아쉬워 다른 이에게 권하지 않을 수가 없었던 것이다. 우리는 저마..
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring 리뷰 [CVPR 2023]

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring 리뷰 [CVPR 2023]

2023.09.01
CLIP과 같은 Image-text 사전학습 모델이 놀라운 visual representation learning 능력을 보여줌에 따라, 이를 Video에 적용하고자 하는 관심도 늘어났습니다. 이 논문에서는 CLIP 기반의 image-to-video knowledge transferring 관점에서 temporal modeling을 분석하여 image-text 사전학습 모델을 video 영역으로 확장하는 것을 다루고 있습니다. 기존에도 많은 연구들이 CLIP을 video retrieval이나 video action recognition과 같은 video understanding task에 적용하고자 하였는데요, 2D 이미지에서 학습된 CLIP 모델을 비디오에 적용하기 위해서는, CLIP의 visual b..
CLIP: Learning Transferable Visual Models From Natural Language Supervision 리뷰 [ICML 2021]

CLIP: Learning Transferable Visual Models From Natural Language Supervision 리뷰 [ICML 2021]

2023.08.24
이 논문은 최근 멀티 모달 열풍의 주역(?)이라고도 할 수 있는 CLIP을 제안한 논문입니다. 굉장히 분량도 많고 내용도 어려워서 약간 피하고 있었는데, 용기를 내어 읽어보고자 REVIEW에 도전하게 되었습니다. 논문이 27 페이지로 분량이 매우 긴데, 16페이지까지는 우리가 흔히 논문에서 볼 수 있는 Method, Expermients와 같은 내용이며 그 이후로는 심층적인 분석과 한계, CLIP의 영향에 대한 고찰 등이 담겨있습니다. 그럼, 리뷰 시작하겠습니다. Introduction 논문은 기존의 SOTA 컴퓨터 비전 모델들이 학습된 데이터셋에서 사전에 정의된 class들만을 이용하여 학습되기 때문에, 새로운 task를 적용하기 위한 활용성과 일반화 성능이 떨어지는 한계를 지적하며 시작됩니다. 예를 ..
1년차 학부연구생의 KCCV 2023 참관기

1년차 학부연구생의 KCCV 2023 참관기

2023.08.09
KCCV, Korean Conference of Computer Vision은 CVPR, ICCV를 비롯한 우수 컴퓨터 비전 학회에 논문을 제출한 뛰어난 한국 컴퓨터 비전 연구자들이 오럴 발표와 포스터 발표를 진행하는 학회이다. 학부 연구생으로 지낸 지 7개월 정도가 된 지금 시점에서 KCCV가 컴퓨터 비전 트렌드를 파악하고 우수한 논문들을 한국어로 배울 수 있는 좋은 기회가 될 것이라 기대하고 있었는데, 마침 감사하게도 연구실에서 KCCV에 갈 기회를 주셔서 다녀오게 되었다. 필자는 이전부터 Pycon, GTC Korea와 같이 한국에서 진행되는 학회에 참여하는 것을 즐기는 편이었는데, 코로나 이후 3년 이상을 오프라인 학회에 참여하지 못하였기에 정말 오랜만의 학회 참석이기도 하고, 컴퓨터 비전이라는 ..
Everything at Once - Multi-modal Fusion Transformer for Video Retrieval 리뷰 [CVPR 2022]

Everything at Once - Multi-modal Fusion Transformer for Video Retrieval 리뷰 [CVPR 2022]

2023.08.03
현재 연구실에서 Vision 기반의 Video to Video Retrieval 분야를 공부하고 있으나, 언젠가 Multi-modal로의 전환이 이루어질 것이라고 생각하기도 하고, 개인적으로도 관심이 있어 해당 분야의 논문을 탐색해 보았다. 이 논문은 MIT-IBM Watson AI Lab에서 나온 논문으로, 영상과 음성, 텍스트의 모달리티로부터 얻어진 토큰들을 트랜스포머를 통해 퓨전 하여 video retrieval을 수행한다. 영상만을 이용해 검색을 수행하는 Video Retrieval과는 사뭇 다르지만, 한번 읽어보자. 저자들은 HowTo100M이라는 유튜브에서 수집된 영상 데이터를 통해 비디오를 다음 3가지 모달리티로 정의합니다. 비디오에 포함된 프레임들의 시각적 정보, 영상 $v$ 비디오에 포함..
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 리뷰 (IJCV 2022)

DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 리뷰 (IJCV 2022)

2023.07.27
이 논문은 당시 Video Retrieval SOTA 모델인 ViSiL이 성능은 높지만, 매우 많은 연산을 요구하여 속도가 느린 점을 해결하고자 knowledge distillation과 Selector 모델을 활용한다. Video Retrieval에는 속도가 빠르지만 정확도가 떨어지는 video-level 방법(coarse-grained)과 속도가 느리지만 정확도가 높은 frame-level 방법(fine-grained)이 있는데, DnS는 먼저 video-level 모델 하나와 frame-level 모델 두 개를 student 모델로 두고, ViSiL을 teacher 모델 삼아 knowledge distillation을 수행한다. 그다음, 추론 단계에서 속도가 빠른 video-level student..
TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning 리뷰 (WACV 2021)

TCA: Temporal Context Aggregation for Video Retrieval with Contrastive Learning 리뷰 (WACV 2021)

2023.07.18
이 논문은 Video Retrieval에서 Self-attention 구조를 통해 장거리의 temporal information을 포함한 video representation을 생성하는 Temporal Context Aggregation (TCA) 방법을 제안한다. 저자들은 TCA 기법과 이를 위한 supervised contrastive learning을 통해 기존 STOA 모델 대비 약 17% 향상된 성능을 보였다. 저자들은 기존의 video retrieval 방법들이 video-level feature 기반이든 frame-level feature 기반이던 간에, 각 프레임을 하나의 이미지나 짧은 클립으로 다루는 경향이 중요하지 않은 장면이 반복적으로 등장할 수 있는 영상에서 멀리 떨어진 시간적 정보..
연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

연구 인생 첫 논문 서베이를 마치며 (서베이 팁)

2023.07.17
연구실에 들어온 지 7개월, 마침내(?) 말로만 듣던 첫 서베이를 수행하게 되었다. 서베이(survey)란 어떤 분야의 연구나 프로젝트를 본격적으로 시작하기에 앞서, 해당 분야의 선행 연구 논문들을 조사하고 정리하는 과정이다. 서베이를 통해 기존 기술의 수준과 연구 방향을 파악하고, 우리가 진행할 연구의 방향이나 목표 수준을 설정하게 된다. 예를 들어 내가 새로운 치킨 양념을 개발하고자 한다면, 먼저 기존에 어떤 맛의 양념이 유행인지, 양념의 정량적인 지표가 어디까지 달성되었는지 알아야 한다. 시장에서 달콤한 양념이 유행인데 뜬끔없는 짠 양념을 연구한다거나, 이미 3000 스코빌의 매운맛 양념이 개발되었는데, 2800 스코빌의 매운맛 양념을 개발한다면 연구가 주목받기 어려울 것이다. 혹은 기존에 어떤 기..
Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

Background Suppression Network for Weakly-Supervised Temporal Action Localization 리뷰 [AAAI 2020]

2023.07.04
이번 논문은 Weakly-Supervised Temporal Action Localization 분야의 논문으로, 무려 우리나라 연구진이 쓴 논문이다. 지금까지 많이 리뷰한 Temporal Action Localization (TAL)은 어떤 영상에서 어떤 액션이 등장하는 시간대와 액션의 종류를 찾아내는 task였다. 한편 이번에 리뷰할 Weakly-Supervised TAL (WTAL)은 같은 task에서 정답 라벨에 시간이 없이 액션의 클래스만 주어지는 task이다. 예를 들어 TAL에서 어떤 영상에 대한 라벨이 (2초~5초 다이빙)과 같이 주어졌다면, WTAL에서는 (다이빙)만 주어진다. 이러한 상황에서 당연히 액션이 일어난 시간까지 알아내도록 학습하려면 어려움이 따른다. 이 논문은 액션이 없는 b..
Vision Transformer 리뷰 (ViT)

Vision Transformer 리뷰 (ViT)

2023.06.29
2017년, 그야말로 혜성처럼 등장한 트랜스포머는 자연어 처리 분야의 모든 분야에서 놀라운 성능을 보여주며 그야말로 분야를 정복해 버렸다. 트랜스포머의 강점은 컴퓨팅의 효율성과 scalability에 있었다. 트랜스포머는 다른 모델에 비해 학습에 요구되는 연산량이 적었다. 또한, n개의 반복되는 인코더-디코더 구조로 구성되어 모델의 크기를 조절하기가 매우 용이했다. 덕분에 연구자들은 손쉽게 매우 큰 규모의 트랜스포머 기반 신경망을 설계할 수 있었으며, 트랜스포머 모델에서는 (데이터가 충분히 클 경우) 모델의 크기가 커짐에 따라 성능이 하락하는 saturation도 발생하지 않았다. 이러한 트랜스포머의 성공에 힘입어, 이미지를 다루는 컴퓨터 비전 분야에서도 트랜스포머나 셀프 어텐션 구조를 활용하려는 다양한..
내가 부족한 줄 아는 사람이 되자. [2023 하반기 계획]

내가 부족한 줄 아는 사람이 되자. [2023 하반기 계획]

2023.06.25
오랜만에 계획 글을 쓴다. 군대에 있을 때는 애초에 내가 계획하고 활용할 수 있는 시간이 얼마 없다는 핑계로 무계획의 삶을 살았지만, 이제 다시 목표지향적인 삶을 살아야지. 1학기를 보내며 연구실 일정 따라가랴, 수업 들으면서 학점 관리하랴 주어지는 과제들을 수행하며 살다 보니 내가 하고 싶었던 것들을 못 하거나, 해야 할 것들을 힘들단 핑계로 안 하기도 하였는데, 이런 부분도 이제 잘 계획해서 실천해 봐야겠다. 장기 목표: 척척 학사가 되자. 6개월간 연구실에 적응하고, 선배 연구원들을 보며 연구원으로써 가져야 할 자질에 대해 생각해 볼 수 있었다. 학사 졸업 후 본격적으로 석사 과정을 시작하기 앞서 남은 1년 6개월. 내 목표는 다음과 같은 요소를 체득하는 것이다. 연구 스스로 최신 논문 follow..
병장에서 연구원으로 [2023년 상반기 회고]

병장에서 연구원으로 [2023년 상반기 회고]

2023.06.25
전역, 연구실 합류, 개강을 거쳐 정신없이 살다 보니 어느새 3학년 1학기가, 2023년의 절반이 지나가 있었다. 어찌 보면 당연한 이야기겠지만, 지난 6개월을 보내며 내게 있어 가장 영향이 컸던 것은 단연 연구실일 것이다. 군대 2년, 코로나 1년으로 3년 만에 복귀한 대학교 대면수업을 따라가는 것도 쉬운 일은 아니었지만, 상상으로만 그려왔던 연구실에 실제로 들어가, 학부연구생의 한 학기를 보낸 낯선 경험에 비하면 정말 아무것도 아니었던 것이다. 좋은 것이든 나쁜 것이든 정말 많은 경험과 생각을 한 6개월이었고, 하루 빨리 회고를 쓰고 정리하고 싶어 기말고사 시험 기간이 끝나기를 손꼽아 기다렸다. 생각해 보면, 필자가 회고글을 작성하기 시작한 대학교 1학년 ~ 2학년에는 매번 뭔가 새로운 성과를 거두는..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • ···
    • 24
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (283)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (49)
      • 회고 & 계획 (20)
      • 내 이야기 (9)
      • 리뷰 (4)
      • 군대에 간 공돌이 (10)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / AXZ. © 백지오. Designed by Fraccino.

티스토리툴바