이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

Deep Learning

  • 컴퓨터와 수학, 몽상 조금
ImageBind: One Embedding Space To Bind Them All 리뷰

ImageBind: One Embedding Space To Bind Them All 리뷰

2023.05.16
이번 논문 리뷰는 최근 공개된 CVPR 2023 Accepted Paper이자 공개 직후 엄청난 관심(깃허브 스타 5000+)을 받고 있는 ImageBind입니다. 제가 연구해보고 싶었던 분야인 Multimodal Joint Embedding Space 분야를 연 논문이 아닌가 생각이 듭니다. 이런 게 나오려면 몇 년은 더 걸릴 줄 알았는데, 벌써 나오고 말았네요... 개인적으로 제가 읽어 본 논문들 중 가장 큰 충격을 받은 논문인 것 같습니다. 바로 리뷰 시작해 보겠습니다. 소개 딥러닝 모델들은 어떤 잠재 공간에 데이터를 임베딩하는 함수로 볼 수 있다. 이 벡터를 비교하여 분류나 회귀와 같은 문제를 풀 수도 있고, 이 벡터를 원래 데이터로 복원하는 모델을 통해 압축이나 생성, 변형 등 다양한 task를..
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 요약

2023.05.12
이전 VVS 리뷰글에 이어, 해당 논문을 다 읽고 더 쉽고 짧게 요약해보았습니다. 자세한 내용이 궁굼하신 분들은 이전 리뷰글을 참고해주시기 바랍니다. Introduction 영상 기반 비디오 검색(video-to-video retireval)은 어떤 쿼리 영상(query)이 주어지면, 수많은 영상들로 구성된 데이터베이스(DB)에서 해당 쿼리와 유관한 영상들을 찾아내는 task이다. 주어진 쿼리 영상과 DB 속 영상들을 영상 서술자(video descriptor)라는 벡터 형태로 변환한 후, 쿼리 영상의 서술자와 유사한 순서로 DB 속 영상들을 정렬하여 유사도가 가장 높은 영상들을 검색 결과로 삼는 것이다. 즉, 비디오 검색의 핵심은 "유사한 영상들이 유사한 서술자 벡터를 갖고, 유사하지 않은 영상들이 유..
VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 리뷰

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression 리뷰

2023.05.01
대규모 데이터를 다루는 콘텐츠 기반 비디오 검색(CBVR) 연구에서 효율성은 정확도만큼이나 중요하다. 그렇기에 지금까지 많은 Video-level feature 기반 연구가 진행되었지만, 긴 영상을 자르지(trim) 않고 하나의 feature로 만드는 것의 어려움으로 인해 지금까지는 Frame-level feature 기반 연구에 비하여 충분한 성과가 없었다. 이 논문에서, 저자들은 서로 무관한 프레임들을 적절히 suppression 하는 것이 video-level feature 기반 연구의 한계를 극복할 단서가 될 수 있음을 보이며, 나아가 Video-to-Video Suppression network(VVS)를 해법으로 제시한다. Introduction 정보 검색(Information Retrieva..
Video-to-Video Retrieval 맛보기

Video-to-Video Retrieval 맛보기

2023.05.01
이 글은 다음 논문들의 내용을 조금씩 포함합니다. 제목을 클릭하면 각 논문의 자세한 리뷰를 볼 수 있습니다. Near-Duplicate Video Retrieval by Aggregating Intermediate CNN Layers Near-Duplicate Video Retrieval with Deep Metric Learning ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning What is Video Retrieval? Video Retrieval은 직역하면 영상 검색으로, 가지고 있는 전체 영상들의 DB에서 검색을 위해 제시된 쿼리(query)와 유사한 영상들을 찾아내는 Task이다. 쿼리는 다양한 형태로 주어질 수 있는데, 만약 쿼리..
ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning 리뷰

ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning 리뷰

2023.04.04
이 논문은 2019년 ICCV에 개제 된 논문으로, Video Retrieval 문제를 해결하기 위한 기존 모델들이, 프레임 전체, 때로는 영상 전체를 하나의 벡터로 임베딩하여 시공간적 정보를 잃었던 것과는 달리, 시공간적 정보를 세세하게 고려하는 영상 유사도 학습 구조를 제안한다. 이 CNN 기반 모델은 프레임 간 유사도로부터 비디오 간 유사도를 구하게 되는데, 이를 통해 각 영상 내부적(intra)인 정보와 영상 사이(inter)의 정보 모두를 고려한다. ViSiL 모델에서 각 프레임 쌍의 유사도는 CNN feature frame에 대한 텐서 닷 연산(Tensor Dot, TD)과 Chamfer Similarity(CS)를 통해 구해지는데, 이를 통해 feature들이 aggregation 되기 전에..
Near-Duplicate Video Retrieval with Deep Metric Learning 리뷰

Near-Duplicate Video Retrieval with Deep Metric Learning 리뷰

2023.03.30
이 논문은 Deep Metric Learning(DML)을 활용한 효과적인 유사-중복 영상 검색(Near-Duplicate Video Retrieval, NDVR) 방법을 제안한다. 개발과 평가 과정 모두에서 같은 데이터셋으로부터 추출된 정보를 사용하는 2017년 당시 기존 SOTA 모델들과 달리, 이 논문에서는 별도의 데이터셋에서 triplet으로 학습된 모델에, 흔히 사용되는 CC_WEB_VIDEO 데이터셋을 이용하여 평가를 진행한다. 저자들은 AlexNet과 GoogleNet 구조를 활용하여 실험을 진행하였고, 평가 데이터셋을 학습에 사용하지 않고도 SOTA를 달성하였다. 저자들은 기존의 NDVR 연구들이 특정 데이터셋에서 학습과 평가가 동시에 이루어져, 다른 데이터셋에서의 평가 성능이 좋지 않음을..
Near-Duplicate Video Retrieval by Aggregating Intermediate CNN Layers 리뷰

Near-Duplicate Video Retrieval by Aggregating Intermediate CNN Layers 리뷰

2023.03.29
유사 중복 동영상 검색(Near-duplicate video retrieval, NDVR)은 카메라 앵글, 인코딩 방식과 같이 아주 작은 차이만 존재하고 사실상 같은 영상을 검색하는 task로, 인터넷의 발전에 따른 동영상 콘텐츠의 증가에 따라 중요하게 관심받는 분야 중 하나이다. NDVR task를 정의하는 다양한 방법이 있지만, 이 논문에서는 NDVR을 다음과 같이 정의한다. 유사 중복 영상은 원본 영상과 동일한, 혹은 거의 동일한 영상이지만, 파일 포맷, 인코딩 속성, 영상학적인 차이(색조, 광량 등), 영상 편집(자막, 로고, 외곽선 등), 영상 길이와 같은 영역에서 차이가 있는 영상을 말한다. 이 논문은 2017년, 당시 CNN의 성공에 힘입어 영상 검색 문제에 CNN 중간의 feature를 활..
R-MAC: Particular Object retrieval with Integral Max-Pooling of CNN Activations 리뷰

R-MAC: Particular Object retrieval with Integral Max-Pooling of CNN Activations 리뷰

2023.03.28
이 논문은 2016년 ICLR에 개제 된 논문으로, Image Retrieval Task에 기존에 사용되던 BoVW 등의 Handcrafted 방법론들 대신, CNN 기반의 R-MAC이라는 새로운 방법론을 적용하여 높은 성능을 달성한 논문이다. 이 논문 이전의 이미지 검색 task에서는 2003년 등장한 Bag-of-Words 기반의 방법론들이 주로 활용되었다. 이들 방법론에서는 이미지에서 특징점들을 추출하여, 이 특징점들을 고정된 크기의 벡터로 만든다. 쿼리 이미지의 벡터와 데이터베이스에 있는 이미지들의 벡터 간의 유사도를 구하여, 유사도가 높은 순서로 re-ranking을 거치면 검색 결과를 얻을 수 있는 것이다. 2013년, Donahue et al.이 합성곱 신경망(CNN)의 중간 계층의 활성화 ..
Retrieval Task와 Metric Learning

Retrieval Task와 Metric Learning

2023.03.24
Retrival은 검색이라는 뜻으로, 입력된 쿼리(query)와 가장 유사한 샘플을 데이터베이스(DB)로부터 찾는 Task이다. Query와 DB의 종류에 따라 여러가지로 분류할 수 있는데, Text to Video Retrieval, Video to Video Retrieval과 같이 다양한 조합이 있을 수 있다. 우리가 흔히 사용하는 유튜브 검색은 단순히 생각하면 Text to Video라고 볼 수 있지만, 사실 검색에 영상과 텍스트 정보 뿐 아니라 메타 데이터를 비롯한 다양한 정보가 활용되므로 Multimodal Video Retrieval이라 할 수 있겠다. Metric Learning 머신러닝 모델을 통해 우리는 어떤 데이터를 어떤 parameter space에 임베딩하게 된다. Retrieva..
ResNet: Deep Residual Learning for Image Recgnition 리뷰

ResNet: Deep Residual Learning for Image Recgnition 리뷰

2023.03.21
ResNet은 2015년 ILSVRC와 COCO 대회에서 1등을 차지한 모델로, 대표적인 초창기 딥러닝 기반 컴퓨터 비전 모델 중 하나이다. 연구진은 학습시키기 어렵지만 유용한 깊은 신경망을 효과적으로 학습시키는 방법을 제안하여, 기존에 흔히 사용되던 VGG 모델보다 깊으면서도 복잡도는 더 낮은 ResNet 모델을 제안한다. ResNet은 이미지의 복잡한 정보를 뽑아낼 수 있도록 매우 깊은 신경망을 만들면서도, 동시에 학습을 쉽게 유지하여 많은 데이터와 task에서 우수한 성적을 거두었다. 신경망의 깊이와 특성의 수준 딥러닝 기법은 다계층 구조를 통해 자연스럽게 저수준/중간수준/고수준의 다양한 수준(level)의 특성들을 학습한다. 특히 신경망을 더욱 깊게 함으로써 이러한 다양성을 더욱 풍부하게 할 수 ..
Vector of Locally Aggregated Descriptors (VLAD) 소개

Vector of Locally Aggregated Descriptors (VLAD) 소개

2023.03.14
VLAD는 BOF 기반(BoVW) 방법론들을 개선하여 더 적은 연산과 메모리 사용량으로 높은 성능을 낼 수 있는 handcrafted feature descriptor 생성 방법으로, Aggregating local descriptors into a compact image representation라는 논문에서 소개되었다. 이전 BOF 기반 방법과 유사하면서도, Histogram을 이용하지 않고 SIFT 등으로 뽑아낸 descriptor vector를 누적하는 방법을 사용하여 성능이 향상되었다. VLAD를 소개한 논문에서는 이외에도 quantization 등의 방법을 통해 연산량과 메모리 사용량까지 줄였는데, 이번 글에서는 VLAD를 통한 이미지의 표현 방법에 집중해보겠다. Extracting Loca..
Bag of Visual Words (BoVW)

Bag of Visual Words (BoVW)

2023.03.10
Bag of Visual Words는 딥러닝 이전 컴퓨터 비전 분야에서 흔히 활용되던, handcrafted feature 기반 방법론이다. 원래 NLP 분야에서 활용되던 Bag of Words(BoG) 기법에서 영감을 받은 방법인데, 이해가 쉬워서 먼저 NLP의 원조 BoG 방법을 간단히 소개해보겠다. 예를들어, 어떤 글이 어떤 주제의 이야기를 하고 있는지 알고 싶다고 하자. 글의 단어들(Words)이 등장하는 빈도를 세어보면, 대략 어떤 이야기를 하고 있는지 유추할 수 있다. "메모리", "공간 복잡도", "컴퓨팅", "계산" 등의 단어가 높은 빈도로 등장한다면 어렵지 않게 글의 주제가 컴퓨터임을 알 수 있을 것이고, "캔버스", "유화", "구도", "추상화" 등의 단어가 자주 등장한다면 글의 주제..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (279) N
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (45) N
      • 회고 & 계획 (17)
      • 내 이야기 (9)
      • 리뷰 (3)
      • 군대에 간 공돌이 (10) N
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바