이 영역을 누르면 첫 페이지로 이동
컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

페이지 맨 위로 올라가기

컴퓨터와 수학, 몽상 조금

컴퓨터공학, 딥러닝, 수학 등을 다룹니다.

전체 글

  • 컴퓨터와 수학, 몽상 조금
Less is More: Accurate Speech Recognition & Translation without Web-Scale Data (Canary)

Less is More: Accurate Speech Recognition & Translation without Web-Scale Data (Canary)

2025.04.11
2024년 6월 arxiv, Interspeech 2024NVIDIA Santa Clara대규모 데이터, 학습 시간을 요구하는 Transformer Attention Encoder-Decoder (AED) 구조의 기존 Automatic Speech Recognition 모델들보다 효율적으로 학습한 Canary 모델 제안Whisper, Seamless, OWSM을 위시한 기존 모델들은 autoregressive 구조로 inference time이 길고, 학습 단계에서 엄청난 양의 데이터와 시간을 요구함. 학습 자원이 상세하게 공개된 OWSM은 64 A100 40G에서 16일간 180k 시간의 데이터를 사용하여 학습하였는데, Whisper 등 다른 모델은 OWSM보다도 대규모로 학습된 것으로 추정됨.특히, ..
그대 오늘 어떤 기분이신가요

그대 오늘 어떤 기분이신가요

2025.02.09
아침에 일어나 간단한 간식을 먹고, 컴퓨터를 켠다.언젠가 내가 하기로 결정한, 수일에서 수십 일째 계속하고 있지만, 막상 어제와 크게 다르지 않은 것 같은 일을 하고,집중력이 떨어질 때쯤 점심을 먹는다.캘린더를 보니 저녁 약속이 있는 날이라, 조금 더 일하다가 가방을 챙겨 밖으로 나간다.일정이 있는 것 보니 벌써 주말이구나, 속절없이 흐르는 시간에 아찔하다.내가 나라는 것을 깨닫고 느끼기 시작했을 때, 난 이미 학생이었다.아침에 일어나 때로는 걸어서, 때로는 버스를 타고 학교에 가고때로는 6시에, 때로는 8시에, 때로는 10시 넘어 집에 돌아왔다.스무 살이 되고 12시가 넘어 집에 들어가도 혼나지 않게 되었을 때,군복을 입고 집이 아니라 부대로 복귀하게 되었을 때,때때로 내 삶이 송두리째 바뀐 것만 같은..
도쿄 스페셜티 커피 기행

도쿄 스페셜티 커피 기행

2025.01.23
국내에서 5년간 스페셜티 커피를 즐기며 이제 국내의 웬만한 유명 커피숍은 대부분 정복했다는 생각이 들던 찰나, 도쿄 여행을 가게 되어 스페셜티 강국인 일본의 카페를 탐험해 볼 수 있었다. 도쿄에서 보낸 5일간 9곳의 스페셜티 전문점을 방문하며 커피 탐험을 즐겼다.우리와 비슷하면서도 다른 일본의 스페셜티 전문점들을 방문하며 마음에 들었던 6개 카페를 중심으로 도쿄의 커피 문화를 소개드리고자 한다.스페셜티 전문점 방문 전 소소한 TIP후술할 대부분의 카페가 유명세에 비하여 작은 규모로, 붐비는 시간대에는 1시간 이상의 대기가 발생하는 일이 예사였다. 또한 일부 카페는 주중 3-4일, 10시~18시와 같이 적은 시간만 오픈하기는 등 주 6~7일, 아침 일찍부터 밤늦게까지 영업하는 한국의 카페와는 꽤나 다른 모..
Singularity [2025년 계획]

Singularity [2025년 계획]

2024.12.22
특이점이 온다.2024년 12월, 대학 졸업과 인턴 종료, 탄핵 정국, 경제 위기까지 불확실성으로 가득찬 미래에 단 하나 명확한 사실은 특이점이 온다는 것뿐이었다.IMF 이후 최고 수준의 경제적, 지정학적 불확실성, 말 그대로 하루 단위로 발전하는 기술, 더 이상 학생이 아닌 성인으로서 고민해야 하는 것들까지 온 세상이 나에게 질문을 던지는 가운데, 숨이 막힐 듯한 혼란과 고민 속에서 유일하게 변하지 않은 생각은 어떤 결정을 내리든 내 삶이 지금까지와는 완전히 달라지는 격동의 시간을 보내게 될 것이란 점이었고, 이는 또 하나의 질문이 되어 내 사고를 마비시켰다.내가 무엇을 바라는지, 어떤 선택지를 갖고 있는지, 앞으로 어떤 일들이 벌어질지에 대한 것도 모른 채, 사실상 사고가 정지한 상태로 3주 정도의 ..
내일, 내 눈이 멀어버린다면.

내일, 내 눈이 멀어버린다면.

2024.09.05
너 당장 대학병원 가야 돼. 조금 있으면 눈먼다.내 인생에 이런 이야기를 들을 날이 올 줄은, 그것도 이렇게 빨리 올 줄은 몰랐다.2024년 3월, 만 23세의 봄날이었다.봄바람도 좋고, 대학생활의 막바지도 즐길 겸 렌즈라도 맞춰볼까 해서 방문한 안과에서 선생님의 권유에 가벼운 마음으로 받은 검사였다.매끈한 검사 장비에 얼굴을 가져다 대고 내 눈을 유심히 들여다보시는 선생님의 표정이 세상 진지하시기에, 장난스럽게 "안 좋은 거예요?"라고 물었는데, 정말 안 좋은 소식일 줄이야.이름도 생소한, 망막 열공필자의 전공은 컴퓨터 비전(Computer Vision)이라는 분야로, 쉽게 말해 컴퓨터가 세상을 보고 이해할 수 있게 하는 기술을 연구하는 분야이다. 덕분에 카메라가 어떻게 동작하는지, 물체에 반사된 빛이..
Llama 3.1 Vision Language Model 관련 요약 (Llama 3-V)

Llama 3.1 Vision Language Model 관련 요약 (Llama 3-V)

2024.08.19
지난 7월 23일, Meta의 Llama 3.1이 공개되었습니다. 405B 규모의 오픈소스 프래그십 모델과 함께 다양한 학습 디테일을 담은 90 페이지 분량의 논문이 공개되었는데, 오늘은 아직 모델은 공개되지 않았지만 논문에서 앞서 소개하고 있는 Vision Language Model 관련 부분을 정리해 보았습니다.Vision adapter 도입일반적인 언어 모델은 대규모 언어 데이터에서의 사전 학습과 목적에 맞는 데이터에서의 사후 학습 2단계로 구성됩니다. Llava를 비롯한 Vision-Language Model (VLM)들은 여기에 사전학습된 Vision Encoder를 가져오고, Vision Encoder가 생성하는 visual token을 language model이 이해할 수 있도록 투영하는 ..
AI 학사 취업, 왜 어려울까? [ML 엔지니어 도전기 1편]

AI 학사 취업, 왜 어려울까? [ML 엔지니어 도전기 1편]

2024.05.30
필자는 나름 개발, 특히 AI 분야에 잔뼈가 굵은 이른바 "중고 신입"에 가깝다고 생각한다. 고등학생 때 프로그래밍을 시작하여 웹 개발과 앱 개발을 두루 경험했고, 인서울 대학의 컴퓨터공학과에 진학하여 1학년 때부터 교내외의 대회를 휩쓸고 다녔다. 군대에서조차 SW 개발병으로서 컴퓨터 앞에 앉아 일하고, 그 와중에 군 해커톤에서 입상하거나, 군부대에서 컨퍼런스를 개최하기도 하는 등 쉼 없이 달려왔고, 전역한 지 한 달도 지나지 않아 자대의 컴퓨터 비전 연구실에 학부 연구생으로 들어가 1년간 바쁘게 연구 경험을 쌓았다. 컴퓨터공학에 발을 들이고 9년, 숱한 실패와 약간의 성취를 맛보며, 나름 열심히 살아왔다고 자부하는 나였다.그런데, 취직이 안된다.호기롭게 취업 도전을 시작한 지 2개월, 면접은커녕 서류 ..
Knowing Where to Focus: Event-aware Transformer for Video Grounding 리뷰 [ICCV 2023]

Knowing Where to Focus: Event-aware Transformer for Video Grounding 리뷰 [ICCV 2023]

2024.03.24
오늘 리뷰할 논문은 Fully Supervised Moment Retrieval 논문입니다. 이미 몇 차례 소개드린 적이 있지만, moment retrieval은 논문이나 데이터셋에 따라 Temporal Senctence Grounding in Video라고 부르기도 하고, Video Grounding이라고도 하는데요. 결국 자연어 텍스트 쿼리를 이용해 영상 속에서 해당하는 영역을 찾는 task라고 생각하시면 되겠습니다. Moment retrieval은 어떤 영상 속에서 시작점과 끝점이 있는 영역인 moment를 찾고자 한다는 점에서 이미지 전체에서 어떤 물체의 위치를 특정(localize)하고자 하는 object detection과 유사한 점이 있습니다. 기존의 moment retrieval 방법들은 ..
거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로

거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로

2024.03.12
오늘날 거대 언어 모델(Large Language Models; LLM)은 기술의 최첨단부터 일반 사용자까지 사회 전반에 영향을 주고 있습니다. ChatGPT의 사용자수는 이제 1억 8천만 명에 달하며, CVPR 2024에 공개된 논문 중 LLM 관련 단어가 제목에 들어간 논문만 40편에 달합니다. NVIDIA의 CEO 젠슨 황은 한 인터뷰에서 2023년 AI 분야의 가장 큰 성과가 LLaMA2라고 발언하기도 했습니다. 이제 더 이상 "내 연구분야와는 다른 분야니까"라고 치부하기에는 LLM의 영향력이 커지고 있는만큼, 지금까지 LLM의 발전을 간단히 되짚어보고, CloseAI 형태로 전환한 GPT를 대체할만한 오픈소스 LLM인 LLaMA를 정리해 보도록 하겠습니다. 본 글은 Zhao et al.의 A S..
Weakly Supervised Temporal Sentence Grounding with Gaussian-based Contrastive Proposal Learning 리뷰 [CVPR 2022]

Weakly Supervised Temporal Sentence Grounding with Gaussian-based Contrastive Proposal Learning 리뷰 [CVPR 2022]

2024.03.10
오늘 리뷰할 논문은 Weakly Supervised Temporal Sentence Grounding을 수행한 논문입니다. Temporal Sentence Grounding은 어떤 영상에서 주어진 자연어 형태의 쿼리와 연관된 moment를 찾는 task로 moment retrieval이라고도 하는데요, 여느 video understanding task와 마찬가지로 이러한 task를 fully supervised로 풀기 위해 요구되는 temporal annotation은 상당히 costly 하기에 이러한 라벨 없이 task를 수행하고자 하는 약지도학습 기반의 방법이 연구되었습니다. 특히 이 논문 이전의 weakly-supervised 연구들은 sliding window 방식으로 proposal을 생성하고 ..
An Information-Theoretic Understanding of Maximum Manifold Capacity Representations 리뷰 [NeurIPS 2023 Workshop]

An Information-Theoretic Understanding of Maximum Manifold Capacity Representations 리뷰 [NeurIPS 2023 Workshop]

2024.03.03
오늘 리뷰할 논문은 이전 리뷰에서 소개했던 multi-view self-supervised learning (MVSSL) 방법론인 Maximum Manifold Capacity Representation (MMCR)을 정보 이론 관점에서 분석한 논문입니다. 논문 자체는 매우 짧은 내용이지만 내용에 증명이 많고, MMCR에 대한 이해가 전재되다 보니 리뷰는 조금 상세하게 풀어보겠습니다. MMCR은 NIPS 2023에서 제안된 멀티 뷰 기반의 자기지도학습 방법론으로, 두 가지 이유에서 주목받고 있습니다. 기존 MVSSL 방법과는 완전히 다른 방식을 사용합니다. (논문에서는 oddity in the zoo라고 표현하네요) 기존 MVSSL 방법론들이 거의 대부분 contrastive learning이나 mask..
Efficient Coding of Natural Images using Maximum Manifold Capacity Representations 리뷰 [NIPS 2023]

Efficient Coding of Natural Images using Maximum Manifold Capacity Representations 리뷰 [NIPS 2023]

2024.02.21
오늘 리뷰할 논문은 뉴욕대학교의 정수연 교수님 연구팀이 발표한 Self-Supervised Representation Learning 방법인 Maximum Manifold Capacity Representation (MMCR)에 대한 논문입니다. 정수연 교수님 연구팀은 코어 ML을 연구하는 연구진 중에서도 뇌과학과 신경망 매니폴드 기반의 접근에 일가견이 있는 연구진인데요. 본 논문에서 제안한 MMCR은 우리가 흔히 아는 SimCLR, SimSiam 등 기존의 SSL 방법들과 완전히 다른 접근 방식으로 강력한 성능을 보여주어, 많은 관심을 받았습니다. 특히 얀 르쿤 교수님 연구진도 NIPS 2023과 함께 진행된 UniReps 워크샵에서 이 방법론에 대한 분석을 진행할 정도라, 과연 어떤 연구일까 궁금하여..
  • 최신
    • 1
    • 2
    • 3
    • 4
    • ···
    • 23
  • 다음

정보

컴퓨터와 수학, 몽상 조금 블로그의 첫 페이지로 이동

컴퓨터와 수학, 몽상 조금

  • 컴퓨터와 수학, 몽상 조금의 첫 페이지로 이동

검색

메뉴

  • 홈
  • 태그
  • 방명록

카테고리

  • 분류 전체보기 (276)
    • Tech Trend (3)
    • Deep Learning (77)
      • 공부 노트 (21)
      • 논문 리뷰 (44)
      • 논문 스키밍 (1)
      • 영상처리 (11)
    • Engineering (3)
      • Tips (2)
      • Experiences (1)
    • Blog (42)
      • 회고 & 계획 (16)
      • 내 이야기 (8)
      • 리뷰 (3)
      • 군대에 간 공돌이 (9)
      • ML엔지니어 취업 도전기 (1)
      • 여행 (4)
    • 학부 수업 (141)
      • 머신러닝 (16)
      • C프로그래밍 (8)
      • 자료구조 (11)
      • 알고리즘 (17)
      • 디지털시스템 (25)
      • 컴퓨터구조 (11)
      • 확률과 통계 (21)
      • 선형대수학 (14)
      • 이산수학 (18)
      • 데이터시각화 (0)
    • 강의 (9)
      • 딥러닝 기초 (7)
      • Python (2)

공지사항

인기 글

정보

백지오의 컴퓨터와 수학, 몽상 조금

컴퓨터와 수학, 몽상 조금

백지오

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
반응형

나의 외부 링크

  • profile
  • github
  • linkedin

방문자

  • 전체 방문자
  • 오늘
  • 어제
Powered by Tistory / Kakao. © 백지오. Designed by Fraccino.

티스토리툴바