An Information-Theoretic Understanding of Maximum Manifold Capacity Representations 리뷰 [NeurIPS 2023 Workshop]
오늘 리뷰할 논문은 이전 리뷰에서 소개했던 multi-view self-supervised learning (MVSSL) 방법론인 Maximum Manifold Capacity Representation (MMCR)을 정보 이론 관점에서 분석한 논문입니다.
논문 자체는 매우 짧은 내용이지만 내용에 증명이 많고, MMCR에 대한 이해가 전재되다 보니 리뷰는 조금 상세하게 풀어보겠습니다.
MMCR은 NIPS 2023에서 제안된 멀티 뷰 기반의 자기지도학습 방법론으로, 두 가지 이유에서 주목받고 있습니다.
- 기존 MVSSL 방법과는 완전히 다른 방식을 사용합니다. (논문에서는 oddity in the zoo라고 표현하네요) 기존 MVSSL 방법론들이 거의 대부분 contrastive learning이나 masked image modeling, clustering, distillation 등의 기법으로 분류할 수 있는 반면, MMCR은 이들 중 어떤 방식에도 해당하지 않습니다.
- 대부분의 기존 SSL 방법론이 정보 이론에 기반한 반면, MMCR은 데이터 매니폴드의 기하학적 선형 분리성에 대한 통계역학적 분석(statistical mechanical characterization of the geometry of linear separability of data manifold)에 기반합니다. 뭔가 엄청나 보이지만, 뒤에서 쉽게 풀어보겠습니다.
정리하자면 결국, MMCR이 주목받는 이유는 기존 자기지도학습 방법론들이 수년간 쌓아온 정보 이론 기반의 성취에 기대지 않고 완전히 새로운 방식으로 기존 방법론에 준하는 성능을 달성하였으며, 기존에 많이 연구되지 않은 새로운 접근 방식을 취한 만큼 아직 발전 가능성이 크다는 점에 있는 것 같습니다.
본 논문에서는 MMCR에서 사용되는 nuclear norm 기반의 목적 함수를 최적화하는 것이 정보 이론 기반의 자기지도학습 방법론에서 목표로 하는 것과 동일함을 증명하고, 이와 관련된 분석들을 제공합니다. 논문 자체에 성능을 올렸다던지 뭔가를 개선하였다는 contribution이 존재하지는 않으나, MMCR이라는 새로운 자기지도학습 방법을 기존의 방법들과 비슷한 방식으로 이해할 수 있도록 하였다는 것이 중요한 점이라 보시면 될 것 같습니다.
Preliminaries
Self-supervised Representation Learning
Representation learning은 사전학습을 통해 downstream task에 활용하기 좋은 representation을 학습하고자 하는 task입니다. 이전에는 ImageNet과 같이 다양한 이미지를 포함한 대규모 데이터셋에서의 분류 문제를 지도학습시켜 모델이 representation을 학습하도록 하는 방식이 주로 사용된 반면, 최근에는 어떤 task에 특화된 라벨 없이 입력 데이터만을 활용하여 자기지도학습을 통해 representation을 학습하는 자기지도학습 기반 방법론들이 주류가 되었습니다.
기존의 자기지도학습 방법론들은 contrastive learning, masked image modeling, clustering 등의 전략을 이용하여 데이터에서 불필요하고 반복적인 정보를 최소화하고, 여러 데이터에 내재된 중요한 패턴, mutual information을 최대화하고자 하였으며, 이러한 목표는 정보의 양을 측정하는 정보 이론에 기반한 방식으로 목적함수를 설계하는데 반영되었습니다.
Multi-view Self-supervised Learning (MVSSL)
대표적인 자기지도학습 기반 representation learning 기법이 멀티 뷰 기반 자기지도학습입니다.
여기서 뷰(view)란, 임의의 변형을 의미합니다. 조금 더 머신러닝에 익숙한 개념으로 말하자면, 어떤 이미지에 임의의 변형 혹은 증강(augmentation)을 가하여, 원본 데이터와 (의미론적으로) 동일하면서도 (시각적으로) 다르게 변형된 이미지, 즉 다른 뷰를 생성한 것으로 이해할 수 있습니다.
위 예시를 보면, 원본 이미지에 세 종류의 변형을 가하여 세 가지 새로운 뷰를 생성하였습니다. 새로운 뷰의 이미지들은 모두 원본 이미지와 픽셀 수준에서는 큰 차이가 있으나, "강 위를 걷는 왜가리 사진"이라고 하는 공통적인 정보에는 차이가 적거나 없습니다. MVSSL은 이렇게 각기 다른 이미지가 입력되어도 이들이 가진 (변형된) 개별적 정보(individual information) 보다 공통적 정보(mutual information)에 집중하여, 결과적으로 유사한 임베딩을 생성하는 신경망을 학습하고자 합니다.
MVSSL with Contrastive Objective
기존 MVSSL 방식 중 대표적인 것이 contrastive learning입니다. 동일한 원본 이미지를 변형하여 생성된 이미지들을 positive pair로 정의하고, 다른 원본 이미지에서 비롯된 이미지들을 negative pair로 정의한 다음, positive pair들의 임베딩은 최대한 코사인 유사도가 높아지도록, 그리고 negative pair들의 임베딩은 최대한 코사인 유사도가 작아지도록 학습합니다. 이때 대표적으로 사용되는 목적 함수가 아래의 InfoNCE loss입니다.
$$ \mathcal L_\text{NCE} = -\mathbb E_X[\log\frac{\exp(z^\top z^+)}{\exp(z^\top z^+)+\sum^{N-1}_{i=1}\exp(z^\top z_i^-)}] $$
위 손실 함수는 어떤 기준 데이터의 임베딩 $z$와 positive 데이터의 임베딩 $z^+$의 유사도가 최대화되고, negative 데이터의 임베딩 $z^-$의 유사도는 최소화될 때 최소화됩니다. ($z$는 norm이 1인 단위 벡터로, $z$간의 내적을 통해 코사인 유사도를 구할 수 있습니다.) 이러한 학습 방식은 흔히 고차원 임베딩 공간 상에서 positive pair 임베딩 간의 거리를 좁히고, negative pair 임베딩 간의 거리를 늘리는 형태로 설명되곤 합니다.
Introduction
기존의 MVSSL은 아래와 같은 크게 4가지 방식으로 묶을 수 있습니다.
1. Contrastive: CPC, MoCo, SimCLR, MoCo2, CMC, RPC, TiCo
2. Clustering: Noise-as-Targets, DeepCluster, Self-Labeling, Local Aggregation, SwAV
3. distillation/momentum: BYOL, DINO, SimSiam, TiCo
4. Redundancy reduction: Barlow Twins, VICReg, TiCo
이렇게 분류되는 대부분의 MVSSL 방법이 정보 이론에 기반하거나(CPC), 정보 이론을 기반으로 접근 방식을 설명할 수 있었다고 합니다.
한편, 이 논문에서 다루고자 하는 MMCR은 흥미롭게도 위의 MVSSL 분류에 속하지 않으며, 정보 이론 기반 접근을 취하는 대신 데이터 매니폴드의 기하학적 선형 분리성에 대한 통계역학적 분석에 기반한 접근을 취했습니다. MMCR의 저자들은 고차원 공간 상에서의 mutual information을 추정하는 것이 어려우며, mutual information 간의 거리를 추정하는 것이 꼭 representation을 개선한다고 볼 수는 없기 때문에 새로운 접근을 취했다고 합니다.
예를 들어 앞서 본 InfoNCE loss만 봐도, 임베딩 간의 코사인 유사도를 통하여 mutual information을 간접적으로 추정할 뿐, 임베딩 간의 코사인 유사도를 무작정 낮추거나 높이는 것이 mutual information의 최대화와 정확히 어떤 관계를 갖는지는 알 수 없었습니다.
본 논문에서는 MMCR loss가 어떻게 모델을 학습시키며, 다른 MVSSL 방법론들과 어떤 관계가 있는지 이해하고자 하며, contribution은 아래와 같습니다.
- 고차원 확률에 대한 분석을 통해 MMCR loss를 최소화할 수 있는 임베딩의 분포를 유도하였습니다.
- 유도된 분포가 멀티 뷰 임베딩 간의 mutual information의 variational lower bound를 최대화하는 것을 보여 정보 이론 기반으로 MMCR을 설명하였습니다.
정리하자면, MMCR loss를 최소화하는 것이 기존에 정보 이론 기반의 방법들이 목표했던 것처럼, mutual information을 최대화하는 것을 보인 것이라 할 수 있습니다.
Definition
Multi-View Self-Supervised Learning (MVSSL) 파라미터 $\theta$를 갖는 신경망 $f_\theta : \mathcal X \rightarrow \mathcal Z$, 학습에 사용할 데이터셋 $\{ \mathbf x_n \}^N_{n=1}$ , 그리고 color jitter, 가우시안 블러 등 $K$개의 변환으로 구성된 집합 $\mathcal T$를 정의합니다. 먼저 각 입력 배치 속의 데이터 $\mathbf x_n$에 대하여 $K$개의 변형 $t^{(1)}, t^{(2)}, \cdots, t^{(k)} ~ \mathcal T$에 의해 변형된 데이터 $t^{(1)}(\mathbf x_n), \cdots , t^{(k)}(\mathbf x_n)$를 얻고, 이러한 입력들을 신경망에 입력하여 아래와 같은 임베딩 혹은 representation을 얻게 됩니다.
$$ z_n^{(k)} =^\text{def} f_\theta(t^{(k)}(\mathbf x_n)) \in \mathcal Z$$
일반적으로 $\mathcal Z$는 $\mathbb R^D$ 혹은 $D$차원의 초구(hypersphere) $\mathbb S^{D-1} = ^\text{def} \{ \mathbf z \in \mathbb R^D : \mathbf z^\top\mathbf z = 1 \}$상에 존재합니다. $Z_n^{(k)}$는 $z_n^{(k)}$ 형태로 나타날 임베딩에 대한 랜덤 변수를 나타내고, $X_n^{(k)}$는 $t^{(k)}(\mathbf x_n)$ 형태로 나타날 변형된 데이터에 대한 랜덤 변수를 나타냅니다.
Maximum Manifold Capacity Representations (MMCR) MMCR은 선형 이진 분류 성능으로부터 기원하는데, $D$ 차원의 임베딩 공간 상에 존재하는 $N$개의 점과 각각에 대응되는 이진 클래스 라벨이 있을 때, 선형 이진 분류기가 이들을 성공적으로 분류할 확률이 얼마일까?라는 질문에서 출발합니다. 이게 무슨 소리인가 싶으실 텐데, 다음 문장은 더 어지럽습니다. MMCR의 저자들은 통계역학적 분석을 통해 열역학적 한계 $(N, D\rightarrow \infty; N/D \rightarrow \alpha \in (0, \infty))$ 내에서, capacity $\alpha_c=2$에서 상전이가 일어남을 알아내었다고 합니다. 이게 도대체 무슨 소리인고.. 하고 지식의 보고 나무위키를 통해 열역학을 공부해 봤는데, 사실은 별거 아니고, MMCR을 열역학적 표현으로 나타낸 것이었습니다. (여담으로, MMCR의 교신저자이신 정수연 교수님의 출신학부는 코넬대 물리학과입니다.)
열역학적 한계는 어떤 계(system)를 정의하는 데 사용됩니다. 하나하나 살펴봅시다.
$N,D \rightarrow \infty$: 우리가 다루는 임베딩 공간의 차원 수인 $D$와 그 공간 상의 데이터 포인트의 개수 $N$은 무한대로 증가할 수 있습니다.
$N/D \rightarrow \alpha\in(0,\infty)$: 이때, $N/D$를 $\alpha$라고 나타낼 것이며, 이 값은 0~무한의 값을 가질 수 있습니다.
이러한 시스템에서 $\alpha_c=2$인 상황에서 상전이(phase transition)라는 것이 일어난다고 하는데요. 상전이는 물이 영하 0.00.. 1도까지도 고체이다가 0도에서 갑자기 액체로 성질이 바뀌는 것과 같이 특정 임계점에서 갑자기 물질이나 계의 성질이 변화함을 의미합니다.
이게 무슨 소리인가 하니 결국 Manifold capacity의 정의를 설명한 것인데, $\alpha < \alpha_c$일 때, 선형 이진 분류기는 앞선 $N$개의 데이터를 100%에 준하는 확률로 분류할 수 있고, $\alpha > \alpha_c$일 때는 확률 0으로 성공하게 됩니다. 만약 클래스가 이진이 아니라, 더 늘어나게 된다면 상전이가 일어나는 manifold capacity 역시 변화하게 됩니다.
MMCR은 이러한 manifold capacity의 성질을 고차원 매니폴드와 더 많은 데이터 포인트들에 확장합니다. 먼저, 신경망의 출력을 정규화하여 각 데이터 포인트들을 반지름이 1인 초구(hypersphere) 상에 임베딩시킵니다. $\mathbf z_n^{(1)}, \cdots, \mathbf z_n^{(K)}\in \mathbb S^{D-1}$. 그다음, datum(원래 데이터셋 속 하나의 이미지 $\mathbf x_i$) 당 평균 임베딩을 계산해 줍니다.
$$\mathbf\mu_n =^\text{def} \frac{1}{K}\sum_k \mathbf z^{(k)}_n$$
이어서 $n$번째 행이 $\mathbf\mu_n$에 해당하는 $N\times D$ 행렬 $M$을 만들고, 손실함수를 아래와 같이 정의합니다.
$$ \mathcal L_\text{MMCR} =^\text{def} - ||M||_* =^\text{def} -\sum^{rank(M)}_{r=1} \sigma_r(M) $$
$\sigma_r(M)$는 $M$의 $r$번째 특이값(singular value)에 해당하고, $||\cdot ||_*$은 nuclear norm입니다. MMCR loss를 최소화하는 것은 평균 행렬 $M$(MMCR에서는 centroid matrix라 표현)의 nuclear norm을 최대화하는 것이 됩니다. 이때, 이렇게 생성된 임의의 행렬에 대해서는 닫힌 형식의 해(closed-form solution)가 존재하지 않습니다.
그러나 $N=2, D=2$일 때는 닫힌 형식의 해가 존재하는데, $||M||_*$은 각 평균의 norm이 최대화 ($||\mathbf\mu_n||_2=1$)되고 $\mathbf\mu_1, \mathbf\mu_2$가 직교할 때 최대화되게 되며, 이로부터 $N$이나 $D$가 2보다 큰 고차원, 대규모 데이터 상황에서 MMCR이 어떻게 동작할지 직관을 가질 수 있습니다. 그러나, 실제로 대규모 데이터의 고차원 공간 상에서 이 직관이 얼마나 들어맞을지는 모른다고 합니다..
여기까지 MMCR에 대한 간단한 설명이었는데, MMCR에 대한 더욱 자세한 설명은 제 이전 MMCR 리뷰를 참고해 주시고, 계속 진행해 보겠습니다.
An Information Theoretic Understanding of MMCR
저자들은 MMCR의 두 가지 속성을 증명 및 직관적으로 보이고, 이를 바탕으로 MMCR을 다른 MVSSL 방법과 비교하였습니다. 특히 MMCR을 $N$ 크기의 대규모 데이터셋과 $D$차원의 고차원 임베딩 공간 상에서 분석하여 기존 MMCR이 $D=2, N=2$로 제한된 상황에서의 직관을 통해 설명했던 아쉬움을 조금이나마 해소해 주었습니다.
저자들은 분석 결과로 아래 두 가지를 제시합니다.
- MMCR loss는 최소화되는 과정에서 각 평균 $\mathbf\mu_n = \frac{1}{K}\sum_k \mathbf z_n^{(k)}$을 초구 상에 위치하도록 하고, 평균들의 분산을 정규분포에 가깝게 한다.
- 이를 통해 임베딩 간 mutual information의 variational lower bound을 최대화하는데, 이는 최근의 MVSSL 방법론들과 같은 효과를 보인다.
그럼 분석을 살펴봅시다. 저자들은 먼저, 신경망에 대한 두 가지 특성을 정의합니다.
Definition 2.1 (Perfect Reconstruction). 만약 어떤 신경망 $f_\theta$가 $\forall\mathbf x \in \mathcal X, \forall t^{(1)} ,t^{(2)}\in \mathcal T, \mathbf z^{(1)}=f_\theta(t^{(1)}(\mathbf x))=f_\theta(t^{(2)}(\mathbf x))=\mathbf z^{(2)}$를 만족하면, 이 신경망이 perfect reconstruction을 달성했다고 칭한다.
서로 다른 변형을 가한 다른 뷰의 이미지로 얻어진 임베딩 $\mathbf z^{(1)}$과 $\mathbf z^{(2)}$가 같다는 것은, 신경망이 임베딩을 생성할 때 mutual information만을 뽑아낸다는 것을 의미합니다.
Definition 2.2 (Perfect Uniformity). $p(Z)$가 랜덤 샘플링으로 유도된 신경망의 representation의 분포를 나타낼 때, $p(Z)$가 초구 상에서의 정규 분포를 따른다면 신경망 $f_\theta$가 perfect uniformity를 만족한다고 한다.
저자들은 위 두 가지 정의를 만족하는 신경망은 달성 가능한 최저의 MMCR loss값을 가진다는 것을 보입니다. 먼저 $\mathcal L_\text{MMCR}$에 하한이 존재함을 보이고, 이러한 신경망이 이 하한을 달성할 수 있음을 보이는 식으로 증명을 진행하는데요, 계속 보겠습니다.
Proposition 2.3. $\forall n\in[N], \mathbf\mu_n^\top \mathbf\mu_n\leq 1$이면, $0\leq||M||_*\leq\begin{cases} N &\text{if }N\leq D\\\sqrt{ND} &\text{if } N\geq D\end{cases}$이다.
이 명제는 $||M||_*$에 상한이 존재한다는 것, 곧 MMCR loss $\mathcal L_\text{MMCR}=-||M||_*$에 하한이 존재함을 의미합니다.
Proof. $\sigma_1, \cdots, \sigma_{\min(N,D)}$은 $M$의 특이값, $||M||_*=\sum^{\min(N,D)}_{i=1}\sigma_i$이다. 이때, 하한은 특이값이 음수가 아니기 때문에 0이 되고, 상한은 아래와 같이 결정됩니다.
$$ \sum^{\min(N,D)}_{i=1} \sigma^2_i = Tr[MM^\top] = \sum^N_{n=1}\mathbf\mu_n^\top\mathbf\mu_n\leq N $$
이어서, $(1, \cdots, 1)$ 형태의 시퀀스와 $(\sigma_1, \cdots, \sigma_{\min(N,D)})$의 코시-슈바르츠 부등식에 따라 아래 식이 유도되고, $||M||_*$의 상한 이자 MMCR loss의 하한이 존재하게 됩니다.
$$\sum^{\min(N,D)}_{i=1} \sigma_i \leq \sqrt{(\sum^{\min(N,D)}_{i=1}1)(\sum^{\min(N,D)}_{i=1}\sigma_i^2)}\leq\sqrt{\min(N,D)N}=\begin{cases}N &\text{if }N\leq D\\\sqrt{ND} &\text{if }N\geq D\end{cases}$$
코시-슈바르츠 부등식: 변수가 $n$개인 두 벡터 $a=[a_1, \cdots, a_n], b=[b_1, \cdots, b_n]$에 대하여, $(\sum^n_{i=1} a_ib_i )^2 \leq(\sum^n_{i=1} a^2_i )(\sum^n_{i=1}b^2_i)$
Proposition 2.4. $f_\theta$가 perfect reconstruction을 만족할 때, $||\mathbf\mu_n||_2=1 \forall n$이다.
Proof. $f_\theta$가 perfect reconstruction이므로, $\forall n, \forall t^{(1)}, t^{(2)}, \mathbf z_n^{(1)}=\mathbf z_n^{(2)}$이다. 따라서 $\mathbf\mu_n = (1/K)\sum_k \mathbf z_n^{(k)}=(1/K)\sum_k\mathbf z_n^{(1)}=\mathbf z_n^{(1)}$이고, $||\mathbf z_n^{(1)}||_2 =1$이므로 $||\mathbf\mu_n||_2=1$이 되게 됩니다.
Theorem 2.5. $f_\theta : \mathcal X \rightarrow \mathbb S^D$이고, 신경망이 perfect reconstruction과 perfect uniformity를 만족할 때, $f_\theta$는 높은 확률로 $\mathcal L_\text{MMCR}$의 하한을 달성한다. 구체적으로, $\min(N,D)$에서 아래가 높은 확률로 성립한다.
$$||M||_*=\begin{cases} N(1-O(N/D)) &\text{if }N\leq D\\
\sqrt{ND}(1-O(D/N)) &\text{if }N\geq D\end{cases}$$
이 부분의 증명은 꽤 길어서 논문의 appendix A에 별도로 정리되어 있습니다. 저도 저자들의 서술에 따라 직관을 먼저 분석해 보고, 증명은 후술 하도록 하겠습니다.
먼저 Proposition 2.3에서 정의한 MMCR loss의 하한이 존재하기 위한 전제가 대강 성립함을 보이기 위해, 특이값 $\sigma_i$가 대부분 서로 같음(roughly equal)을 보여야 합니다. 먼저 $N<<D$일 경우, $M$은 적은 행의 $\mathbf\mu_n$을 가지므로 이들은 거의 서로 완벽하게 직교하게 됩니다. 따라서 모든 $N$개의 특이값들은 쉽게 $\approx ||\mathbf\mu_n||=1$을 만족하게 됩니다. 한편, $N>>D$일 때는 $M$이 많은 행을 가지므로 모든 $x\in \mathbb R^D$에 대하여 합 $||Mx||^2_2=\sum_n(\mathbf\mu_n^\top x)^2$이 집중될 것이고, $M$의 모든 벡터들을 비슷하게 스케일 될 것입니다. 따라서 이 경우에도 $D$개의 특이값은 서로 거의 같아지게 됩니다. 저자들은 이를 그림 1과 같은 수치적 시뮬레이션을 통해 이를 확인하였다고 합니다.
이제 perfect reconstruction과 perfect uniformity가 왜 정보 이론적 관점에서 중요한지 알아보면, 입력 datum $X$에 대하여, 서로 다른 두 개의 뷰에 대한 학습된 임베딩 $Z^{(1)}=t^{(1)}(X)$와 $Z^{(2)}=t^{(2)}(X)$ 간의 mutual information은 최소한 한 임베딩을 통해 다른 하나를 reconstruct 할 수 있는 능력과 임베딩들의 엔트로피, 두 항의 합만큼 커야 합니다. (즉 아래 식은 mutual information의 하한을 나타냅니다.)
$$I[Z^{(1)}; Z^{(2)}] \geq \mathbb E_{p(Z^{(1)}, Z^{(2)})}[\log q(Z^{(1)}|Z^{(2)})] + H[Z^{(1)}$$
위 식에서 앞의 항은 recontstruction, 뒤의 항은 entropy에 해당합니다. $q(Z^{(1)}|Z^{(2)})$은 variational distribution인데, true distribution인 $p(Z^{(1)}|Z^{(2)})$이 unknown이기 때문입니다.
Theorem 2.6. $f_\theta : \mathcal X \rightarrow \mathbb S^D$가 신경망을 나타내고, datum 별 뷰의 개수는 상수의 형태이며, $\mathcal Q$가 초구 상의 variational family of distribution일 때, $f_\theta$가 perfect reconstruction, perfect uniformity를 만족할 때만 mutual information의 하한(위의 식)을 최대화한다.
Proof. Perfect reconstruction은 reconstruction 항을 최대화하고, perfect uniformity는 엔트로피 항을 최대화하기 때문입니다. (정규 분포가 달성될 경우 최대 엔트로피를 달성)
Theorem 2.7. $f_{\theta*}$이 perfect reconstruction과 perfect uniformity를 만족할 때, datum 당 뷰의 개수 $K$가 상수이고 $\mathcal Q$가 초구 상의 variational family of distribution이라 하면, $f_{\theta*}$은 $\mathcal L_\text{MMCR}$을 최소화하며 variational lower bound of mutual information을 최대화한다.
Proof. Theorem 2.5와 2.6에 따름
흐름을 정리해 보겠습니다.
저자들은 먼저 명제 2.3.을 통해 $||M||_*$의 상한이자 MMCR loss의 하한이 존재함을 보였습니다. 이어서 명제 2.4.에서는 신경망이 perfect reconstruction일 때, $||\mu_n||_2=1$ 임을 보였고, 이를 기반으로 정리 2.5.와 정리 2.6.에서 신경망이 perfect reconstruction과 perfect uniformity를 달성할 때, MMCR loss의 하한을 달성할 수 있음을 보였습니다. 마지막으로 정리 2.7. 에서는 이렇게 MMCR loss의 하한을 달성하는 것이 variational lower bound of mutual information을 최대화하는 것임을 보여 결과적으로 MMCR loss의 최적화가 기존 MVSSL 방법들과 같은 작용을 하는 것을 보였습니다.
Discussion
저자들은 고차원 확률 분석을 통해 대규모 데이터와 고차원 공간상에서도 MMCR이 효과적으로 동작함을 보였습니다. MMCR은 모델이 perfect reconstruction, perfect uniformity를 가지도록 만드는데, 이 두 속성은 잘 알려진 mutual information의 하한을 최대화한다는 것을 보여 MMCR 역시 기존 MVSSL 방법과 유사한 정보 이론적 방식으로 이해할 수 있음을 보였습니다.
개인적으로 딥러닝을 처음 공부할 때 가장 인상 깊었던 부분이 manifold learning 관점에서의 해석이었습니다. 당시에 멀티미디어 수업에서 이미지나 오디오 등의 데이터가 어떤 식으로 컴퓨터에 저장되는지 배운 참이라, 이 세상의 자연 신호들을 컴퓨터 속 벡터의 형태로 변환할 수 있다는 것만 해도 정말 신기했는데, 하물며 이러한 데이터들을 어떤 임베딩 공간 상의 한 점으로 만들 수 있다니. 게다가 그 점들을 우리가 원하는 방식으로 옮길 수도 있다니요.
아쉽게도 막상 딥러닝 연구들은 모델을 최적화하는 알고리즘이나 모델 설계와 같은 방향에 집중되어 그 이후로 manifold learning 관점을 다룬 딥러닝 논문을 많이 보지는 못 했는데, 오랜만에 만난 manifold 기반 방법이 굉장히 기대할만한 성능과 컨셉을 가지고 있어 2주간 나름 집중해서 공부해 봤습니다.
제 취향에 맞아 좋았던 첫인상과는 별개로, MMCR에서 기대되는 점은 멀티모달 학습으로의 확장 가능성입니다. 저자들은 단순히 이미지에서의 multi-view에 대한 실험만 진행하였지만 MMCR에서 사용하는 manifold capacity 개념은 어떤 모달이든 적용할 수 있습니다. 기존 SSL 방법들이 mutual information 최대화를 간접적으로 유도하는 방식임에도 이미 다양한 분야에서 성과를 내고 있는데, 조금 더 직접적으로 매니폴드 자체를 최적화하는 MMCR을 다른 영역에 확장하면 좋은 결과가 나오지 않을까 기대가 됩니다.
다음 주부터는 원래 읽던 부류의 논문을 읽으면서도, MMCR에 대한 고민을 더 해봐야겠습니다.
감사합니다.