Computer Vision - Multi-modal Learning

16 Sep 2021 | Deep Learning

Further Question

Multi-modal learning에서 feature 사이의 sementic을 유지하기 위해 어떤 학습방법을 사용하는가?
Captioning task를 풀 때 attention이 어떻게 사용될 수 있는가?
Sound source localization task를 풀 때, audio 정보는 어떻게 활용되는가?

시각 외에도 청각, 후각 등의 정보를 같이 훈련하는 것

Audio는 1-dim, Image는 2dim~4dim 등 데이터 표현의 차이로 어려움이 있다.
이미지는 보통 여러가지가 있을 수 있는 1:N 형태로 Unbalance 문제가 있다.
Modality를 많이 사용할 때 오히려 쉬운 정보에만 의존하는 bias현상이 발생할 수도 있다.

Multi-modality를 사용하는 방법들

Matching : 두 데이터 타입을 공통된 영역으로 보내 matching
Translating : 하나의 Modality를 다른 종류로 translating
Referencing : 다른 Modality를 참조하여 출력을 냄

Text embedding

문자는 문자 그대로 사용한다면 머신러닝측면에서 훈련의 어려움이 있다.
따라서 dense vectors로 매핑해준다.

word2vec

Skip-gram model
문자 W를 word-embedding을 한 뒤 다른 문자 W`에 대하여 학습을 해주는 방법
주어진 문자열에서 특정 문자 W가 주변의 문자들인 W`의 거리에 대하여도 관계를 형성하여 학습

Joint embedding

Image tagging

주어진 이미지에 대하여 Tag를 하던가, Tag를 보고 Image를 찾는 방법
Pre-trained unimodal models을 사용하여 문자와 이미지와 같은 다른 모델 사이에서 같은 dimension인 벡터를 추출해낸다.
출력된 결과물에 Joint embedding을 사용하여 관계를 학습한다.

Recipe text

순서가 있는 레시피와 같은 텍스트를 훈련시키는 방법
같은 dimension의 순서와 문자열 vector를 매칭시켜 같이 훈련시키는 방법
Cosine similarity lsos, Sementic regularization loss를 사용하기도 함

Image to Sentence

Show, Atetend and Tell

Encoder : CNN model pre-trained on ImageNet
Decoder : LSTM module

Input 이미지의 Conv Feature를 뽑는데, 14x14 vector의 Feature Map을 RNN 모델에 넣어준다.
각각의 Feature Vector(Condition)에 대한 Attention을 RNN 모델을 통하여 검증
그렇게 만들어진 Weight와 feature map을 내적하여 만들어진 결과를 고려하여 Word를 결정
그 결과로 feature map을 업데이트 후 반복

Text to Image

Conditional GAN의 기본 형태를 따르는 Generator
Sentence 정보를 Generator와 Discriminator 둘 다 가진다.
Sentence 정보를 바탕으로 Discriminator이 훈련을 한다.

Visual question answering

문자와 이미지를 둘 다 FC layer를 만든 뒤 Point-wise multiplication을 하는 모델을 End-to-End 훈련

Sound representation

Sound는 기본적으로 1-dim 형태로 제공된다.
Acoustic feature로 변환하여 머신러닝 분야에서 이용된다.

Fourier transform

Short-time Fourier transform (STFT) : 짧은 윈도우(구간) 내에 Hamming window와 같은 기법을 적용한 뒤 Fourier transform을 적용하는 것

Spectrogram

시간에 따른 주파수 성분을 시각적으로 볼 수 있는 Image 형태로 만들어진다.
Melspectogram, MFCC

SoundNet

오직 이미지만을 pre-trained된 모델에 거치게하는데, Object와 Scene 2개의 출력을 가지게 함
오직 음성만을 Waveform으로 만들어 2가지의 head를 추출
각 2개씩의 KL Loss를 계산하는 방법으로 학습

Speech2Face

인터뷰 영상에서 Face Recognition과 Voice Encoder의 Loss를 계산하여 목소리를 통해 Face를 예측하는 방법