슬랙 팁 아카이빙
29 Dec 2021 |Tip
Python
AI Math
- 딥러닝 기초
- 최대 우도법
- 왜 CE를 쓸까?
- 최적화 알고리즘 정리
- Optimizer 정리(34페이지부터)
- Convolution 연산 정리 1 1_github 2
- 다양한 Scheduler
- Neural Network 내부 연산
Pytorch
NLP
CV
Other Task
Papers
- AI는 특정 인종에 bias되어있다
- 2021 State of AI Reports
- GIRAFFE : 3D view renderings
-
Paper full name : GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
-
기존의 deep generative models이 high resolution의 이미지도 굉장히 realistic하게 만들어내었지만 대부분의 모델이 2D 기반이기 때문에 생성하고자 하는 대상에 대한 controllability가 떨어진다.
-
NeRF 이후로 3D view rendering이 주목받고 있다
-
GIRAFFE는 compositional 3D scene representation를 통해 개별 object와 background를 disentangle한다
-
- Labels4Free : Segmentation Dataset의 Unsupervised manner
-
Paper full name: Labels4Free: Unsupervised Segmentation using StyleGAN
-
Pre-trained StyleGAN을 확장하여 생성된 이미지의 foreground/background를 unsupervised separation
-
StyleGAN이 생성한 features들이 다른 task로 확장할 만큼 많은 정보를 갖고 있다는 연구들이 나오고 있는데 이를 unsupervised segmentation으로 적용한 논문
-
이를 활용하여 segmentation을 위한 high quality의 데이터셋을 unsupervised manner로 생성할 수 있다
-
- dataset distillation : 큰 데이터셋의 정보를 작은 데이터셋으로
-
Knowledge distillation이 큰 모델의 정보를 작은 모델에게 전달해주는 것이라면, dataset distillation은 큰 데이터셋의 정보를 작은 데이터셋으로 전달해주는 기법
-
해당 논문에서는 CIFAR-10의 0.02%인 10개의 데이터만 이용하여 64%의 test acc. 달성
-
새로운 distributed kernel based meta-learning framework를 제안하여 해당 목표 달성
-
아래의 그림은 논문에서 제안한 KIP라는 방법으로 이미지를 변환하였을 때의 결과이며 사람의 눈으로 보았을 때는 정확히 식별하기 어렵지만 모델의 성능을 대폭 향상
-
- Swin Transformer
- An Empirical Study of Training Self-Supervised Vision Transformers
- Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
- Group-Free 3D Object Detection via Transformers
- Spatial-Temporal Transformer for Dynamic Scene Graph Generation
- Rethinking and Improving Relative Position Encoding for Vision Transformer
- Emerging Properties in Self-Supervised Vision Transformers
- Learning Spatio-Temporal Transformer for Visual Tracking
- Fast Convergence of DETR with Spatially Modulated Co-Attention
- Vision Transformer with Progressive Sampling
- Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
- Rethinking Spatial Dimensions of Vision Transformers
- The Right to Talk: An Audio-Visual Transformer Approach
- Joint Inductive and Transductive Learning for Video Object Segmentation
- Conformer: Local Features Coupling Global Representations for Visual Recognition
- Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer
- Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
- Conditional DETR for Fast Training Convergence
- MUSIQ: Multi-scale Image Quality Transformer
- SOTR: Segmenting Objects with Transformers
- Complementary Patch for Weakly Supervised Semantic Segmentation
-
Pixel-wise mask 대신 image-level tag만 이용하여 semantic segmentation을 수행하는 weakly-supervised 방법론
-
CAM을 활용한 기존의 방법들은 가장 discriminate한 object의 일부분만 잡아내어 정확도가 떨어짐
-
해당 논문의 방법론을 따르면, 하나의 이미지에 대해 서로 complementary 관계에 있는 hidden patched parts에 대한 CAM 결과들을 더하면 훨씬 정확한 mask를 만들어낼 수 있음
-
- YOLOF
-
Detector의 핵심인 FPN이 좋은 성능이 보이는 이유가 multi-scale feature fusion 때문이 아니라 각 level의 feature를 별개로 고려하는 divide-and-conquer 때문이라는 것을 밝혀냄
-
Divide-and-conquer가 좋은 성능을 유도하는 것은 맞지만 memory burben이 커서 inefficient
-
해당 논문에서는 dilated encoder와 uniform matching이라는 두가지 기법을 통해 single-level의 feature map만 이용함에도 불구하고 RetinaNet보다 약 2.5배 빠르고 성능이 더 높은 YOLOF 모델 제안
-
Idea: YOLOF가 single-level feature map만으로도 좋은 detection 성능을 달성하였는데 이를 transformer와 활용하면 훨씬 효율적인 attention 기반의 detector가 만들어지지 않을까요?
-
- Few-Shot Object Detection via Classification Refinement and Distractor Retreatment
-
Few-shot object detection의 evaluation metric인 Average Precision (AP)가 class와 box quality를 동시에 고려하는데 대부분의 정량적 성능 저하가 classfication error에서 온다는 것을 밝힘 (즉, box quality는 좋은데 misclassification하는 문제가 주된 요인)
-
Architecture-level enhancement: 새로운 few-shot correction network로 category confusion을 줄임
-
불완전한 annotation을 갖고 있어서 성능을 대폭 줄이는 data samples을 distractor로 정의하고 해당 distractor를 제거하고 semi-supervised loss를 통해 활용하는 방법 제안
-
- Points as Queries: Weakly Semi-supervised Object Detection by Points
-
Object detection의 성능을 높이기 위해 bounding box보다는 coarse한 annotation인 point 정보만 존재하는 weakly-supervised extra data를 활용하여 semi-supervised learning을 진행하는 weakly-semi-supervised object detection 방법론 제안
-
Fully-supervised teacher model를 inference하여 만들어진 pseudo-labels을 바탕으로 student network 학습
-
DETR을 확장하여 이미지 정보는 encoder로 추출하고 point 정보는 encoding하여 decoder의 query로 넣어주는 Point DETR 제안
-
- How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
-
ViT를 어떻게 효율적으로 학습하고 주어진 데이터셋에서 좋은 성능을 달성할 수 있을지를 분석한 논문
-
다양한 데이터셋에 학습된 무려 총 50,000개의 ViT 모델 공개
-
요약 1) 데이터 수가 적은 경우에는 augmentation과 regularization이 굉장히 중요
-
요약 2) 데이터 수가 많을 때에는 aug./reg.를 크게 신경쓰지 않아도 좋은 성능
-
요약 3) Pre-trained weights로 fine-tuning하는 것이 성능 향상에 도움
-
- End-to-End Semi-Supervised Object Detection with Soft Teacher
-
Unlabeled dataset을 추가로 활용하여 성능을 높이는 semi-supervised 방법론 제안
-
Multi-stage training이 필요한 기존 방법과 달리 end-to-end 학습
-
학습을 진행하면서 점점 정확한 psudeo label을 만들어가는 방식
-
크게 unlabeled data에 대한 classification loss와 regression loss를 구분하여 학습
-
1) Classfication head: soft teacher에서 만든 prediction에 대해 score filtering을 진행하여 얻은 box에 대해서만 loss 계산
-
2) Regression head: regression variance가 낮은 box만 filtering하여 해당 box에 대해서만 loss 계산
-
- Revisiting Mask-Head Architectures for Novel Class Instance Segmentation
-
Instance Segmentation은 novel class에 대한 예측이 어려움(마스크를 그리기 어렵기 때문에)
-
protocol과 mask-head 구조를 바꿔서 supervised learning과의 성능 차이를 좁힘
-
Crop을 custom하게 한 처음 보는 물체에 대하여 잘 작동하는 novelty가 보임.
-
VOC에서 4.7% 상승한 mask mAP sota 성능 (no auxiliary loss functions, offline trained priors, weight transfer functions)
-
Deep-MAC이라는 오픈소스로 공개
-
- 3DETR
-
Facebook에서 이제 3D object deteciton까지 transformer로 하기 시작했습니다!..
-
input point cloud로부터 transformer encoder가 feature를 얻어내고 decoder에서 box를 prediction
-
주어진 reference point에 해당하는 query embedding을 받은 decoder는 이와 관련된 points를 attention하여 detection 성능 향상
-
- Reconcile Prediction Consistency for Balanced Object Detection
-
기존의 detector는 classification loss와 regression loss를 완전히 독립적으로 학습하기 때문에 많은 inconsistent predictions 유발 (예를 들면, classification score는 높지만 localization acc.는 낮은 경우)
-
Prediction consistency를 위하여 Harmonic loss라는 새로운 loss 제안
-
classification branch와 localization branch의 optimization을 harmonize하는 역할
-
- Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation
-
Figure 2에 나온 것처럼, 단순히 특정 이미지의 object를 복사(copy)한 다음 변형(random scale jittering)을 가하고 다른 이미지에 붙여 넣는 (paste) 굉장히 simple한 augmentation이 instance segmentation의 성능을 올려준다
-
cutmix의 instance segmentaton 느낌
-
- StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis
-
NeRF (ECCV 2020) 이후로 neural radiance fields를 이용하여 여러 각도에서 바라본 이미지를 생성하는 task가 굉장한 주목을 받고 있습니다.
-
이러한 NeRF에 StyleGAN의 컨셉을 넣어 3D 영상을 생성함과 동시에 style attribute 또한 control 가능한 StyleNeRF 제안
-
- Patches Are All You Need?
-
개인적으로 정말 흥미롭게 읽은 논문이고, 특히 ViT에 관심이 있으신 분들이라면 더욱 재밌게 읽으실 수 있을 것 같습니다 :미소짓는_얼굴:
-
ViT의 특징을 크게 2가지로 구분한다면, ‘(1) 이미 그 자체로 강력한 Transformer의 활용’ 과 ‘(2) input을 patch단위로 쪼개어 활용하는 것’으로 나눌 수 있다.
-
저자는 (1)과 (2) 중에서 정말 어떤 것이 ViT의 높은 성능에 기여했는지를 알고 싶어 하였고, 그 결과 놀랍게도 (2) patch 단위로 입력을 쪼개어 넣어주는 것이 성능에 많은 영향을 미친다는 것을 밝혀내었다.
-
이러한 발견을 기반으로, 입력을 patch 단위로 쪼개어 넣되 ViT보다 훨씬 가볍고 효율적이며 심플한 ConvMixer라는 모델을 제안하였고 해당 모델은 오직 convolution만 사용.
-
ConvMixer는 ViT와 ResNet보다 parameter 수는 적지만 더욱 높은 성능 달성
-
결론) patch embedding을 활용하는 것은 NLP에서 tokenization을 사용하는 것처럼 CV에서도 굉장히 중요하다!
-
- Audio-Guided Image Manipulation for Artistic Paintings
-
오디오를 기반으로 이미지를 Manipulation 합니다.
-
CLIP embedding space에 오디오를 align하였습니다
-
StyleGAN의 latent code를 오디오로 guide하여 소리의 의미에 맞게 생성하도록 합니다.
-
- MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer
-
CNN은 (장점) inductive bias를 통해 적은 parameter로도 좋은 representation을 얻을 수 있지만, (단점) spatially local하다.
-
ViT은 (장점) global representation을 얻을 수 있지만, (단점) heavy-weight하다.
-
Idea: CNN과 ViT의 장점을 결합하여 가볍고 빠른 모델을 만들 수 있지 않을까?
-
Standard conv.의 3가지 operations (unfolding, local processing, folding) 중에서 local processing 과정을 transformer를 활용한 global processing으로 대체하여 CNN과 ViT 각각의 장점만 활용
-
기존 conv. 기반의 MobileNet 계열보다 적은 수의 parameter로 훨씬 높은 성능을 보였고, 심지어 ResNet-101의 약 9분의 1 크기의 모델로 더 높은 성능 달성
-
- BEiT: BERT Pre-Training of Image Transformers
-
NLP의 BERT를 따라 image transformer에도 pre-training 방법 제시
-
BEiT (Bidirectional Encoder from Image Transformers)
-
이미지를 visual tokens으로 tokenize한 다음, 일부 patch를 masking하고 transfomer에 넣은 뒤 corrupted image patch를 복원하는 것을 pre-training의 objection로 설정
-
Image transformer에도 BERT처럼 pre-training model을 기본적으로 꼭 사용하는 날이 머지않아 올지도 모르겠네요
-
- Towards Real-World Blind Face Restoration with Generative Facial Prior
-
Low quality의 face image를 high-quality로 향상시키는 blind face restoration task
-
low quality face는 정확한 geometric 정보를 담고있지 못한다는 문제를 가지고 있는데 이를 pretrained face GAN이 담고 있는 다양한 prior를 이용하여 해결
-
Network 구성: (1) Degradation removal 역할의 U-Net / (2) facial details를 채워주는 Pretrained GAN as prior
-
Take-home message: 단순히 새로운 혹은 높은 성능의 GAN을 만드는 것이 아닌 기존에 학습된 GAN을 pre-trained model로 사용하여 다양한 task에 확장하는 시도들이 늘어나고 있는데, blind face restoration에도 효과적으로 작용하며 pre-trained GAN은 유용한 prior를 많이 가지고 있다
-
- instance segmentation
- class imbalace가 학습을 어떻게 방해하는지 그 원인을 분석하고, data agnostic 하지 않게 (data의 statictics를 사용하지 않고) 문제를 해결
- Bag of Tricks for Image Classification with Convolutional Neural Networks
- Batch size의 영향, Learning rate scheduling (warm-up, cosine lr decay), Batch normalization initialization, No bias decay, Low-precision training, Model tweaks, Label smoothing, Knowledge distillation, Mix-up training, Transfer learning
- 논문 정리하시는분 레포
MLOps
시각화
- BatchNorm 시각화
- Moments of Happiness
- 시각화에서 데이터 유실될 때
- Pandas 시각화
- Seaborn 실습
- 다양한 시각화 Article
- Conv Layer 깊이 시각화
- Bar chart race
Linux
Git
LoadMap
- AI Expert Roadmap
- data scientist, data engineer, machine learning
- machine learning mindmap loadmap other
- Deep learning
- Deep learning papers / 2
- fullstack deeplearning
- ML pipeline
- ai-infrastructures