Computer Vision - Instance Segmentation
14 Sep 2021 | Deep LearningFurther Question
- Mask R-CNN과 Faster R-CNN은 어떤 차이점이 있는가?(풀고자 하는 task, 네트워크 구성 등…)
- Panoptic segmentation과 Instance segmentation은 어떤 차이점이 있는가?
- Landmark localization은 human pose estimation 외에 어떤 도메인에 적용될 수 있는가?
Instance Segmentation
두 Segmentation이 기존과 다른, 진보된 점은 같은 클래스일지라도 각각의 객체를 구분해낸다는 점이다.
Mask R-CNN
이전의 Faster R-CNN의 RoI Pooling은 정수 좌표밖에 구해내지 못했다.
하지만 Mask R-CNN의 RoI Align은 소수점 좌표까지 구할 수 있어 정교하게 좌표를 구할 수 있다.
또한 Mask R-CNN은 기존의 Faster R-CNN에 Mask branch를 덧붙인 개념이다.
Mask branch
기존의 Faster R-CNN의 7x7x2048 레이어 뒤에 14x14x256 -> 14x14x80인, 크기는 늘리고 채널 수는 줄인 레이어를 생성한 다음 분류한 80개의 클래스에 기존의 Class와 Box 값을 참조하는 개념이다.
YOLACT
Single stage 구조로 고해상도의 Backbone을 이용하며, Mask R-CNN은 80개의 마스크를 미리 만들어놓고 찾는것이 반해 YOLACT는 Mask는 아니지만 추후 Mask로 합성될 수 있는 Prototypes을 만들어놓는 개념이다.
이후 YolactEdge와 같이 정확도보단 속도만을 개선한 연구들이 있었다.
Panoptic Segmentation
Instance Segmentation은 물체에만 관심이 있고 배경에는 관심이 없는 특징이 있었다.
따라서 배경과 같은 저오를 받아오기 위하여 Panoptic Segmentation이 화두됐다.
UPSNet
Backbone을 통해 나온 특징을 Sementic head와 Instance head로 바꾼 뒤 추출된 Sementic logits과 class와 label을 합쳐 Panoptic Segmentation이라는 결과를 낸다.
VPSNet
비디오 영상에서 자주 쓰이는 방법으로, 원래 영상인 t와 이전 영상인 t-r의 feature map을 대조하여 tracking하는 특징이 있다.
tracking이 되지 않은 물체는 UPSNet과 같은 방식으로 구동된다.
Landmark Localization
주로 얼굴이나 사람의 포즈를 추정하며, 사전에 중요하다고 추정해놓은 눈, 코, 입, 관절 등을 특징점으로 잡아둔 뒤 그 점들을 추측하는 방법이다.
Hourglass network
마치 모래시계와 같이 이미지 크기를 줄이고 늘리는 것을 반복하면서 skip connection까지 적용하는 방식이다.
DensePose
기존의 특징점만을 예측하는것이 아닌 물체를 3D이미지로 매핑하는 방식이다.
마치 폴리곤과 같이 3D mash를 2d 이미지로 펼쳐놓고 지정된 좌표에 매핑을 하는 UV map 방식을 사용한다.
DensoPose R-CNN은 Faster R-CNN + 3D surface regression branch 방식으로 구현되어있다.
Retina Face
FPN + Multi-task branches를 구현한 방법으로 여러 Layer에 대한 gradient를 동시에 학습하는 Multi task 학습을 사용한 방법이다.
Center Net
Boudning Box를 Center point와 w,h 를 통해 특정하는 방법으로 훨씬 빠른 속도를 갖으며 성능까지 최근엔 잡아가고 있는 추세를 보인다.