Computer Vision - 3D understanding

17 Sep 2021 | Deep Learning

<맨 위로>

Seeing the world in 3D perspective
- How is #d data represented in computer?
- 3D dataset

3D recognition, Detection

Seeing the world in 3D perspective

AR/VR 시대로 들어가며 화두되는 기술

2D와 3D는 빛의 직진성으로 관계를 맺을 수 있다.
따라서 위치 정보를 알고있다면, 여러 구도에서 찍은 사진으로 하나의 3D 모델링을 만들 수 있다(Triangulation)

How is #d data represented in computer?

기본적인 2D 이미지는 2차원 벡터로 되어있다.

Multi-view images : 여러가지 2D 이미지로 저장하는 방식
Volumetric : 3D 공간에서 객체가 공간을 차지하는지 True False값으로 저장
Part assembly : 여러가지 도혇을 합쳐 놓는 방식
Point cloud : x,y,z값의 테이블로 저장하는 방식
Mesh(graph CNN) : Edge와 Vertex 조합인 그래프 형식으로 나타내는 방식

3D dataset

ShapeNet : 51300개의 3D modeling이 저장되어있는 데이터셋
PartNet : 26671개의 3D modeling에 573585개의 part 까지 지원되는 데이터셋
SceneNet : 500만개의 RGB-Depth synthetic indoor 이미지
ScanNet : RGB-Depth 페어의 250만개의 indoor 실제 스캔 데이터셋
KITTI, Semantic KITTI, Waymo : 자율주행을 목표로 둔 Outdoor 데이터셋

3D task

3D recognition, Detection

Recognition : 2D model과 비슷한 순서- 로 최종적으로 label을 출력하는 방식
Sementic segmentation, Object Detection : 무인차 분야에서 상당히 많이 연구중
Mesh R-CNN : Mask R-CNN의 Head를 Mesh형태로 구현한 개념이다.