Computer Vision - 3D understanding
17 Sep 2021 | Deep LearningSeeing the world in 3D perspective
AR/VR 시대로 들어가며 화두되는 기술
- 2D와 3D는 빛의 직진성으로 관계를 맺을 수 있다.
- 따라서 위치 정보를 알고있다면, 여러 구도에서 찍은 사진으로 하나의 3D 모델링을 만들 수 있다(Triangulation)
How is #d data represented in computer?
- 기본적인 2D 이미지는 2차원 벡터로 되어있다.
- Multi-view images : 여러가지 2D 이미지로 저장하는 방식
- Volumetric : 3D 공간에서 객체가 공간을 차지하는지 True False값으로 저장
- Part assembly : 여러가지 도혇을 합쳐 놓는 방식
- Point cloud : x,y,z값의 테이블로 저장하는 방식
- Mesh(graph CNN) : Edge와 Vertex 조합인 그래프 형식으로 나타내는 방식
3D dataset
- ShapeNet : 51300개의 3D modeling이 저장되어있는 데이터셋
- PartNet : 26671개의 3D modeling에 573585개의 part 까지 지원되는 데이터셋
- SceneNet : 500만개의 RGB-Depth synthetic indoor 이미지
- ScanNet : RGB-Depth 페어의 250만개의 indoor 실제 스캔 데이터셋
- KITTI, Semantic KITTI, Waymo : 자율주행을 목표로 둔 Outdoor 데이터셋
3D task
3D recognition, Detection
- Recognition : 2D model과 비슷한 순서- 로 최종적으로 label을 출력하는 방식
- Sementic segmentation, Object Detection : 무인차 분야에서 상당히 많이 연구중
- Mesh R-CNN : Mask R-CNN의 Head를 Mesh형태로 구현한 개념이다.