CastleJo의 개발일지

Computer Vision - 3D understanding

|

Seeing the world in 3D perspective

AR/VR 시대로 들어가며 화두되는 기술

  • 2D와 3D는 빛의 직진성으로 관계를 맺을 수 있다.
  • 따라서 위치 정보를 알고있다면, 여러 구도에서 찍은 사진으로 하나의 3D 모델링을 만들 수 있다(Triangulation)

How is #d data represented in computer?

  • 기본적인 2D 이미지는 2차원 벡터로 되어있다.
  1. Multi-view images : 여러가지 2D 이미지로 저장하는 방식
  2. Volumetric : 3D 공간에서 객체가 공간을 차지하는지 True False값으로 저장
  3. Part assembly : 여러가지 도혇을 합쳐 놓는 방식
  4. Point cloud : x,y,z값의 테이블로 저장하는 방식
  5. Mesh(graph CNN) : Edge와 Vertex 조합인 그래프 형식으로 나타내는 방식

3D dataset

  • ShapeNet : 51300개의 3D modeling이 저장되어있는 데이터셋
  • PartNet : 26671개의 3D modeling에 573585개의 part 까지 지원되는 데이터셋
  • SceneNet : 500만개의 RGB-Depth synthetic indoor 이미지
  • ScanNet : RGB-Depth 페어의 250만개의 indoor 실제 스캔 데이터셋
  • KITTI, Semantic KITTI, Waymo : 자율주행을 목표로 둔 Outdoor 데이터셋

3D task

3D recognition, Detection

  • Recognition : 2D model과 비슷한 순서- 로 최종적으로 label을 출력하는 방식
  • Sementic segmentation, Object Detection : 무인차 분야에서 상당히 많이 연구중
  • Mesh R-CNN : Mask R-CNN의 Head를 Mesh형태로 구현한 개념이다.