0


Nerf系列数据集记录

此篇文章用于记录nerf系列的常用数据集 😺(猫猫头防伪认证)

NeRF

NeRF主要采用了两类数据集,合成数据集(synthetic)和真实数据集(real images)

😺其中合成数据集包括:

  1. DeepVoxel- 该数据集包含四个具有简单几何结构朗伯对象(Lambertian objects)。- 视图为512×512像素- 每个对象从上半球(the upper hemisphere)采样的视点渲染(479个作为输入,1000用于测试)。
  2. nerf_synthetic- 其中包含八个对象的路径跟踪图像(pathtraced images),这些对象具有复杂的几何结构和逼真的非朗伯材质(non-Lambertian materials)。六个从上半球上采样的视点渲染,两个从整个球体上采样的点渲染。- Nerf渲染每个场景的100个视图作为输入,200个视图用于测试- 所有视图均为800×800像素。

😺其中真实数据集包括:

  1. LLFF- 在Nerf中,这个数据集由8个场景组成,这些场景是用手持手机拍摄的(5个取自LLFF文章,3个是Nerf拍摄的),用20到62张图像拍摄的,并为测试集保留其中的1/8。- 设计用于为采样良好的正向场景生成逼真的新视图。(ndc)- 所有图片都是1008×756像素。(🐵在泛化系列中,IBRNet又对其进行了扩充,共有102个,67来自IBRNet作者制作,35来在LLFF)
  2. nerf_real_360- 官方Google云里有的数据,但没看到论文提到- 我看了一下是对真实场景的360的拍摄,然后利用colmap完成了位姿估计- 具体数据格式同LLFF- 像素比较高,vase_deck:4032x3024; pinecone:3024x4032

其它

  1. DTU- DTU是一个MVS数据集,常被被用来做MVS、NeRF方法的训练集。- DTU是一个大型数据集,包含受控实验室环境中的128个场景,其模型使用结构光扫描仪捕获。- 在7种不同的照明条件下,在相同的49或64个相机位置扫描每个场景,生成分辨率为1200×1600像素的RGB图像。(🐵Note:在NeRF泛化系列论文中,如PixelNerf、MVSNerf中在DTU数据集上训练框架,以学习可泛化的网络,PixelNerf下采样400x300,而MVSNerf下采样到512 × 640分辨率,都采用的88个训练场景和15个测试场景的不同分割)
  2. ShapeNet- 属于小型点云数据集,小型数据集指一个点云中包含的对象或场景非常小,直观表现就是点数非常少的数据集。- 该数据集有16个类别(飞机,椅子,汽车等),共16,881个形状。每个类别又进一步的标注了组件结构(例如飞机分为机翼,机身和机尾)用作part segmentation,16个类别一共分成了50个part。每种类别形状规则无杂点,点数少,因此为小型数据集。(🐵Note:在PixelNerf中,它主要利用这些有明确类别的数据集来做:①用于特定类别和类别未知的视图合成,②具有未见类别和多个对象的ShapeNet场景,这两者都需要几何先验而不是识别,以及域转移到真实的汽车照片)
  3. Google scanned objects- 一个由超过 1000 个 3D 扫描的家用物品组成的精选集。- 在IBRNet中,作者利用该数据模型生成了以对象为中心的渲染图片,共1023个类别- RealEstate10K[74]、Spaces数据集[12]和102个来自手持手机捕捉的真实场景(35个来自LLFF[41]
  4. RealEstate10K- RealEstate10K 一个大规模相机姿势 (camera pose) 数据集,包含从大约 10,000 个 YouTube 视频中收集的大约 80,000 个视频片段,总共 1000 万帧。对于每个视频片段,这些相机姿势形成一条轨迹,其中每个姿势都指定了相机的位置和沿轨迹的方向。- 该数据集包含从视频片段派生的相机轨迹。这些轨迹是通过在大量视频上运行 SLAM 和捆绑调整 算法 得出的。
  5. Spaces- 该数据集包含了由16台摄像机捕捉到的100个场景。
  6. ModelNet40- 属于小型点云数据集- 含有40种类别比ShapeNet大。- 但ShapeNet数据集有实例标签,ModelNet40好像没有。
  7. Stanford Large-Scale 3D Indoor Spaces (S3IDS)- 属于大型点云数据集,大型数据集指一个点云中包含的对象或场景非常大,直观表现就是点数非常多的数据集。- 斯坦福室内数据集是由6个大型室内区域组成(如上图所示),每个区域又分为若干个房间,一共有271个房间,13个语义类别(例如:桌子,板凳,墙壁,沙发等)。
  8. Virtual KITTI dataset(vKITTI)- 属于大型点云数据集- 虚拟激光雷达点云是一个大型的室外道路点云,也包含了13个类别(例如:汽车,道路,树木等)。

论文使用数据集记录

🐔顺便记录每篇论文用了啥数据集(

鸡哥护体


论文数据集补充NerfDeepVoxel, nerf_synthetic, LLFFPixelNerfDTU、ShapeNet88个训练场景和15个测试场景的不同分割(在MVSNerf和PointNerf中采取一样的策略)IBRNetGoogle scanned objects,RealEstate10K、Spaces、LLFF(自己补充了一些)Google数据集是合成的,剩下三个是真实数据集MVSNerfDTU, nerf合成数据集,LLFFDTU上训练,nerf数据集上泛化和微调PointNerfDTU,nerf合成数据集,tank and templesDTU上训练,nerf、tank数据集上泛化和微调


本文转载自: https://blog.csdn.net/toro180/article/details/129973285
版权归原作者 toro180 所有, 如有侵权,请联系我们删除。

“Nerf系列数据集记录”的评论:

还没有评论