Skip to content

Monodream model trainning #53

@mjhxd

Description

@mjhxd

您好,感谢开源 MonoDream。

我正在尝试复现 MonoDream 的训练流程。根据之前 issue 的回复,我查看了:

RoboOrchardLab/robo_orchard_lab/models/monodream/language_model/llava_llama.py

这个文件里似乎包含了 MonoDream 的模型定义和 forward/loss 计算逻辑,包括 action/instruction 的文本 loss,以及 Latent Panoramic Dreaming 相关的 latent feature MSE loss。

但是我目前没有找到完整的训练脚本和数据构造流程。因此想请教一下:

  1. MonoDream 是否会开源完整训练脚本?

    • 例如 train.pyscripts/train.sh、NVILA 训练启动命令等。
  2. NVILA repo 应该如何和 MonoDream repo 组合使用?

    • 是否需要 clone 到 projects/monodream/ 目录下?
    • 是否需要修改 NVILA 原始训练代码?
  3. 是否可以提供 MonoDream 使用的训练配置?

    • DeepSpeed 配置
    • batch size
    • learning rate
    • epoch 数
    • gradient accumulation
    • precision 设置
    • checkpoint 保存设置
  4. 训练数据具体如何构造?

    • R2R-CE / RxR-CE step-wise action prediction 数据
    • instruction reasoning 数据
    • Latent Panoramic Dreaming 数据
    • 当前 panoramic RGB/depth latent feature
    • 未来 panoramic RGB/depth latent feature
  5. 是否有生成 panoramic RGB-D latent supervision 数据的脚本?

    • 例如生成 current/future panoramic RGB-D
    • 用 vision encoder 提取 latent feature
    • 保存为训练数据
  6. 是否可以提供一个从 NVILA-lite-2B 初始化训练 MonoDream 的示例命令?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions