feat: use ASR segments for CJK NLP splitting by sld272 · Pull Request #574 · Huanshere/VideoLingo

sld272 · 2026-06-04T04:20:07Z

新增 ASR segment 级文本作为 NLP 分句的优先输入，同时保留 word/char 级时间戳数据用于最终字幕时间轴对齐。并修复 spaCy 语言选择逻辑，为旧任务加入 fallback。

对于日语/中文，WhisperX alignment 的 words 可能是字符级。旧流程会把这些字符级行直接拼成一整条超长字符串送进 spaCy，带来两个问题：

但最终时间戳对齐仍然需要字符级时间戳。因此本次修改把两个职责拆开：

新增 _2_ASR_SEGMENTS = "output/log/asr_segments.xlsx"。
新增 save_segments() 保存 ASR segment 级文本。
ASR 流程中调用 save_segments()。
本地 WhisperX 同步写入 whisper.language 和 whisper.detected_language。
修复 spaCy 语言选择逻辑：只要用户手动指定 whisper.language，就优先使用；只有 auto 才使用 detected_language。
修改 split_by_mark.py：
- 优先读取 asr_segments.xlsx。
- 如果没有该文件，则从旧的 cleaned_chunks.xlsx 重建文本。
- 按 UTF-8 字节数切分长输入，避免超过 Sudachi tokenizer 限制。

feat: use ASR segments for CJK NLP splitting

7c027a0

Provide feedback