AI打轴 

AI打轴使用Whisper模型，给输入的视频自动生成英文轴。

此工具地址为 https://msubs.sakana.systems/ai_timeline_jp 。备用地址将 msubs 替换为 msubs2 即可。

提示

使用中遇到任何问题，请联系组长。[metricvoidlx@gmail.com]

界面总览 

界面还是比较直观的，主要分为以下几步。

备注

这个工具产生的英文轴远非完美。在提交自动翻译前，请务必人工过一遍。高质量的时间轴可以大幅提升AI翻译的质量。

AI打轴可以调节的参数还是很多的。

基座模型的参数。

Whisper模型本身适用于听译演讲稿的，并不注重时间轴的准确性，有时会生成非常错误的时间轴。这里使用各种方式提升时间轴的准确性和稳定性。

开启VAD：使用Voice-Activity-Detection，分割出单独的语句，提升时轴的准确性。
- No-speech threshold：检测的灵敏度。默认0.8。越高越不容易检测到静音。
Perform Alignment：使用分段静音的方式，检测每段对话的最小区间。
- Align token steps: 对齐的步数。越高越慢，但是更准确。

这里的参数用于控制听译的内容如何被分段。

Gap split：分割的最小间隔。默认0.3秒。
Cut long sentences：是否切割过长的句子。默认开启。
- Cut method: 用于切分语句的LLM，默认claude
- Claude model：claude模型，目前只有 claude-3-5-sonnet-20241022。

对完成的时间轴进行后处理

Postprocess tail with Silero VAD: 使用Silero VAD检测对话段，并自动将对话吸附到非静音区域。
- Min silence duration： Silero VAD可检测的最小静音时间。默认1ms （最短）。这是为了产生更多的分段，吸附的更加精确。
- Silero VAD Threshold：Silero VAD的灵敏度。默认0.5。越高越不容易检测到静音。
Postprocess head with VAD (Risky): 自动使用Silero VAD吸附对话开始。经常出错，默认关闭。
- Max head offset：最大吸附的时间。默认750毫秒。
Pad segment head: 将对话头部向前延伸。默认开启
- Head extend amount：延伸长度，默认0.05s
Pad segment tail: 将对话尾部向后延伸。默认开启
- Tail extend amount(s)：延伸长度，默认0.3s
- Threshold to make segments contiguous：如果和下一段对话之间的间隔小于此值，则将两端对话紧贴。默认0.5s