AI打轴

AI打轴使用Whisper模型,给输入的视频自动生成英文轴。

此工具地址为 https://msubs.sakana.systems/ai_timeline_jp 。备用地址将 msubs 替换为 msubs2 即可。

提示

使用中遇到任何问题,请联系组长。[metricvoidlx@gmail.com]

界面总览

../_images/ai-timeline-2.png

界面还是比较直观的,主要分为以下几步。

  • 输入Youtube视频地址,或者从本地上传音频文件。尽量不要上传视频文件 —— 听译不需要视频。

  • 输入你的邮箱,提交。大部分的默认参数足以满足要求。

备注

这个工具产生的英文轴远非完美。在提交自动翻译前,请务必人工过一遍。 高质量的时间轴可以大幅提升AI翻译的质量。

参数说明

AI打轴可以调节的参数还是很多的。

Base Model Parameters

基座模型的参数。

  • 选择模型: 使用的模型。目前只有large-v3.

  • 选择语言:有`en`英语和`jp`日语两种。

Stablization Parameters

Whisper模型本身适用于听译演讲稿的,并不注重时间轴的准确性,有时会生成非常错误的时间轴。 这里使用各种方式提升时间轴的准确性和稳定性。

  • 开启VAD:使用Voice-Activity-Detection,分割出单独的语句,提升时轴的准确性。
    • No-speech threshold:检测的灵敏度。默认0.8。越高越不容易检测到静音。

  • Perform Alignment:使用分段静音的方式,检测每段对话的最小区间。
    • Align token steps: 对齐的步数。越高越慢,但是更准确。

Segmentation Parameters

这里的参数用于控制听译的内容如何被分段。

  • Gap split:分割的最小间隔。默认0.3秒。

  • Cut long sentences:是否切割过长的句子。默认开启。
    • Cut method: 用于切分语句的LLM,默认claude

    • Claude model:claude模型,目前只有 claude-3-5-sonnet-20241022。

Postprocessing Parameters

对完成的时间轴进行后处理

  • Postprocess tail with Silero VAD: 使用Silero VAD检测对话段,并自动将对话吸附到非静音区域。
    • Min silence duration: Silero VAD可检测的最小静音时间。默认1ms (最短)。这是为了产生更多的分段,吸附的更加精确。

    • Silero VAD Threshold:Silero VAD的灵敏度。默认0.5。越高越不容易检测到静音。

  • Postprocess head with VAD (Risky): 自动使用Silero VAD吸附对话开始。经常出错,默认关闭。
    • Max head offset:最大吸附的时间。默认750毫秒。

  • Pad segment head: 将对话头部向前延伸。默认开启
    • Head extend amount:延伸长度,默认0.05s

  • Pad segment tail: 将对话尾部向后延伸。默认开启
    • Tail extend amount(s):延伸长度,默认0.3s

    • Threshold to make segments contiguous:如果和下一段对话之间的间隔小于此值,则将两端对话紧贴。默认0.5s