AI打轴
AI打轴使用Whisper模型,给输入的视频自动生成英文轴。
此工具地址为 https://msubs.sakana.systems/ai_timeline_jp 。备用地址将 msubs 替换为 msubs2 即可。
提示
使用中遇到任何问题,请联系组长。[metricvoidlx@gmail.com]
界面总览
界面还是比较直观的,主要分为以下几步。
输入Youtube视频地址,或者从本地上传音频文件。尽量不要上传视频文件 —— 听译不需要视频。
输入你的邮箱,提交。大部分的默认参数足以满足要求。
备注
这个工具产生的英文轴远非完美。在提交自动翻译前,请务必人工过一遍。 高质量的时间轴可以大幅提升AI翻译的质量。
参数说明
AI打轴可以调节的参数还是很多的。
Base Model Parameters
基座模型的参数。
选择模型: 使用的模型。目前只有large-v3.
选择语言:有`en`英语和`jp`日语两种。
Stablization Parameters
Whisper模型本身适用于听译演讲稿的,并不注重时间轴的准确性,有时会生成非常错误的时间轴。 这里使用各种方式提升时间轴的准确性和稳定性。
- 开启VAD:使用Voice-Activity-Detection,分割出单独的语句,提升时轴的准确性。
No-speech threshold:检测的灵敏度。默认0.8。越高越不容易检测到静音。
- Perform Alignment:使用分段静音的方式,检测每段对话的最小区间。
Align token steps: 对齐的步数。越高越慢,但是更准确。
Segmentation Parameters
这里的参数用于控制听译的内容如何被分段。
Gap split:分割的最小间隔。默认0.3秒。
- Cut long sentences:是否切割过长的句子。默认开启。
Cut method: 用于切分语句的LLM,默认claude
Claude model:claude模型,目前只有 claude-3-5-sonnet-20241022。
Postprocessing Parameters
对完成的时间轴进行后处理
- Postprocess tail with Silero VAD: 使用Silero VAD检测对话段,并自动将对话吸附到非静音区域。
Min silence duration: Silero VAD可检测的最小静音时间。默认1ms (最短)。这是为了产生更多的分段,吸附的更加精确。
Silero VAD Threshold:Silero VAD的灵敏度。默认0.5。越高越不容易检测到静音。
- Postprocess head with VAD (Risky): 自动使用Silero VAD吸附对话开始。经常出错,默认关闭。
Max head offset:最大吸附的时间。默认750毫秒。
- Pad segment head: 将对话头部向前延伸。默认开启
Head extend amount:延伸长度,默认0.05s
- Pad segment tail: 将对话尾部向后延伸。默认开启
Tail extend amount(s):延伸长度,默认0.3s
Threshold to make segments contiguous:如果和下一段对话之间的间隔小于此值,则将两端对话紧贴。默认0.5s