AI打轴 ====== AI打轴使用Whisper模型,给输入的视频自动生成英文轴。 此工具地址为 https://msubs.sakana.systems/ai_timeline_jp 。备用地址将 msubs 替换为 msubs2 即可。 .. hint:: 使用中遇到任何问题,请联系组长。`[metricvoidlx@gmail.com] `_ .. contents:: 界面总览 -------- .. image:: ../_static/images/ai-timeline-2.png 界面还是比较直观的,主要分为以下几步。 - 输入Youtube视频地址,或者从本地上传音频文件。尽量不要上传视频文件 —— 听译不需要视频。 - 输入你的邮箱,提交。大部分的默认参数足以满足要求。 .. note:: 这个工具产生的英文轴远非完美。在提交自动翻译前,请务必人工过一遍。 高质量的时间轴可以大幅提升AI翻译的质量。 参数说明 -------- AI打轴可以调节的参数还是很多的。 Base Model Parameters ~~~~~~~~~~~~~~~~~~~~~ 基座模型的参数。 - **选择模型**: 使用的模型。目前只有large-v3. - **选择语言**:有`en`英语和`jp`日语两种。 Stablization Parameters ~~~~~~~~~~~~~~~~~~~~~~~ Whisper模型本身适用于听译演讲稿的,并不注重时间轴的准确性,有时会生成非常错误的时间轴。 这里使用各种方式提升时间轴的准确性和稳定性。 - 开启VAD:使用Voice-Activity-Detection,分割出单独的语句,提升时轴的准确性。 - No-speech threshold:检测的灵敏度。默认0.8。越高越不容易检测到静音。 - Perform Alignment:使用分段静音的方式,检测每段对话的最小区间。 - Align token steps: 对齐的步数。越高越慢,但是更准确。 Segmentation Parameters ~~~~~~~~~~~~~~~~~~~~~~~ 这里的参数用于控制听译的内容如何被分段。 - Gap split:分割的最小间隔。默认0.3秒。 - Cut long sentences:是否切割过长的句子。默认开启。 * Cut method: 用于切分语句的LLM,默认claude * Claude model:claude模型,目前只有 claude-3-5-sonnet-20241022。 Postprocessing Parameters ~~~~~~~~~~~~~~~~~~~~~~~~~ 对完成的时间轴进行后处理 - **Postprocess tail with Silero VAD:** 使用Silero VAD检测对话段,并自动将对话吸附到非静音区域。 * Min silence duration: Silero VAD可检测的最小静音时间。默认1ms (最短)。这是为了产生更多的分段,吸附的更加精确。 * Silero VAD Threshold:Silero VAD的灵敏度。默认0.5。越高越不容易检测到静音。 - **Postprocess head with VAD (Risky):** 自动使用Silero VAD吸附对话开始。经常出错,默认关闭。 * Max head offset:最大吸附的时间。默认750毫秒。 - **Pad segment head:** 将对话头部向前延伸。默认开启 * Head extend amount:延伸长度,默认0.05s - **Pad segment tail:** 将对话尾部向后延伸。默认开启 * Tail extend amount(s):延伸长度,默认0.3s * Threshold to make segments contiguous:如果和下一段对话之间的间隔小于此值,则将两端对话紧贴。默认0.5s