AI打轴
======
AI打轴使用Whisper模型，给输入的视频自动生成英文轴。

此工具地址为 https://msubs.sakana.systems/ai_timeline_jp 。备用地址将 msubs 替换为 msubs2 即可。

.. hint:: 
    使用中遇到任何问题，请联系组长。`[metricvoidlx@gmail.com] <mailto:metricvoidlx@gmail.com>`_

.. contents::

界面总览
--------
.. image:: ../_static/images/ai-timeline-2.png

界面还是比较直观的，主要分为以下几步。

- 输入Youtube视频地址，或者从本地上传音频文件。尽量不要上传视频文件 —— 听译不需要视频。
- 输入你的邮箱，提交。大部分的默认参数足以满足要求。

.. note::
    这个工具产生的英文轴远非完美。在提交自动翻译前，请务必人工过一遍。
    高质量的时间轴可以大幅提升AI翻译的质量。

参数说明
--------
AI打轴可以调节的参数还是很多的。

Base Model Parameters
~~~~~~~~~~~~~~~~~~~~~
基座模型的参数。

- **选择模型**: 使用的模型。目前只有large-v3.
- **选择语言**：有`en`英语和`jp`日语两种。

Stablization Parameters
~~~~~~~~~~~~~~~~~~~~~~~
Whisper模型本身适用于听译演讲稿的，并不注重时间轴的准确性，有时会生成非常错误的时间轴。
这里使用各种方式提升时间轴的准确性和稳定性。

- 开启VAD：使用Voice-Activity-Detection，分割出单独的语句，提升时轴的准确性。
    - No-speech threshold：检测的灵敏度。默认0.8。越高越不容易检测到静音。

- Perform Alignment：使用分段静音的方式，检测每段对话的最小区间。
    - Align token steps: 对齐的步数。越高越慢，但是更准确。

Segmentation Parameters
~~~~~~~~~~~~~~~~~~~~~~~
这里的参数用于控制听译的内容如何被分段。

- Gap split：分割的最小间隔。默认0.3秒。
- Cut long sentences：是否切割过长的句子。默认开启。
    * Cut method: 用于切分语句的LLM，默认claude
    * Claude model：claude模型，目前只有 claude-3-5-sonnet-20241022。

Postprocessing Parameters
~~~~~~~~~~~~~~~~~~~~~~~~~
对完成的时间轴进行后处理

- **Postprocess tail with Silero VAD:** 使用Silero VAD检测对话段，并自动将对话吸附到非静音区域。  
    * Min silence duration： Silero VAD可检测的最小静音时间。默认1ms （最短）。这是为了产生更多的分段，吸附的更加精确。
    * Silero VAD Threshold：Silero VAD的灵敏度。默认0.5。越高越不容易检测到静音。

- **Postprocess head with VAD (Risky):** 自动使用Silero VAD吸附对话开始。经常出错，默认关闭。  
    * Max head offset：最大吸附的时间。默认750毫秒。

- **Pad segment head:** 将对话头部向前延伸。默认开启  
    * Head extend amount：延伸长度，默认0.05s

- **Pad segment tail:** 将对话尾部向后延伸。默认开启  
    * Tail extend amount(s)：延伸长度，默认0.3s
    * Threshold to make segments contiguous：如果和下一段对话之间的间隔小于此值，则将两端对话紧贴。默认0.5s