核心功能
覆盖烤肉全流程的强大工具集
项目管理
完整的项目文件系统管理,自动追踪封面、原视频、熟肉、字幕进度,支持从 YouTube 播放列表一键创建项目与批量任务派发。
视频下载
基于 yt-dlp,支持 1800+ 视频网站与播放列表批量下载,自动获取封面,可配置并发数、视频质量与格式。
字幕提取 OCR
集成 PaddleOCR,提供可视化字幕区域选择,支持上下双区域 OCR 与 GPU 加速,实时输出日志。
语音识别
基于 Const-me/Whisper,支持中、日、英、韩等多语种语音转字幕,带实时进度,支持 SRT / TXT / VTT 输出与 GPU 加速。
智能翻译
对接 Deepseek、腾讯混元、ERNIE、Gemini 等多个 AI 模型,可自定义提示词模板,支持深度思考模式与流式输出。
视频压制
基于 FFmpeg,自定义编码参数,支持 CUDA / VideoToolbox 硬件加速,自动嵌入字幕,实时输出日志。
自动化工作流
按顺序完成下载、提取、翻译、对轴和压制
01
创建项目
新建项目,或者从 YouTube 播放列表导入视频,软件会自动建好文件夹。
02
提取字幕
有硬字幕就用 OCR 提取,需要听写就用 Whisper 转字幕。
03
翻译与对轴
用 AI 先翻译字幕,再手动校对、改时间轴,让字幕和画面重新对上。
04
压制视频
把字幕嵌进视频,并按需要压小体积,方便保存和分享。
快速上手
几步即可释放完整的本地算力
- 操作系统:支持 Windows 与 macOS(暂不支持 Linux)。由于组件依赖,字幕提取 (OCR) 与语音识别 (Whisper) 仅支持 Windows 平台,其余功能在 macOS 上均可正常使用。
- 运行环境:Python 3.9 及以上版本,推荐使用 uv 进行极速依赖管理。
- 硬件加速:推荐配备 GPU,用于 OCR、Whisper 与视频压制加速;建议内存 8GB 以上。
软件发布包已内置集成 FFmpeg、yt-dlp 与 PaddleOCR,开箱即用。唯独 Whisper 语音转文字模型由于文件体积较大,需要您手动下载并关联:
- 下载模型文件:前往迅雷网盘或 Hugging Face 下载所需的 ggml 格式 Whisper 模型。
- 关联本地路径:打开软件进入「设置」界面,在「Whisper -> 模型路径」中选中您下载的 .bin 模型文件。
- 模型选择建议:短视频推荐使用 base 或 small 模型;10分钟以上推荐 medium,30分钟以上推荐 large 以防幻觉重复。
极简的本地部署流程:
# 1. 克隆仓库
git clone https://github.com/Fairy-Oracle-Sanctuary/Fairy-Kekkai-Workshop.git
cd Fairy-Kekkai-Workshop
# 2. 创建并激活虚拟环境
uv venv
.venv\Scripts\activate # Windows
source .venv/bin/activate # Unix/macOS
# 3. 安装依赖
uv pip install -r requirements.txt
# 4. 运行应用
python Fairy-Kekkai-Workshop.py