bili2text 是一个把 Bilibili 视频转成文字的命令行工具。
贴一个 Bilibili 链接或 BV 号进去,它会自动下载视频、提取音频、跑语音识别,最后输出一份文字稿。支持多种转写引擎,可以在本地离线跑,也可以接云端服务。
除了命令行,还附带了简单的 Web 界面和桌面窗口,方便不习惯终端的用户使用。
PS:这个是老的界面截图
| 引擎 | 类型 | 说明 |
|---|---|---|
| Whisper | 本地模型 | OpenAI 开源的语音识别模型,离线运行,通用性强 |
| SenseVoice | 本地模型 | 阿里云开源本地语音识别模型,中文识别效果好 |
| 火山引擎 | 云端 API | 字节跳动旗下的商用语音识别服务,识别很准很推荐 |
需要 Python 3.10–3.12 和 uv。
uv 是一个现代化的 Python 包管理工具,速速扔掉你手中的 Conda、Anaconda、venv和pip吧!
git clone https://github.com/lanbinleo/bili2text.git
cd bili2text
uv sync这只会安装核心依赖。转写引擎和额外功能需要通过 extras 安装,比如要用 Whisper 和 Web 界面:
uv sync --extra whisper --extra web可选的 extras:whisper、sensevoice、volcengine、web、server。可以暂时不用安装,详看下方的初始化文档。
第一次运行时会自动弹出配置向导,也可以手动运行:
uv run bili2text init向导会引导你选择语言、转写引擎和额外功能,最后告诉你需要运行什么安装命令。
uv run bili2text tx "https://www.bilibili.com/video/BV1kfDTBXEfu"也可以传本地文件:
uv run bili2text tx ./my-video.mp4指定引擎和模型:
uv run bili2text tx "BV1kfDTBXEfu" --provider whisper --model medium| 命令 | 缩写 | 说明 |
|---|---|---|
bili2text transcribe |
tx |
转写视频或音频 |
bili2text bootstrap |
init |
配置向导 |
bili2text web |
ui |
启动 Web 界面 |
bili2text server |
srv |
启动服务模式 |
bili2text window |
win |
启动桌面窗口 |
bili2text doctor |
diag |
检查运行环境 |
bili2text language |
lang |
切换界面语言 |
uv run bili2text --help启动 Web 界面(浏览器访问):
uv run bili2text ui以服务模式运行(适合 Docker 或局域网部署):
uv run bili2text srv --host 0.0.0.0 --port 8000注意,项目暂时未对Docker或服务器类型的长时间运行做任何优化,请暂时使用本地端
MIT License
使用本工具时,请遵守你所在地区的版权法律与平台规则。确保你有权下载和转写相关视频内容。
开发者不对任何非法使用行为负责。

