在 Hugging Face 使用 ESPnet

espnet 是一个用于语音处理的端到端工具包，包括自动语音识别、文本转语音、语音增强、说话人分离和其他任务。

在 Hub 上探索 ESPnet

你可以通过在模型页面左侧筛选来找到数百个 espnet 模型。

Hub 上的所有模型都配备了有用的功能：

自动生成的模型卡片，包含描述、训练配置、许可证等。
有助于可发现性的元数据标签，包含许可证、语言和数据集等信息。
一个交互式小部件，你可以直接在浏览器中使用模型。
允许进行推理请求的推理 API。

使用现有模型

有关加载预训练模型的完整指南，我们建议查看官方指南。

如果你对进行推理感兴趣，不同任务的不同类都有一个 from_pretrained 方法，允许从 Hub 加载模型。例如：

Speech2Text 用于自动语音识别。
Text2Speech 用于文本转语音。
SeparateSpeech 用于音频源分离。

以下是一个推理示例：

import soundfile
from espnet2.bin.tts_inference import Text2Speech

text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")

如果你想查看如何加载特定模型，可以点击 Use in ESPnet，你将获得一个可用的代码片段来加载它！

分享你的模型

ESPnet 输出一个可以轻松上传到 Hugging Face 的 zip 文件。有关分享模型的完整指南，我们建议查看官方指南。

run.sh 脚本允许将给定模型上传到 Hugging Face 仓库。

./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo

其他资源

ESPnet 文档。
ESPnet 模型库仓库。
集成文档。

在 Hub 上探索 ESPnet​

使用现有模型​

分享你的模型​

其他资源​

在 Hub 上探索 ESPnet

使用现有模型

分享你的模型

其他资源