# vockit

**Repository Path**: kuangdd/vockit

## Basic Information

- **Project Name**: vockit
- **Description**: Vocoder Toolkit. 声码器工具箱。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 3
- **Created**: 2020-12-06
- **Last Updated**: 2021-08-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# vockit
Vocoder Toolkit. 声码器工具箱。


### 声码器列表

1. griffinlim
2. waveglow
3. melgan
4. wavernn
5. wavenet
6. parallelwavegan
7. squeezewave
8. lpcnet
9. gansynth
10. autorange
11. spsi
12. world

### 声码器来源

1. [griffinlim](https://github.com/KuangDD/aukit)
2. [waveglow](https://github.com/NVIDIA/waveglow)
3. [melgan](https://github.com/descriptinc/melgan-neurips)
4. [wavernn](https://github.com/fatchord/WaveRNN)
5. [wavenet](https://github.com/r9y9/wavenet_vocoder)
6. [parallelwavegan](https://github.com/kan-bayashi/ParallelWaveGAN)
7. [squeezewave](https://github.com/tianrengao/SqueezeWave)
8. [lpcnet](https://github.com/mozilla/LPCNet)
9. [gansynth](https://github.com/ss12f32v/GANsynth-pytorch)
10. [auorange](https://github.com/Yablon/auorange)
11. [spsi](https://github.com/lonce/SPSI_Python)
12. [world](https://github.com/KuangDD/aukit)

### 简要介绍

1. griffinlim

- 纯信号处理，不用训练。
- 使用线性频谱或梅尔频谱。
- 使用高维度的线性频谱生成的语音音质相对较高，使用梅尔频谱则声音较干巴巴。
- 生成声音效果稳定，极少出现不可控问题。


2. waveglow

- 基于非自回归神经网络模型，由一个网络构成，不需要自回归的过程，用一个损失函数进行训练，简单有效。
- 一般使用梅尔频谱。
- 预训练模型对中文语音的生成，逼真度较高，出现少数少许和原声不相似的情况，不相似的听感较好，平滑过渡。
- 总体生成声音效果稳定。

3. melgan

- 基于GAN实现的，整体结构不难理解就是由生成器和判别器组成。
- 一般使用梅尔频谱。
- 预训练模型对中文语音的生成，大多发音人逼真度高，存在部分发音人不太相似，不相似的部分听感粗糙，音质明显下降。
- 稳定性存在不可控因素，对特定发音人的合成会使得可控性提高。

4. wavernn
5. wavenet
6. parallelwavegan
7. squeezewave
8. lpcnet
9. gansynth
10. autorange
11. spsi
12. world


### TODO
- 先列个声码器的列表，重点只搞几个声码器。
- 弄个统一规范的频谱生成方式，频谱转换方式，适配多个声码器。
- 弄个统一规范的使用声码器的方法，一键直达。
- 构建可直接pip安装的package。