230519_-1_进度搬运_第1个AI项目_珂朵莉So-Vits模型

本篇内容搬运自hugeface
仅用于存档和记录学习进度，若有视频(及其截屏)，请以空间为准

记录时间：2023年05月19日

很久之前玩AI模型的时候做的，现在因为毕业之后找工作压力太大，已经很久没玩了。

实验目标
在60%的情况下，通过入门级发烧HiFi设备无法分辨模型生成的声音与人类声音的区别。

实验结果

炼制了两个版本：
- 通用版（80800Step）：追求声线相似性，适合大多数场景。
- 特殊版（21600Step）：增强高音域适应性，适用于特殊场景。
通用版声纹相似度达99.9%，建议优先使用。
中文、日文、英文效果评分分别为7/10、9/10、7/10。

实验结论
优化数据集后，模型在60%的情况下难以分辨与人类声音的区别，但多语种训练会导致模型失衡，训练步数不宜过多。