登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
音频克隆:对话文本到口语对话生成MOSS-TTSD ...
音频克隆:对话文本到口语对话生成MOSS-TTSD
[ 复制链接 ]
俏襟选
2025-7-15 14:23:08
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
<br>之前介绍过几个音频克隆的可以项目:<br>CosyVoice:https://www.cnblogs.com/cj8988/p/18975495<br>IndexTTS:https://www.cnblogs.com/cj8988/p/18973016<br>GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212<br><br>IndexTTs-多人:https://www.cnblogs.com/cj8988/p/18973609<br><br><br><strong>本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑):MOSS-TTSD</strong><br><br><strong>亮点:<br></strong><br><strong>高度富有表现力的对话语音</strong>:MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音,可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。<br><strong>双人语音克隆</strong>:MOSS-TTSD 支持零样本双人语音克隆,并可根据对话脚本生成具有准确说话人切换的对话语音。<br><strong>中英双语支持</strong>:MOSS-TTSD 能够以中文和英文生成极具表现力的语音。<br><strong>长篇语音生成</strong>:得益于低比特率编解码器和训练框架的优化,MOSS-TTSD 已经可以进行长篇语音生成的训练。<br><strong>完全开源和商业就绪</strong>:MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。<br><br><strong>下载安装:<br></strong><br>开源地址:https://github.com/OpenMOSS/MOSS-TTSD<br><br>模型下载:https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main<br>模型存放位置在现在的文件夹下:<strong>MOSS-TTSD\XY_Tokenizer\weights\<br><br></strong>官方文档:https://www.open-moss.com/cn/moss-ttsd/<strong><br><br></strong>
复制代码
安装:<br>进入window的虚拟环境conda中:<br><br>
复制代码
创建环境:
conda create -n moss_ttsd python=3.10<br><br>激活环境:
conda activate moss_ttsd<br><br>安装:
pip install -r requirements.txt<br><br>加速:这个先使用下面的命名安装,如果成功那就皆大欢喜
#pip install flash-attn
复制代码
<br><strong>如果flash-attn安装失败,就不用折腾了,我用了很多方法好像都没有成功,所以修改代码,不使用flash-attn。<br></strong><br><strong>修改generation_utils.py:找到load_model()函数</strong><br><strong>将参数默认值修改一下 attn_implementation="flash_attention_2"</strong><br><strong>修改为attn_implementation="sdpa"</strong><br><br><br>
复制代码
运行:python gradio_demo.py
复制代码
<br>第一次运行时会下载模型:fnlp/MOSS-TTSD-v0.5,需要很长的时间。<br>
复制代码
下载完成后,浏览器访问:http://127.0.0.1:7860/<br><br>注意,我试过Single单音频支持不太好(我的音频只有一个人说话,估计两个人说话还是可以的),所以这里直接使用两个音频进行实验。
复制代码
结果:
复制代码
音频1
音频2
合成音频
你的浏览器不支持 audio 标签。
你的浏览器不支持 audio 标签。
你的浏览器不支持 audio 标签。
<br><br>
复制代码
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
对话
音频
克隆
文本
口语
相关帖子
26Java基础之特殊文本文件、日志技术
人机对话的新纪元:自然语言如何重塑数据查询体验
CRT弹窗接收用户文本输入
全能 AI 对话管理平台!一款支持多模型切换的全能 AI 对话工具!
当你和大模型对话时,模型在做什么
关于音频处理工具FFmpeg | 笔记备注
可对话的赛博分身:用 Claude Code 分析 GitHub 日记
langchain4j 学习系列(7)-文本分类
电脑音频录制工具(语音聊天录音软件)
很顶!零成本克隆你的声音,这款B站开源神器太强了
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
26Java基础之特殊文本文件、日志技术
4
872
准挝
2025-10-30
业界
人机对话的新纪元:自然语言如何重塑数据查询体验
5
1069
各卧唯
2025-10-31
业界
CRT弹窗接收用户文本输入
4
496
林鱼
2025-11-07
安全
全能 AI 对话管理平台!一款支持多模型切换的全能 AI 对话工具!
1
368
砂歹汤
2025-11-10
业界
当你和大模型对话时,模型在做什么
0
604
峰襞副
2025-12-02
业界
关于音频处理工具FFmpeg | 笔记备注
2
57
墨淳雅
2025-12-03
业界
可对话的赛博分身:用 Claude Code 分析 GitHub 日记
1
837
厥轧匠
2025-12-09
安全
langchain4j 学习系列(7)-文本分类
0
756
胥望雅
2025-12-09
业界
电脑音频录制工具(语音聊天录音软件)
0
186
诸婉丽
2025-12-15
安全
很顶!零成本克隆你的声音,这款B站开源神器太强了
0
601
晖顶蝇
2025-12-17
回复
(5)
娥搽裙
2025-11-12 16:38:59
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
喳谍
2025-11-20 22:14:20
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
挽幽
2025-11-22 11:00:27
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
收藏一下 不知道什么时候能用到
卒挪
2025-12-7 09:43:19
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢楼主提供!
后沛若
2025-12-11 11:11:33
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
俏襟选
2025-12-11 11:11:33
关注
0
粉丝关注
22
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994891
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9982
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9950
查看更多
今日好文热榜
444
热点 Key 与大 Key 治理——识别、拆分、预
641
Media Extended
319
vlookup的终结者splookup,9个案例讲透查询
846
ROS2之Launch介绍
883
精选 8 个 .NET 开发实用的类库,效率提升
78
精选 8 个 .NET 开发实用的类库,效率提升
568
精选 8 个 .NET 开发实用的类库,效率提升
138
精选 8 个 .NET 开发实用的类库,效率提升
112
精选 8 个 .NET 开发实用的类库,效率提升
609
alist如何将默认布局设置为图片布局
1011
Kali2025.4+Cherry Studio一键配置HexStrik
419
PHP 之高级面向对象编程 深入理解设计模式
416
PHP 之高级面向对象编程 深入理解设计模式
572
升级curl版本,及升级后引起的动态库链接不
295
2025年GEO优化服务商全景对比:五大核心维
779
AI Agent详解
983
Buildah 简明教程:让镜像构建更轻量,告别
610
OceanBase 在滴滴大规模运维经验以及新功能
975
[CSS+]HTML Learn Data Day 2
96
掌握相关性分析:读懂数据间的“悄悄话”