更新记录

2023

2023

03-19

  1. 恢复微软、阿里合成服务
  2. 取消阿里长文本合成
  3. 由于被大量使用导致服务欠费,故而不再提供无偿服务
  4. 收费标准:10元/月,100元/年
  5. 哈勃分析报告

02-10

  • 版本v6.0
  1. 解决微软首次加载提示失败的问题
  2. 新增音频格式选择
  3. 阿里云支持长文本
  4. 哈勃分析报告
2022

2022

10-26

  • 版本v5.0
  1. 修复已知的问题
  2. 新增添加背景音乐
  3. 优化语气显示(显示中文)
  4. 哈勃分析报告

10-22

  • 版本v4.0
  1. 恢复微软语音合成
  2. 修复播放卡死等问题
  3. 生成smml新增连续生成开关

10-16

  • 版本v3.0
  1. 微软语音合成暂不可用

06-27

  • 版本v2.0
  1. 新增阿里云平台合成
  2. 修改ssml生成方式

06-15

  • 版本v1.0

语音合成功能介绍

主要是解决自媒体视频配音的问题,集成了多种风格和不同的人物状态发音,模拟真实的人声。
支持SSML语言(语音合成标记语言),傻瓜式操作不需要懂SSML也可以操作。
适用人群:为动画、电影解说、搞笑动漫、电子书阅读等配音。
软件优势:可以快速合成多情感的有声书,集合了多种场景的角色配音,有直播带货、悬疑解说、客服等,操作方便,界面简介无广告。
配音来源于微软azure以及阿里云语音tts

带货场景

  • 阿里云-发音人:laomei
  • 微软-发音人:Xiaoyan

含背景音乐

  • 微软-发音人:Xiaoxiao-温和、礼貌的语气

长篇文本

  • 阿里云-单发音人:猫小美
  • 微软-多发音人:Xiaohan、Yunxi、Yunye等
  • Q:登录后提示“初始化失败,请点击切换平台重试?”
  • A:点击平台选择再次点击微软即可解决。

阿里云_SSML语言文档

/document_detail/101645.html

阿里云_接口文档

/document_detail/84435.html

微软azure_SSML语言文档

/azure/cognitive-services/speech-service/speech-synthesis-markup

微软azure_接口文档

/azure/cognitive-services/speech-service/language-support

微软azure_语音文档

仅统计部分更多查阅接口文档

  1. 发音的人-
    XiaochenNeural
    XiaohanNeural
    XiaomoNeural
    XiaoqiuNeural
    XiaoruiNeural
    XiaoshuangNeural
    XiaoxiaoNeural
    XiaoxuanNeural
    XiaoyanNeural
    XiaoyouNeural
    XiaobeiNeural - 晓北辽宁话版
  2. 发音的人-
    YunxiNeural
    YunyangNeural
    YunyeNeural
    YunfengNeural
    YunhaoNeural
    YunjianNeural
    YunxiSichuanNeural - 云希四川话版
  1. 同一人不同的语气说话
    advertisement_upbeat - 用兴奋和精力充沛的语气推广产品或服务。
    affectionate - 表达温暖而亲切的语气
    angry - 表达生气和厌恶的语气。
    assistant - 以热情而轻松的语气对数字助理讲话。
    calm - 以沉着冷静的态度说话。
    chat - 表达轻松随意的语气。
    cheerful - 表达积极愉快的语气。
    customerservice - 以友好热情的语气为客户提供支持。
    depressed - 调低音调和音量来表达忧郁、沮丧的语气。
    disgruntled - 表达轻蔑和抱怨的语气。
    embarrassed - 在说话者感到不舒适时表达不确定、犹豫的语气。
    empathetic - 表达关心和理解。
    envious - 当你渴望别人拥有的东西时,表达一种钦佩的语气。
    excited - 表达乐观和充满希望的语气。
    fearful - 以较高的音调、较高的音量和较快的语速来表达恐惧、紧张的语气。
    friendly - 礼貌和愉快的语气。
    hopeful - 表达一种温暖且渴望的语气。
    lyrical - 以优美又带感伤的方式表达情感。
    narration-professional - 以专业、客观的语气朗读内容。
    narration-relaxed - 为内容阅读表达一种舒缓而悦耳的语气。
    newscast - 以正式专业的语气叙述新闻。
    newscast-casual - 以通用、随意的语气发布一般新闻。
    newscast-formal - 以正式、自信和权威的语气发布新闻。
    poetry-reading - 在读诗时表达出带情感和节奏的语气。
    sad - 表达悲伤语气。
    serious - 表达严肃和命令的语气。
    shouting - 就像从遥远的地方说话或在外面说话。
    sports_commentary - 用轻松有趣的语气播报体育赛事。
    sports_commentary_excited - 用快速且充满活力的语气播报体育赛事精彩瞬间。
    whispering - 说话非常柔和,发出的声音小且温柔。
    terrified - 表达一种非常害怕的语气,语速快且声音颤抖。
    unfriendly - 表达一种冷淡无情的语气。
    documentary-narration - 适合配音纪录片、专家评论和类似内容。
  1. 同一人扮演不同的角色
    Girl - 该语音模拟女孩。
    Boy - 该语音模拟男孩。
    YoungAdultFemale - 该语音模拟年轻成年女性。
    YoungAdultMale - 该语音模拟年轻成年男性。
    OlderAdultFemale - 该语音模拟年长的成年女性。
    OlderAdultMale - 该语音模拟年长的成年男性。
    SeniorFemale - 该语音模拟老年女性。
    SeniorMale - 该语音模拟老年男性。

文本处理功能介绍

支持文本插入、去重、替换、合并等,支持G级文本去重复。

快速上手

可以快速合成多情感的有声书,集合了多种场景的角色配音,有直播带货、悬疑解说、客服等,操作方便,界面简介无广告,
平台尽量选择微软,阿里不适用于长文本合成
- 删除快捷生成ssml符号:"【】"
+ 新增快捷生成ssml符号:"{{}}"
+ 新增"{{停顿}}"
+ 新增"{{背景音乐}}"


注意快捷短语一定要加在待合成的语音前面,
其中多个内容可用‘|’间隔开,
例如:"{{音调=10|语速=-9|音高升降曲线=(80%,-20%) (100%,+80%)|风格强度=0}}",
"{{停顿}}"默认为停顿500毫秒生成后可以修改数值,
新增"{{背景音乐}}"只支持线上音频,暂不支持自定义上传,在设置可设置背景音乐。

总结:如果要合成多情感的音频使用微软的版本(使用ssml的建议用微软azure,阿里云ssml只能一句话一句话合成以及只有少量的4个发音人支持),
如果只生成一句话不需要太复杂的调整使用阿里云微软都可以。