语音合成技术将文本转化为语音,将神经网络与领域知识双重结合,兼具读音准确,韵律自然,声音还原度高,表现力强的特点。
可用于视频配音中的音频与字幕时间对齐,虚拟形象口型对齐等。
支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等;支持SSML标签语言;支持流式合成,边合成边播放。
技术上兼顾了多级韵律停顿,达到自然合成韵律的目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。
在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,让阿里云语音合成在各领域、各行业的词汇发音更准确。
使用海量的音频数据训练发音模型,合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内专业水准。
拥有丰富的音色库,提供约110个音色,更有标准男女声,温柔甜美女声等多种风格可供选择,支持标记语言(SSML) 合成方式,情感、音量、语速、音高等参数也支持动态调整。
语音合成技术将文本转化为语音,将神经网络与领域知识双重结合,兼具读音准确,韵律自然,声音还原度高,表现力强的特点。
可用于视频配音中的音频与字幕时间对齐,虚拟形象口型对齐等。
支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等;支持SSML标签语言;支持流式合成,边合成边播放。
技术上兼顾了多级韵律停顿,达到自然合成韵律的目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。
在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,让阿里云语音合成在各领域、各行业的词汇发音更准确。
使用海量的音频数据训练发音模型,合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内专业水准。
拥有丰富的音色库,提供约110个音色,更有标准男女声,温柔甜美女声等多种风格可供选择,支持标记语言(SSML) 合成方式,情感、音量、语速、音高等参数也支持动态调整。