- “语音合成”二三事丨智言智语
- 来源:中科院之声
编者按: 智显未来,洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏,为你介绍人工智能相关知识与故事,从最新成果到背后趣闻,带你徜徉AI空间,看人工智能如何唤醒万物,让世界变得更美好 。
语音合成(Text to speech,TTS)是一种将文字自动转换为语音信号的技术,涉及声学、语言学、自然语言理解、信号处理、模式识别等多个学科,是信息处理领域的一门前沿技术。
在早期,“语音合成”是指用机器产生人工言语的技术。
它可以通过力学的(机械的)、光学的、或电子的手段产生类似人说话的声音。最早的语音机器是由Von Kempelen于1780年制造的。它完全是机械式的,通过风箱向簧片送气来模拟声带的振动。声道是用一段软的橡胶管模拟的谐振器,其形状由操作员的手来控制。操作者通过控制操作杆和开口,可以发出/a/、/o/、/u/、/p/、/l/,、/m/、/r/、/n/,等元音和辅音。20世纪30年代,Paget的合成器已能说出像“Hello London,are you there?”之类的简单的话。但是,所有这些机械式合成器合成的语音都和人说的自然语音相差甚远。
图1 语音机器Paget
随着电子技术的发展,人们开始使用计算机、数字滤波器及各种电于设备进行语音合成的研究。
G.Fant在1960年所著 Acoustic Theory of Speech Production 一书中,系统地阐述了言语产生的声学理论,从而使语音合成技术的发展迈出了关键的一大步,随之而来的是大批的基于该理论之上的串联或并联共振峰合成器的诞生。
从八十年代末,语音合成技术又有了很大的发展,特别是基音同步叠加方法(Moulines and Charpentier, 1990)的提出,使基于时域波形拼接方法合成的语音自然度大大提高。
20世纪末,统计参数语音合成系统已经成为了新的主流算法,尤其以基于隐马尔可夫的语音合成最为成功。其可以在不需人工干预的情况下,高效自动的搭建合成系统,由于统计的缘故,对发音人和发音风格的依赖较小,合成语音的语音风格和音色容易人为控制,并且合成系统的规模没有波形拼接的那么大。
图2 基于统计参数语音合成系统
近年来,一些学者致力于端到端的语音合成模型的建模,并取得了性能上的巨大提升。2016年,谷歌Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。
图3 基于深度学习的WavetNet语音生成模型
该模型可以直接对原始语音数据进行建模,避免了声码器对语音进行参数化时导致的音质损失,在语音合成和语音生成任务中效果非常好。基于此,端到端语音合成模型不断迅速发展,在某些数据集上达到了媲美人类说话的水平。
随着计算机硬件水平的不断提高和机器学习技术的蓬勃发展,语音合成技术逐渐从最初的基于语音学规则的参数合成,发展成基于大语料库的拼接合成和基于统计参数的语音合成,合成语音的可懂度和自然度也取得了明显提升,在很多场景都取得了成功的应用,例如语音播报系统、有声读物、地图导航、信息查询系统等。
可以说语音合成技术正在悄然改变我们的生活,甚至将来会成为人们生活中不可或缺的一部分。
图4 语音合成应用场景
参考文献:
1. H. Zen, K. Tokuda, and A. Black, “Statistical parametric speech synthesis,” Speech Communication, vol. 51, no. 11, pp. 1039–1064, Nov. 2009.
2. J Shen, R Pang, R J Weiss, et al, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” in Proceedings ICASSP . IEEE, 2018, pp. 373–376.
3. Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016.
4. Wang T, Tao J, Fu R, et al. Bi-level Speaker Supervision for One-shot Speech Synthesis[J]. Proc. Interspeech 2020, 2020: 3989-3993.
来源:中国科学院自动化研究所
温馨提示:近期,微信公众号信息流改版。每个用户可以设置 常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“中科院之声”的文章,你一定要进行以下操作:进入“中科院之声”公众号 → 点击右上角的 ··· 菜单 → 选择「设为星标」
科技
-
- 华为薪酬体系与激励机制.ppt
- 01 华为薪酬体系 02 华为激励机制扫一扫,回复“股权资料”免费获得《股权学习资料》
- 总裁微刊
-
- 英特尔Q1数据中心业务营业利润跌6成,全年砸200亿美元资本支出加码制造业!
- 4月22日,英特尔发布2021年第一季财报,按照非GAAP会计准则,英特尔第一季营收为186亿美元,与去年同期持平;营业利润61亿美元,同比下滑17%;净利润57亿美元,同比下降6%;每股收益1.39美元。虽然受惠于笔记本...
- 闪存市场
-
- 阔别八年,西门子杀了个5G回马枪!
- 时代的车轮滚滚向前,在移动通信行业,有人离开,就有人进场。时隔八年,西门子再一次站在门前,试图用“5G专网”这把钥匙重新打开移动通信世界的大门。近日,来自市场研究公司Omdia的最新报告显示,在德国电信...
- C114通信网
-
- 探访广州雷佳:金属3D打印业务连续4年翻倍增长
- 2021年4月,南极熊实地探访了广州雷佳增材科技有限公司,作为华南地区极具代表性的一家金属3D打印厂商,其团队负责人是来自华南理工大学的杨永强教授,团队拥有深厚的技术底蕴。△雷佳总部,位于华南理工大学附...
- 南极熊3D打印
-
- 关注|特斯拉提交数据,事情就万事大吉了吗?
- 特斯拉提交了上海车展维权车主的事故车数据。在权威技术检测机构做出评判前,我们有必要了解一下,特斯拉美国用户在质量纠纷时所遇到的处境。美国消费者的维权道路是怎样的不仅在中国市场特斯拉屡遭诟病,在美国...
- 中国汽车画报
-
- 加快数字化升级!我国工业互联网平台连接工业设备总数达7300万台
- 新华社北京4月23日电(记者 张辛欣)记者23日从工信部获悉,截至3月底,企业关键工序数控化率、数字化研发设计工具普及率分别达52.1%和73%,工业互联网平台连接工业设备总数达到7300万台,工业App突破59万个...
- 上海证券报
-
- 欧盟《2030数字罗盘》计划开启“欧洲数字十年”
- 2021年3月9日,欧盟委员会正式发布《2030数字罗盘:欧洲数字十年之路》(2030 Digital Compass:the European way for the Digital Decade)计划,为欧盟到2030年实现数字主权的数
- 全球技术地图
-
- 安全牛《2021商用密码创新应用指南》报告正式发布
- 2021年4月22日,由安全牛举办的2021商用密码技术创新研讨会暨《2021商用密码创新应用指南》(以下简称《商密报告》)发布会在北京中关村科学城四季科创中心圆满落幕。北京谷安天下科技有限公司副总裁贺晓辉在研...
- 安全牛
-
- “语音合成”二三事丨智言智语
- 编者按: 智显未来,洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏,为你介绍人工智能相关知识与故事,从最新成果到背后趣闻,带你徜徉AI空间,看人工智能如何唤醒万物,让世界变得...
- 中科院之声
-
- 不吹牛,中国车主已经实现了「停车自由」
- 贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI刨去吹牛成分,现在量产乘用车的自动驾驶到哪一步了?普遍L2,个别L2+。但是,自主新势力威马突然亮出一款具有L4功能无人驾驶能力的量产车W6。而且威马说,这个L...
- 量子位
-
- 微软 Surface 助力 NTT COMWARE 公司重塑协同办公
- (本文阅读时间:7分钟)作为全球最大电信公司之一日本电信电话株式会社(Nippon Telegraph and Telephone Corporation,以下简称“NTT”)的子公司,NTT COMWARE 一直以技术赋能者的身份向其母公
- 微软科技
-
- HDC.Cloud丨明天见!十大学院求学探秘寻宝锦囊揭秘
- 激动的心,颤抖的手 华为开发者大会2021(Cloud)等了不起的你明天见本届大会全面覆盖各大ICT技术、ICT开放能力、开源技术以及前沿理论和未来技术专业方向琳琅满目难免令开发者们分身乏术如何选对“专业”入对“行...
- 华为
-
- 结合光,可让超导体增强人工智能能力
- 随着人工智能的广泛关注,研究人员将注意力集中在如何理解大脑完成认知上,从而可以构建具有与人类智力相当的人工智能系统。许多人通过将传统的硅微电子技术与光结合起来应对这一挑战。然而,由于与元件所用材料...
- 光行天下
-
- 对不起、我要辞职了!华为突然传来大消息!
- 一最近这几年,网易养猪了,阿里养猪了,京东养完猪又去种菜了,大家听得耳朵都要起茧了!但是,今天华为要干的这件事,估计很多人打死都想不到:华为要种地!是的,你没看错,就是种地!不过,华为要干的,不是...
- 顶级企业家的思维
-
- 某单位攻防演练期间的一次应急响应
- 1 情况概述1.1 情况简介2021年4月18日再次接到告警用户单位某台内网服务存在web后门木马连接行为,需立即进行应急处置。1.2 时间线本次安全事件攻击时间线如下图,攻击者针对oa系统进行攻击,攻击成功后上传web...
- FreeBuf