如果你用过iPhone手机,你肯定熟悉苹果的虚拟助手Siri。
它可以回答问题,完成任务,管理日历,在大多数情况下,你听到的是一个舒缓的女性声音。
但苹果是如何让Siri听起来像现在这样的呢?
多亏苹果发布的一些新研究论文,我们才得以了解到Siri助手的语音的打造过程。
在大多数情况下,Siri使用的是一个舒缓的女性语音,但是其实它还有很多语音选项,男性和女性都有,还有美国、英国和澳大利亚等不同地区的口音,这些不同的语音选项都是根据真人配音演员的语音制作而成。
苹果工程师写道:“在挑选配音演员时,首先也是最重要的一点是:这名演员的语音必须与Siri的个性兼容。”
他们没有详细说明“Siri的个性”到底是什么,但它通常表现为克制、中立和专业,偶尔会给那些知道该问什么的人开个玩笑。
一旦找到合适的语音人才,苹果就会记录下他们10到20个小时的语音。苹果Siri团队在一篇博客文章中写道:“从有声书籍到导航指令,从提示的答案到诙谐的笑话,录制脚本的工作都有所不同。”
通常情况下,这种自然语音被录制下来后并不能马上就使用,因为不可能将所有可能的话语都录制下来。因此,这些语音会被分割成很多个组成块,然后用这些组成块来生成新的话语。用组成块生成的新话语甚至可能是那些配音演员从未说过的话。
Siri团队通过这个复杂的过程来构建Siri语音,让语音听起来很自然,很像真人发出的语音。为了达到这样的目的,苹果使用了一些人工智能技术。苹果的研究员们在新发表的论文中解释了他们是如何做到这一点的。
研究团队的努力似乎奏效了。苹果在论文中写道:“在测试中,与旧的语音相比,新语音的评级明显更好一些。”
苹果的保密工作历来做得很好,它很少谈论内部运作。但在2016年12月,公司宣布允许其人工智能研究人员公开发表他们的研究成果,并且允许他们更多地参与更广泛的学术社区。苹果这样做是为了吸引更多的人工智能专家加入该公司。