腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

俞栋,深度学习,声学模型,卷积神经网络

1、引言

过去几年里,自动语音识别(ASR)已经取得了重大的进步。这些进步让ASR系统越过了许多真实场景应用所需的门槛,催生出了Google Now、微软小娜和亚马逊Alexa等服务。这些成就中很多都是由(Deep Learning)技术推动的。

在这篇论文中,我们调查了过去两年的新进展,并重点关注了。我们讨论了所调查的每一项有趣研究成果的动机和核心思想。具体而言,第2节中,我们阐释了使用深度循环神经网络(RNN)和深度(CNN)的改进的DL/HMM(深度学习-隐马尔可夫模型)混合声学模型。比起前馈深层神经网络(DNN),这些混合模型能更好地利用语境信息,并由此得到了新的当前最佳的识别准确度。

第3节中,我们描述了仅使用很少或不使用不可学习组件的以端到端方式设计和优化的声学模型。我们首先讨论了直接使用音频波形作为输入特征的模型,其特征表征层是自动学习到的,而不是人工设计的。然后我们描述了联结主义时序分类(Connectionist Temporal Classification,CTC)标准优化的模型,该模型允许序列到序列的直接……

这篇文章发布很久了,已经被归档请点击阅读更多文章
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
相关推荐
  • 暂无相关文章
  • 评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容