查看: 1361|回复: 1

端到端语音识别时代

[复制链接]

665

主题

1234

帖子

6683

积分

xdtech

Rank: 5Rank: 5

积分
6683
发表于 2018-12-22 21:21:56 | 显示全部楼层 |阅读模式
时间回到2018 interspeech,谷歌Rohit Prabhavalkar 和Tara Sainath做了关于谷歌在end-to-end models for Automatic Speech Recogntion的分享,具体的ppt内容可以见这里。谷歌一直走在语音识别技术的前沿,从LSTM,CTC,再到这次的LAS模型。大神们一如既往地引领大家一直追求语音识别的不断提升。

与此同时,谷歌另一路大神们发明了Transformer,具体见https://github.com/tensorflow/tensor2tensor。当然不例外,同样给出源码跟语音识别例子。国内自动化所zhou shiyu博士把这个带人汉语,写了很多论文,具体可以去arxiv里周博士的论文,同样证明很有效。

也许在同时,espnet团队也开源了espnet(end-to-end speech processing toolkit),该工具箱融合了kaldi的数据处理,特征处理;借助pytorchchainer,使用python把CTC跟attention模型串起来,抛弃了fst的一整套东西,同时在各个开源数据集上取得还不错的性能。目前espnet不仅仅能做语音识别,还可以做语音合成。

也与此同时,NVIDIA团队开源了openSeq2Seq,一种基于tensorflow的框架,也可以实现CTC跟seq2seq的模型。你可以基于此做翻译,语音识别,语音合成等等序列任务。个人觉得这个平台把语音解码用C++实现了,你可以快速工程化。

再来到facebook,他们先基于lua弄了一套wav2letter,但是最近他们整了一套wav2letter++。为什么叫++,那当然是用c++来实现了,那肯定也可以快速工程化了。但是wav2letter++刚开源还有一堆坑要去填。当然这个也肯定是CTC跟attention。

以上五条也许在告诉我们基于fst的语音识别框架要被end-to-end语音识别框架替代了。时代在前进,语音识别的门槛已经降低了很多很多。拥抱变化,在这快速变化的世界里才有足够多的机会。未来的语音识别一定成为一个像电、煤气的基础功能。让我们一起为这美好的开源时代欢呼。


回复

使用道具 举报

166

主题

616

帖子

1万

积分

xdtech

Rank: 5Rank: 5

积分
11704
发表于 2018-12-26 17:15:55 | 显示全部楼层
终于到这个时代了
语音识别
一直都是
好复杂的架构

这次就清晰了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表