易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3518|回复: 7

[转]TIMIT语音识别数据集介绍

[复制链接]

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
发表于 2018-8-28 10:24:35 | 显示全部楼层 |阅读模式
本帖最后由 马猴烧酒 于 2018-8-28 10:26 编辑


1 TIMIT数据集简介


    数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域(如语音识别)时,往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是,有很多机构将他们的成熟的数据公开出来,供我们学习、研究,TIMIT数据库就是其中之一。
  TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。


2 TIMIT数据集内容


    TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。 如下图所示。


1.png

图2-1

  在给定的10个句子,包括:

  • 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
  • 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
  • 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。

    TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%),但一般只用到SX和SI的句子,也就是说训练集包括由462个人所讲的3696个句子,全部测试集(complete test set)包括由168个人所讲的1344个句子,核心测试集(Core test)包括由24个所讲的192个句子,训练集和测试集没有重合。具体如下图:
2.png

图2-2


    TIMIT的原始录音是基于61个音素的,如下所示:

2.png

图2-3



    由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。
 下图列出近年来在TIMIT数据库上进行语音识别实验的研究成果,有兴趣可以查看相关论文。

3.png

图2-4

3TIMIT数据集文件

3.1 目录结构  


    目录组织形式如下:


/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>


   示例如下。

  1. <font color="#000000">语料库:timit
  2. 用法:train | test
  3. 方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
  4. 性别:m | f
  5. 说话者ID:<说话者缩写><0-9任意数字>
  6. 句子ID:<文本类型><句子编号>,其中,文本类型:sa | si | sx
  7. 文件类型:wav | txt | wrd | phn

  8. 举例:
  9. (1) /timit/train/dr1/fcjf0/sa1.wav
  10. (2) /timit/test/df5/mbpm0/sx407.phn</font>
复制代码

3.2文件类型


 TIMIT语料库包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt),经过时间对齐(time-aligned)的单词内容(.wrd),经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下:


<采样起始点> <采样结束点> <文本内容>
  …        …       …
  …        …       …
  …        …       …
<采样起始点> <采样结束点> <文本内容>


    示例如下。

  1. <font color="#000000">采样起始点:语音段的开始位置(整数)。对于每一个文件,第一个起始位置总是0。
  2. 采样结束点:语音段的结束位置(整数)。由于翻译方法(transcription
  3.       method)的使用,最后一个采样结束位置的值可能比对应的.wav文件。
  4. 文本内容:<完整句子> | <单词标签> | <音素标签>

  5. 举例:(/timit/test/dr5/fnlp0/sa1.wav):

  6. .txt:

  7. 0 61748 She had your dark suit in greasy wash water all year.

  8. .wrd:

  9. 7470 11362 she
  10. 11362 16000 had
  11. 15420 17503 your
  12. 17503 23360 dark
  13. 23360 28360 suit
  14. 28360 30960 in
  15. 30960 36971 greasy
  16. 36971 42290 wash
  17. 43120 47480 water
  18. 49021 52184 all
  19. 52184 58840 year

  20. .phn:(开始和结束的静音区以h#标记,展示部分内容)

  21. 0 7470 h#
  22. 7470 9840 sh
  23. 9840 11362 iy
  24. 11362 12908 hv
  25. 12908 14760 ae
  26. 14760 15420 dcl
  27. 15420 16000 jh
  28. 16000 17503 axr
  29. 17503 18540 dcl
  30. 18540 18950 d
  31. 18950 21053 aa
  32. 21053 22200 r
  33. 22200 22740 kcl
  34. 22740 23360 k</font>
复制代码

4 小结


    TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面:

  • 数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;
  • 数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。




回复

使用道具 举报

9

主题

74

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2018-9-10 09:02:38 | 显示全部楼层
哇,语音识别数据集,可惜是英文的
回复

使用道具 举报

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
 楼主| 发表于 2018-9-11 17:35:30 | 显示全部楼层
蛋蛋超人 发表于 2018-9-10 09:02
哇,语音识别数据集,可惜是英文的

中文分词要难一点,学东西从易到难比较好
回复

使用道具 举报

9

主题

74

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2018-9-15 09:44:23 | 显示全部楼层
马猴烧酒 发表于 2018-9-11 17:35
中文分词要难一点,学东西从易到难比较好

恩,想要学习自然语言处理,这个很有挑战性,能推荐下学习资源吗?马猴老哥
回复

使用道具 举报

15

主题

97

帖子

310

积分

论坛管理

Rank: 4

积分
310
发表于 2018-9-17 11:55:25 | 显示全部楼层
蛋蛋超人 发表于 2018-9-15 09:44
恩,想要学习自然语言处理,这个很有挑战性,能推荐下学习资源吗?马猴老哥 ...

斯坦福的CS231课程http://cs224d.stanford.edu/
回复

使用道具 举报

4

主题

33

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2018-10-8 08:41:10 | 显示全部楼层
数据集真心不错
回复

使用道具 举报

2

主题

54

帖子

122

积分

注册会员

Rank: 2

积分
122
发表于 2018-10-9 08:34:18 | 显示全部楼层
这一个模块都很不错,有很多数据集分享。赞一个
回复

使用道具 举报

22

主题

107

帖子

266

积分

中级会员

Rank: 3Rank: 3

积分
266
 楼主| 发表于 2018-10-10 08:36:26 | 显示全部楼层
stamina 发表于 2018-10-9 08:34
这一个模块都很不错,有很多数据集分享。赞一个

一起分享啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-4-21 00:21 , Processed in 0.021631 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表