本帖最后由 马猴烧酒 于 2018-8-28 10:26 编辑
1 TIMIT数据集简介
数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域(如语音识别)时,往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是,有很多机构将他们的成熟的数据公开出来,供我们学习、研究,TIMIT数据库就是其中之一。
TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。
2 TIMIT数据集内容
TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。 如下图所示。
图2-1
在给定的10个句子,包括:
- 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
- 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
- 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%),但一般只用到SX和SI的句子,也就是说训练集包括由462个人所讲的3696个句子,全部测试集(complete test set)包括由168个人所讲的1344个句子,核心测试集(Core test)包括由24个所讲的192个句子,训练集和测试集没有重合。具体如下图:
图2-2
TIMIT的原始录音是基于61个音素的,如下所示:
图2-3
由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。
下图列出近年来在TIMIT数据库上进行语音识别实验的研究成果,有兴趣可以查看相关论文。
图2-4
3TIMIT数据集文件
3.1 目录结构
目录组织形式如下:
/<语料库>/<用处>/<方言种类>/<性别><说话者ID>/<句子ID>.<文件类型>
示例如下。 - <font color="#000000">语料库:timit
- 用法:train | test
- 方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
- 性别:m | f
- 说话者ID:<说话者缩写><0-9任意数字>
- 句子ID:<文本类型><句子编号>,其中,文本类型:sa | si | sx
- 文件类型:wav | txt | wrd | phn
- 举例:
- (1) /timit/train/dr1/fcjf0/sa1.wav
- (2) /timit/test/df5/mbpm0/sx407.phn</font>
复制代码
3.2文件类型
TIMIT语料库包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt),经过时间对齐(time-aligned)的单词内容(.wrd),经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。这些文件的格式如下:
<采样起始点> <采样结束点> <文本内容>
… … …
… … …
… … …
<采样起始点> <采样结束点> <文本内容>
示例如下。 - <font color="#000000">采样起始点:语音段的开始位置(整数)。对于每一个文件,第一个起始位置总是0。
- 采样结束点:语音段的结束位置(整数)。由于翻译方法(transcription
- method)的使用,最后一个采样结束位置的值可能比对应的.wav文件。
- 文本内容:<完整句子> | <单词标签> | <音素标签>
- 举例:(/timit/test/dr5/fnlp0/sa1.wav):
- .txt:
- 0 61748 She had your dark suit in greasy wash water all year.
- .wrd:
- 7470 11362 she
- 11362 16000 had
- 15420 17503 your
- 17503 23360 dark
- 23360 28360 suit
- 28360 30960 in
- 30960 36971 greasy
- 36971 42290 wash
- 43120 47480 water
- 49021 52184 all
- 52184 58840 year
- .phn:(开始和结束的静音区以h#标记,展示部分内容)
- 0 7470 h#
- 7470 9840 sh
- 9840 11362 iy
- 11362 12908 hv
- 12908 14760 ae
- 14760 15420 dcl
- 15420 16000 jh
- 16000 17503 axr
- 17503 18540 dcl
- 18540 18950 d
- 18950 21053 aa
- 21053 22200 r
- 22200 22740 kcl
- 22740 23360 k</font>
复制代码
4 小结
TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面: - 数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;
- 数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。
|