手持设备上电子辞典中存储和快速查找语音信息的方法

文档序号:84875阅读:256来源:国知局
专利名称:手持设备上电子辞典中存储和快速查找语音信息的方法
技术领域
本发明涉及手持设备领域,特别涉及手持设备上的电子辞典领域,具体是指一种手持设备上电子辞典中存储和快速查找语音信息的方法。
背景技术
目前,市场上出现形形色色的电子辞典,而且功能和词汇量都越来越强大,但是市场的手持设备特别中还没有使用词汇量大并且百分之百真人发音的电子辞典。想要在手机中增加这样的功能,势必造成了要用更多的存储空间来存放海量的辞典文本和语音文件,尤其是海量的单词发音檔。如果存储方式和查找方法不好,就容易使导致手机为辞典大大增加了存储空间,而且用户查找单词的发音时,速度也会变得很慢。
同时,在现有技术中,AMR(Adaptive Multi-Rate)是nokia为WB-AMR格式(AWB)的铃声所作的商业命名,并已经被3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)选定为GSM和3G WCDMA应用的宽带语言编解标准。AMR由欧洲通信标准化委员会提出,是在移动通信系统中使用最广泛的语音标准,MMS也采用这一格式作为声音标准。
目前通常使用的电子辞典的语音文件是以一个单词或词组对应一个语音文件,对于数量较少的文件还是可行的,但是如果在手机中采用高级双解词典,至少要有近五万单词的语音文件,虽然经过AMR的压缩,仍然有二十多兆大。辞典的海量词汇,用户查询发音会更加耗时和占用存储空间,这样就给手持设备上电子辞典的普及以及容量的升级、功能的扩展带来了很大的不便。

发明内容本发明的目的是克服了上述现有技术中的缺点,提供一种有效降低语音文件对手持设备存储空间的占用率、提高检索语音信息速度、用户等待时间较短、操作快捷方便、工作性能稳定可靠、适用面较为广泛的手持设备上电子辞典中存储和快速查找语音信息的方法。
为了实现上述的目的,本发明的手持设备上电子辞典中存储和快速查找语音信息的方法如下
该手持设备上电子辞典中存储语音信息的方法,其主要特点是,所述的存储语音信息的方法包括以下步骤(1)将存储语音信息的语音文件的头信息删除;(2)将所有单词或词组分为数个分组,且每个分组中的单词或词组所对应的语音信息共同组成一个语音文件档包;(3)根据所述的分组建立分组索引表,并根据每个分组中的单词或词组所对应的语音信息建立各个分组所对应的语音信息地址表;(4)将每个单词或词组在分组索引表中所对应的索引信息和在语音信息地址表中的地址信息填入该单词或词组的语音字段中。
该手持设备上电子辞典中存储语音信息的方法的分组索引表的内容为各个分组序号与该分组的语音信息地址表之间的对应关系。
该手持设备上电子辞典中存储语音信息的方法的语音信息地址表的内容包括各个单词或词组所对应的语音信息的存储位置的起始地址和信息长度。
该手持设备上电子辞典中存储语音信息的方法的语音文件为ARM格式文件,所述的头信息长度为7字节,信息内容为0x23、0x21、0x41、0x4D、0x52、0x0A、0x3C。
该基于上述的方法在手持设备上电子辞典中实现快速查找语音信息的方法,其主要特点是,所述的快速查找语音信息的方法包括以下步骤(1)系统进行初始化;(2)系统根据用户操作接收所输入的单词或词组;(3)判断该单词或词组是否有对应的语音信息存在;(4)如果不存在,则重复上述步骤(2);(5)如果存在,则搜索并读取该单词或词组的全部信息;(6)从该单词或词组的信息中提取语音字段信息;(7)根据所述的语音字段信息和所述的分组索引表、语音信息地址表进行提取该单词或词组对应的语音信息的处理操作;(8)在所得到的语音信息上加载语音文件的头信息;(9)将形成的完整的语音文件载入内存中;(10)对所述的语音文件进行播放处理操作;(11)根据用户操作判断是否需要重复发音;(12)如果是,则重复上述步骤(11);否则,重复上述步骤(2)。
该手持设备上电子辞典中快速查找语音信息的方法的分组索引表的内容为各个分组序号与该分组的语音信息地址表之间的对应关系。
该手持设备上电子辞典中快速查找语音信息的方法的语音信息地址表的内容包括各个单词或词组所对应的语音信息的存储位置的起始地址和信息长度。
该手持设备上电子辞典中快速查找语音信息的方法的进行提取单词或词组对应的语音信息的处理操作包括以下步骤(1)根据语音字段信息中的索引信息,在分组索引表中查到该单词或词组所对应的分组;(2)根据语音字段信息中的地址信息,在相应分组所对应的语音信息地址表中得到该单词或词组所对应的语音信息的存储位置的起始地址和信息长度;(3)根据上述的语音信息的存储位置的起始地址和信息长度在该分组所对应的语音文件档包中提取出相应的语音信息。
该手持设备上电子辞典中快速查找语音信息的方法的语音文件为ARM格式文件,所述的头信息长度为7字节,信息内容为0x23、0x21、0x41、0x4D、Ox52、0x0A、0x3C。
该手持设备上电子辞典中快速查找语音信息的方法的播放处理操作为调用ARM格式文件播放器播放该ARM格式的语音文件。
采用了该发明的手持设备上电子辞典中存储和快速查找语音信息的方法,由于在存储过程中将语音文件的头信息去除,同时将语音信息分组合并,而且建立分组索引表、语音信息地址表和单词与语音文件起始地址的直接对应关系,使得不仅可以有效节省手持设备中有限而且宝贵的存储空间,而且通过对分组索引表和语音信息地址表的检索能够有效提高检索语音信息的速度,从而使得用户等待的时间较短,同时操作快捷方便;不仅如此,本发明的方法的工作性能稳定可靠,适用面较为广泛,有利于手持设备上电子辞典的普及应用、容量的升级以及功能的扩展。
图1为本发明的手持设备上电子辞典中所存储的ARM语音压缩文件格式示意图。
图2为本发明的手持设备上电子辞典中所存储的ARM语音压缩文件多级检索示意图。
图3为本发明的手持设备上电子辞典中快速查找语音信息的方法的工作流程图。
具体实施方式为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1至图3所示,该手持设备上电子辞典中存储和快速查找语音信息的方法,包括语音信息的存储操作和语音信息的快速查找操作,其中,所述的语音信息的存储操作包括以下步骤(1)将存储语音信息的语音文件的头信息删除,该语音文件为ARM格式文件,所述的头信息长度为7字节,信息内容为0x23、0x21、0x41、0x4D、0x52、0x0A、0x3C;(2)将所有单词或词组分为数个分组,且每个分组中的单词或词组所对应的语音信息共同组成一个语音文件档包;(3)根据所述的分组建立分组索引表,并根据每个分组中的单词或词组所对应的语音信息建立各个分组所对应的语音信息地址表,该分组索引表的内容为各个分组序号与该分组的语音信息地址表之间的对应关系;该语音信息地址表的内容包括各个单词或词组所对应的语音信息的存储位置的起始地址和信息长度;(4)将每个单词或词组在分组索引表中所对应的索引信息和在语音信息地址表中的地址信息填入该单词或词组的语音字段中;所述的语音信息的快速查找操作包括以下步骤(1)系统进行初始化;(2)系统根据用户操作接收所输入的单词或词组;(3)判断该单词或词组是否有对应的语音信息存在;(4)如果不存在,则重复上述步骤(2);(5)如果存在,则搜索并读取该单词或词组的全部信息;(6)从该单词或词组的信息中提取语音字段信息;(7)根据所述的语音字段信息和所述的分组索引表、语音信息地址表进行提取该单词或词组对应的语音信息的处理操作,该提取单词或词组对应的语音信息的处理操作包括以下步骤(a)根据语音字段信息中的索引信息,在分组索引表中查到该单词或词组所对应的分组;(b)根据语音字段信息中的地址信息,在相应分组所对应的语音信息地址表中得到该单词或词组所对应的语音信息的存储位置的起始地址和信息长度;(c)根据上述的语音信息的存储位置的起始地址和信息长度在该分组所对应的语音文件档包中提取出相应的语音信息;(8)在所得到的语音信息上加载ARM语音文件的相应的头信息;
(9)将形成的完整的语音文件载入内存中;(10)对所述的语音文件进行播放处理操作,该播放处理操作为调用ARM格式文件播放器播放该ARM格式的语音文件;(11)根据用户操作判断是否需要重复发音;(12)如果是,则重复上述步骤(11);否则,重复上述步骤(2)。
在实际应用当中,上述方法不仅适用于手机上的电子辞典,而且适用于快译通、好译通等专门的掌上电子辞典,同时对于PDA、掌上电脑等设备上也能够适用。
对于语音信息的存储过程,可以采用如下方式(1)删去每个语音文件的头信息用AMR压缩PCM格式的语音文件,按照8k的采样率和4.75kbit/s的压缩比率进行压缩后,AMR文件的前7位均为0x23、0x21、0x41、0x4D、0x52、0x0A、0x3C,故这7byte可以在播放该文件的时候再加载内存,这样若有50000单词,便可以节省7byte*50000=341.8K的存储空间。
(2)将3125个单词语音打成一个文件包以前50000个语音文件,即使用最好的两分法,也需要log50000/log2≈15.6次才可以找到,但是如果做成16个档包,只需要4次就可以找到,而且是检索到语音文件的起始地址和长度。
(3)建立单词与语音文件的直接索引表以语音文件的起始地址直接做为单词或词组语音字段的标记,可以大大减少通过大型索引表查询所带来的时间上的花费。例如abandon的存储起始地址是0x00DD11,那么它在字典文本中VIOC字段后的标记就是00DD11。而不是通过全文索引表,根据单词的序号再获得地址。改进后节省了索引的时间。
同时,用这种语音存储和索引机制,可以减少部分存储空间,并且有效的提高语音文件的检索速度,而且本方法通用性强,同时可以用于其它海量电子辞典以及英语考试的听力文件的存取,是一种优化语音文件的好方法。
采用了上述的手持设备上电子辞典中存储和快速查找语音信息的方法,由于在存储过程中将语音文件的头信息去除,同时将语音信息分组合并,而且建立分组索引表、语音信息地址表和单词与语音文件起始地址的直接对应关系,使得不仅可以有效节省手持设备中有限而且宝贵的存储空间,而且通过对分组索引表和语音信息地址表的检索能够有效提高检索语音信息的速度,从而使得用户等待的时间较短,同时操作快捷方便;不仅如此,上述方法的工作性能稳定可靠,适用面较为广泛,有利于手持设备上电子辞典的普及应用、容量的升级以及功能的扩展。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
权利要求
1.一种手持设备上电子辞典中存储语音信息的方法,其特征在于,所述的存储语音信息的方法包括以下步骤(1)将存储语音信息的语音文件的头信息删除;(2)将所有单词或词组分为数个分组,且每个分组中的单词或词组所对应的语音信息共同组成一个语音文件档包;(3)根据所述的分组建立分组索引表,并根据每个分组中的单词或词组所对应的语音信息建立各个分组所对应的语音信息地址表;(4)将每个单词或词组在分组索引表中所对应的索引信息和在语音信息地址表中的地址信息填入该单词或词组的语音字段中。
2.根据权利要求
1所述的手持设备上电子辞典中存储语音信息的方法,其特征在于,所述的分组索引表的内容为各个分组序号与该分组的语音信息地址表之间的对应关系。
3.根据权利要求
2所述的手持设备上电子辞典中存储语音信息的方法,其特征在于,所述的语音信息地址表的内容包括各个单词或词组所对应的语音信息的存储位置的起始地址和信息长度。
4.根据权利要求
1至3中任一项所述的手持设备上电子辞典中存储语音信息的方法,其特征在于,所述的语音文件为ARM格式文件,所述的头信息长度为7字节,信息内容为0x23、0x21、0x41、0x4D、0x52、0x0A、0x3C。
5.一种基于权利要求
1所述的方法在手持设备上电子辞典中实现快速查找语音信息的方法,其特征在于,所述的快速查找语音信息的方法包括以下步骤(1)系统进行初始化;(2)系统根据用户操作接收所输入的单词或词组;(3)判断该单词或词组是否有对应的语音信息存在;(4)如果不存在,则重复上述步骤(2);(5)如果存在,则搜索并读取该单词或词组的全部信息;(6)从该单词或词组的信息中提取语音字段信息;(7)根据所述的语音字段信息和所述的分组索引表、语音信息地址表进行提取该单词或词组对应的语音信息的处理操作;(8)在所得到的语音信息上加载语音文件的头信息;(9)将形成的完整的语音文件载入内存中;(10)对所述的语音文件进行播放处理操作;(11)根据用户操作判断是否需要重复发音;(12)如果是,则重复上述步骤(11);否则,重复上述步骤(2)。
6.根据权利要求
5所述的手持设备上电子辞典中快速查找语音信息的方法,其特征在于,所述的分组索引表的内容为各个分组序号与该分组的语音信息地址表之间的对应关系。
7.根据权利要求
6所述的手持设备上电子辞典中快速查找语音信息的方法,其特征在于,所述的语音信息地址表的内容包括各个单词或词组所对应的语音信息的存储位置的起始地址和信息长度。
8.根据权利要求
7所述的手持设备上电子辞典中快速查找语音信息的方法,其特征在于,所述的进行提取单词或词组对应的语音信息的处理操作包括以下步骤(1)根据语音字段信息中的索引信息,在分组索引表中查到该单词或词组所对应的分组;(2)根据语音字段信息中的地址信息,在相应分组所对应的语音信息地址表中得到该单词或词组所对应的语音信息的存储位置的起始地址和信息长度;(3)根据上述的语音信息的存储位置的起始地址和信息长度在该分组所对应的语音文件档包中提取出相应的语音信息。
9.根据权利要求
5至8中任一项所述的手持设备上电子辞典中快速查找语音信息的方法,其特征在于,所述的语音文件为ARM格式文件,所述的头信息长度为7字节,信息内容为0x23、0x21、0x41、0x4D、0x52、0x0A、0x3C。
10.根据权利要求
9所述的手持设备上电子辞典中快速查找语音信息的方法,其特征在于,所述的播放处理操作为调用ARM格式文件播放器播放该ARM格式的语音文件。
专利摘要
本发明涉及一种手持设备上电子辞典中存储和快速查找语音信息的方法,语音信息的存储操作包括将语音文件的头信息删除、将语音信息分组形成多个语音文件档包、建立分组索引表和语音信息地址表、将索引信息和地址信息填入该单词或词组的语音字段中;语音信息的快速查找操作包括判断该单词或词组是否存在语音信息、若存在则提取该单词或词组的语音字段信息、提取对应的语音信息、加载语音文件的头信息并进行播放处理操作。采用该种手持设备上电子辞典中存储和快速查找语音信息的方法,有效节省了手持设备的存储空间,而且能够有效提高检索语音信息的速度,用户等待的时间较短,操作快捷方便,工作性能稳定可靠,适用面较为广泛,利于电子辞典的普及。
文档编号H04Q7/32GK1996286SQ200610023148
公开日2007年7月11日 申请日期2006年1月6日
发明者毛应龙, 何代水 申请人:英华达(上海)电子有限公司导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1