使用自然语言的车载信息服务系统语音操作方法及系统的制作方法

文档序号：7887927阅读：423来源：国知局

专利名称：使用自然语言的车载信息服务系统语音操作方法及系统的制作方法
技术领域：
本发明属于通信技术领域，涉及一种车载信息服务系统的语音操作方法，尤其涉及一种使用自然语言的车载信息服务系统的语音操作方法，以及一种语音操作系统。
背景技术：
远程信息服务(Telematics)是通信(Telecommunication)和信息科学 (Informatics)的合成词，所谓Telematics系统即通过内置在汽车上的计算机系统、无线通信设备、卫星导航装置、互联网技术等，来提供文字、语音、图像等信息传送的服务系统。 TSP平台(Telematics ServicePlatform)为一种基于无线通信技术、卫星定位(GPS)技术、地理信息系统技术、互联网技术和呼叫中心平台而为驾车者提供Telematics服务的软件平台。其中OMter系统与G-B00K系统是两个主要成功的应用Telematics系统的厂商，而国内在Telematics正处于起步阶段，随着语音合成技术在导航领域大量成功应用，在部分导航系统中语音识别技的应用也开始崭露头角。语音识别技术能减少用户操作的次数，提高用户体验。通过语音识别技术让用户体验到“只需动口，不需要动手”的目标。尤其对于驾车者得用户，在开车过程中，尽量减少操作动作，一方面方便用户，一方面提供驾驶者的安全保障。如中国发明专利申请“车辆导航装置语音控制系统”(公开号CN 1841312A)公开了一种车辆导航装置控制系统，包含一能识别出语音信息的语音识别模块、判断语音信息是控制指令还是地图地名的指令判别模块。语音识别模块识别出结果后，在语音控制指令库中查询结果，看识别出的语音为控制指令还是地图地名。如果在语音控制指令库中查到结果，则为控制指令；如果在语音控制指令库中未查到结果，则认为是地图地名。可以看出，该语音控制系统的语音输入必须为控制指令或地图地名；且控制指令限于地图控制指令、导航控制指令和地图查询指令三种指令，无法满足车载信息服务系统的需求。中国发明专利申请“可用于汽车的语音命令控制方法及系统”(公开号CN 101217584A)公开的语音识别模块使用非特定人中文语音识别技术，利用麦克风输入语音命令，通过EM220CN对语音命令进行识别。因此，该方法的语音输入也限定在命令短语上。随着车载信息服务系统的发展，目前语音识别在导航仪终端上的使用场景为先选定需要识别的类型，然后录音按钮，然后开始说话，之后系统自动识别并返回识别结果，如下图所示。其中操作类型为查询目的地、查询周边设施、查询交叉路口等等。这种应用虽然能为用户带来一定便利，但是其局限性也非常明显。主要表现为1)用户需要先限定待识别的操作类型。通过限定待识别的操作类型，对于语音识别的难度系数减少，增加了查询命中率，但是带来负面效果是，用户多执行了一步操作，降低了用户体验的便捷性。
2)用户交互内容。用户说的内容需要为短语，而不是句子。如用户选定查询目的地的操作类型，用户说的内容为“北京火车站”，而不是“我要去北京火车站”，这样的设计不符合用户自然语言交互的要求。

发明内容
本发明的目的在于提供一种使用自然语言的车载信息服务系统的语音操作方法。本发明的另一目的在于提供一种使用自然语言的车载信息服务系统的语音操作系统。本发明的使用自然语言的车载信息服务系统的语音操作方法，其步骤包括1、启动语音输入，接收自然语言的语音输入并生成语音文件；2、将语音文件转换成纯文本文件；3、对所述纯文本文件进行文本分词；4、根据分词后的文本识别操作类型及其操作关键词和操作属性；5、根据所述操作类型及其操作关键词和操作属性，执行相应操作。所述类型包括目的地查询；周边设施查询；交叉路口查询；音乐下推；拨打电话。本发明通过启动导航仪语音输入按钮，接收自然语言的语音输入并生成语音文件；导航仪将语音文件通过无线通信方式发送给互联网上的语音处理服务器；所述语音服务器调用语音云服务器接口，将语音文件发送给语音云服务器；由语音云服务器将语音文件转换成纯文本文件，发送给语音服务器的语言处理模块；通过语言处理模块对所书纯文本文件进行文本分词并识别操作类型及其操作关键词和操作属性；由导航仪根据所述操作类型及其操作关键词和操作属性，执行相应操作。本发明还包括去除口语化词的步骤，去除分词后的文本中的口语化词。本发明设口语化词词库，将文本中的分词与口语化词词库进行匹配，根据匹配结果去除文本中的口语化词。本发明设操作模式库，存储各种操作类型及其操作关键词和操作属性。将分词后的文本与操作模式库进行匹配，以识别操作类型及其操作关键词和操作属性。本发明设分词用中文词典，中文词典采用树状结构，第一层以中文词条的首字作为索引，采用哈希表存储；第二层，采用线性顺序表存储词条的第二个字，去除相同的字并形成一个有序的线性表，线性表结点以提取汉字的内码值排序，同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志；在树的其余层次的节点，采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针。本发明设用户行为习惯规则表，对于未能完成识别的文本，与用户行为习惯表规则表进行匹配以确定操作类型及其操作关键词和操作属性。本发明的使用自然语言的车载信息服务系统的语音操作系统，包括一导航仪，设录音键和语音输入装置，用以接收语音输入并生成语音文件；一车载信息服务系统语音服务器，与导航仪无线通信，接收导航仪发送的语音文件；一语音云服务器，与所述车载信息服务系统设语音云服务器网络连接，接收语音文件并将其转换为纯文本文件并发送给车载信息服务系统语音服务器的语言处理模块；所述语音处理模块含中文词典和操作模式库，用以将纯文本文件分词，并识别操作类型及其操作关键词和操作属性，并将识别结果发送导航仪的操作执行模块，由其执行相应操作。上述语音处理模块还含ロ语化词词库，用以去除分词后的文本中的ロ语化词。本发明实现了使用自然语言的车载信息服务系统的语音操作方法，用户只需要在导航仪上用ロ语化的交流方式说出自已想要进行的操作，而不需要先选定操作类型，再用短语的交互方式来对机器进行操作。本发明与现有技术相比具有如下优势1)是减少了用户操作步骤。由原来三步操作，降低为ニ步操作；2)使用ロ语化的自然语言，代替原来的短语/词组的交互方式。

图1现有语音操作方法示意图；图2本发明语音操作方法示意图；图3本发明ー实施例的语音操作方法示意图；图4本发明文本识别流程图。
具体实施例方式本发明首先要研究了用户使用自然语言识别技术的应用环境、场景、流程。通过对导航用户进行电话回访、调查问卷、论坛收集信息等方式，同时利用Telematics平台的服务录音功能，统计分析用户的真实需求，通过分析实际用户使用情况的分析、研究，我们利用归纳、分类方法，得出真实的应用需求，确定了用户操作的各种类型，其中主要的操作类型包括1)目的地查询；2)周边设施查询；3)交叉路ロ查询；4)音乐下推；5)拨打电话。当然，随着信息服务的不断拓展，还会有更多的操作类型，但都可采用本发明的方法和系统来实现语音操作。如图3所示，本发明的语音操作系统包括三大部分导航仪、Telematics语音处理服务器、语音云。语音操作流程如下第一歩用户在导航仪上按下录音按钮后，启动语音输入，然后以自然语言的方式向导航系统发布操作信息。导航系统生成录音文件，将录音文件进行加密、压缩、编码处理，通过无线通信方式，将处理后的录音文件发送给Telematics语音服务器；第二步语音服务器收到录音文件，进行解码、解压、解密处理，然后调用语音云服务器的接ロ，将录音文件传递给语音云处理。第三步语音云收到录音文件，对录音文件进行处理生成TXT文本(纯文本)文件，并返回给语音服务器的自然语言处理模块。第四步自然语言处理模块收到TXT文本文件后，进行自然语言处理，解析出用户欲达成的操作，如查询POI目的地操作，将识别结果返回给导航仪的操作执行模块。第五步导航仪对收到的识别结果进行处理，执行相应操作。如果是查询结果，则直接显示。如果是拨打电话，则直接拨电话。下面详细说明本发明的自然语言文本的识别过程。由于在车载服务系统中的自然语言处理是特定应用领域，而且是ロ语化的自然语言交互处理流程，经过对问题域的研究，得出该技术的应用就具体应用场景，能归纳总结出主要的应用模式，使用自然语言模式匹配算法处理，能解决自然语言在车载系统的应用问题。模式匹配算法主要包括文本分词、去噪处理、操作关键词识别、操作模式匹配、识别结果返回等几部分。对于不能识别的文本内容，本发明提供了系统自学习功能，能够对模式库及其关键词库、ロ语库进行不断完善与丰富。一、文本分词对交互的自然语言处理首先要进行分词处理，目前常用的分词技术有“正向最大匹配分词”、“逆向最大匹配分词”、“基于TRIE索引树的分词词典机制”、“基于逐字二分的分词词典机制”等，这些分词技术在效率、空间使用率都各有优缺点。本发明的中文词典采用树状结构。词典的第一层以中文词条的首字作为索引，采用哈希表存储，以提高首字的查找速度。这样，首字成为根节点，所有首字相同的词成为一組，属于同一棵树。因为在汉语中二字词较多，如果词条的次字仍以哈希表存储的话，虽然可以提高查找速度，但是这种词典的大小和最为庞大的TRIE树结构比起来改进甚微，所以在森林的第二层，采用线性顺序表来存储词条的第二个字，去除相同的字并形成一个有序的线性表，线性表结点以提取汉字的内码值排序，同时存储以此汉字为首的单词的剰余部分构成的线性表的指针以及ー个是否为词的标志。在树的其余层次的节点，仍然采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针。为了使用二分查找来提高匹配速度，第二层以下都是线性表，但是逻辑结构则是ー棵汉字构成的单词数，这样构成ー个支持逐字查找的、在第一层首字以哈希表存储，以下逐层依照线性有序表存储的森林结构。在分词过程中利用上述数据结构进行逐层分词匹配查询，来解决文本的分词问题。ニ、去噪处理(去ロ语化词)ロ语话的语言中经常会夹杂着迟疑、缀语、重复等ロ头语的词汇，如“啊”、“呢”、 “这个”等，去噪处理的作用是将ロ语自然语言中的ロ语化词去棹。一)ロ语化词词库建立首先建立日常ロ语词库Si，然后对Telematics运营过程中积累的客户录音文件中的常用ロ语整理和统计，得到词库S2。在S2中按照每个词的词频高低不同降序排列，将 Sl库和S2做合并处理，得到新集合S3，即ロ语化词词库，S3词库中的ロ语化词是按照在日常生活中出现词频的从高到低进行排列的。ニ )去噪过程处理流程1)依次取出文本L中各个分词Ql，Q2，…，Qn ；2)用Qi逐条和S3库中每个词Pi进行全字匹配；
3)如果匹配成功，则Qi为ロ语词，则去棹，如果匹配失败，则继续直到结尾；4)最后整理出新的分词词组为去噪后的分词后的文本。三、操作类型、操作关键词和操作属性识别— )操作模式库通过对Telematics平台中用户服务录音文件的分析和日常生活中ロ语化语言分折，归纳总结，本发明建立了用户常见的自然语言操作模式库，该模式库存储各类型下的操作模式，每ー类型操作模式包含本模式的操作关键词和操作属性，如下表所示表一
操fi.:炎咽编り操fi.:炎喂校式编''J校ズ内界
Al打电话MAll{给}<人名>{打电话}
MA12{打}{电话}{给}<人名>
A2POI查询 MA21{去}<行政区><POI名称>
MA22{查/找}<行政区 >的401名称>
MA23{到}<行政区><POI名称>
A3周边设施查MA31{找}<附近的><设施分类名>询MA32{周边的}<设施分类>
MA33<POI名称>{附近:}<设施名>
A4交叉路ロ查MA41<路名 >与<路名 > 的丨交叉ロ:}
询MA42{查/找}<路名{路/街/里弄/胡同}>，I、<路名
{路/街/里弄湖同}>
A5音视频下推 MA51{听丨< 人名 >的<歌曲视频名>
MA52{下载丨< 人名 >的<歌曲视频名>其中，对于每一操作类型下的每条操作模式，都存在一条或者多条的操作关键词和操作属性，如编号为MA12的操作模式中“ {}”内为操作关键字，“ ”内为操作属性。ニ)用户习惯行为规则表用户使用习惯行为的数据是通过车载终端设备中ΝΓ‘用户习惯收集模块”，收集所有用户行为，如在一段时间内，用户打电话的次数为10次、打电话的时间、听本地存储的歌曲次数，歌曲名字，听歌曲时间、地点等等，然后通过无线通信技木，在一定条件下(如开机后的某个空闲时间)将“用户习惯数据”在车机上传输到Telematics语音处理服务器中，由其N2 “用户习惯处理”模块处理，N2从用户在后台的服务记录数据库中(数据库中记录用户请求服务相关信息，如请求目的地查询的次数8次、给好友打电话转接3次数等等)取出已有的类似的用户习惯数据，N2将二者按照操作类型进行数据融合统计形成用户的“ POI 查询使用习惯库”、“打电话库”、“查询周边数据库”……等等，然后根据多个数据的数据按照某个用户进行统计，得出用户的某个操作的次数列表，然后对经常性行为按照出现频率分成从高到低进行排序，形成用户习惯行为规则表。如表ニ所示表ニ
优先级动作名称比例
1A2POI 查询82%
2Al打电话78%
3A5音视频下推63%三)操作关键词识别1)逐条取出自然语言文本L中的每个分词Qi，用Qi与每个模式规则MAj中的关键词 MAKm(MAK1，MAK2,…，MAKn)进行匹配；2)计算每个关键词的匹配率Rm = Qi/MAKm(Rl, R2，…，Rn)；3)然后计算平均匹配率Ri = (R1+R2+···+! !!)/!!，如果Ri大于约定的匹配率值，则认为该文本L的动作为Aj条动作。否则，继续匹配下去；4)如果没有任何规则满足文本L，则使用“用户习惯规则表”进行逐项匹文本L，当二者的文字匹配度达到一定值以上，认为这项内容符合文本L，如此会返回给用户多个选择結果。如用户的自然语言是“青花瓷”，当匹配不到具体规则时，按照用户习惯规则表中该用户使用习惯的高低，先选择查询是否有“青花瓷”的信息点，如果有，则保存起来；然后继续查询是否有好友叫“青花瓷”的人，如果有，保存起来表示要给这个人打电话等等，然后将保存的多个内容和操作需要的相关数据(如信息点名称、坐标、好友电话号码等)发送给终端设备，并提示用户选择某项服务内容，当用户选择后，终端车机执行相应的操作。四)操作类型及操作属性识别如果确定文本L属于某个操作类型Ai后，验证每个操作类型Ai的操作模式库中的每条操作模式MAj。每条MAj操作模式的属性匹配率要达到一定阈值以上，即可以认为该文本L符合该操作模式MAj，然后按照该操作模式进行后续处理。操作模式库建立后，每条操作模式都包含有限的操作属性信息。如POI查询，模式模式表示为MA2i = {Key}, <POINameXDistrName>。POI查询中基本包含两类操作属性，ー个为POI名称，ー个为行政区名。系统对每个操作属性建立ー套属性数据库PDi和ー套匹配规则PMi。例如，对于行政区名建立行政区属性数据库PDi，存储全国所有的省、市、县、乡/镇、村的行政区名称，而匹配规则PMi为计算〈DistrName〉中所有汉字与PDi中各个词的匹配度，当匹配度达到一定阈值以上，如90%，就可以认定这个属性就是行政区的属性，并且属于中的PDi某ー个项，标明文本L中含有该操作属性信息。四、操作执行对于匹配到操作的文本L，进行相应操作执行。如查询Ρ0Ι，导航仪依据行政区划分可以进行查询，并显示查询結果。对于没有匹配到任何动作的文本L，则由语音处理服务系统会通知呼叫中心平台的坐席员给用户打电话，人工处理用户的操作请求。然后将该操作文本L，加入未识别知识库中，由人工进行分析，解析为某个操作的模式，如MAk = {keyl***keyn}，<Propertyl>, <Property2>,…，<Propertym>0将该操作模式加入到操作模式库中，系统在下次遇到类似自然语言后，会自动识别并解析出正确操作需求。其中未识别知识库是用来保证闭环和系统自我完善、再学习的。本发明给出了在车载信息服务平台下，利用自然语言的模式匹配算法解决用户与导航仪自由交互的问题。利用本发明提出的自然语言语音操作方法，会极大提高用户与导航仪进行人机交互的体验度，増加用户的粘性。
权利要求
1.一种使用自然语言的车载信息服务系统的语音操作方法，其步骤包括1)启动语音输入，接收自然语言的语音输入并生成语音文件；2)将语音文件转换成纯文本文件；3)对所述纯文本文件进行文本分词；4)根据分词后的文本识别操作类型及其操作关键词和操作属性；5)根据所述操作类型及其操作关键词和操作属性，执行相应操作。
2.如权利要求1所述的方法，其特征在于，所述类型包括目的地查询；周边设施查询；交叉路口查询；音乐下推；拨打电话。
3.如权利要求1所述的方法，其特征在于，启动导航仪语音输入按钮，接收自然语言的语音输入并生成语音文件；导航仪将语音文件通过无线通信方式发送给互联网上的语音处理服务器；所述语音服务器调用语音云服务器接口，将语音文件发送给语音云服务器；由语音云服务器将语音文件转换成纯文本文件，发送给语音服务器的语言处理模块；通过语言处理模块对所书纯文本文件进行文本分词并识别操作类型及其操作关键词和操作属性；由导航仪根据所述操作类型及其操作关键词和操作属性，执行相应操作。
4.如权利要求1所述的方法，其特征在于，还包括去除口语化词的步骤，去除分词后的文本中的口语化词。
5.如权利要求1所述的方法，其特征在于，所述分词采用中文词典，所述中文词典采用树状结构，第一层以中文词条的首字作为索引，采用哈希表存储；第二层，采用线性顺序表存储词条的第二个字，去除相同的字并形成一个有序的线性表，线性表结点以提取汉字的内码值排序，同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志；在树的其余层次的节点，采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针。
6.如权利要求1所述的方法，其特征在于，对于未能完成识别的文本，与事先建立的用户行为习惯表规则表进行匹配以确定操作类型及其操作关键词和操作属性。
7.如权利要求1所述的方法，其特征在于，所述语音文件经过加密、压缩、编码处理，所述语音服务器对所述语音文件先进行解码、解压、解密处理。
8.如权利要求1所述的方法，其特征在于，解析未识别的文本，通过自学习的方式引入下次识别。
9.一种使用自然语言的车载信息服务系统的语音操作系统，包括一导航仪，设录音键和语音输入装置，用以接收语音输入并生成语音文件；一车载信息服务系统语音服务器，与导航仪无线通信，接收导航仪发送的语音文件；一语音云服务器，与所述车载信息服务系统设语音云服务器网络连接，接收语音文件并将其转换为纯文本文件并发送给车载信息服务系统语音服务器的语言处理模块；所述语音处理模块含中文词典和操作模式库，用以将纯文本文件分词，并识别操作类型及其操作关键词和操作属性，并将识别结果发送导航仪的操作执行模块，由其执行相应操作。
10.如权利要求9所述的系统，其特征在于，所述语音处理模块还包含一口语化词词库，用以去除分词后的文本中的口语化词；一用户行为习惯规则表，用以与未能完成识别的文本进行匹配以确定操作类型及其操作关键词和操作属性；一未识别知识库，用以存储未能识别的文本，并经解析后存入操作模式库。
全文摘要
本发明属于通信技术领域，涉及一种使用自然语言的车载信息服务系统的语音操作方法及一种语音操作系统。本发明先启动语音输入，接收自然语言的语音输入并生成语音文件；将语音文件转换成纯文本文件；对所述纯文本文件进行文本分词；根据分词后的文本识别操作类型及其操作关键词和操作属性；根据所述操作类型及其操作关键词和操作属性，执行相应操作。本发明实现了使用自然语言的车载信息服务系统的语音操作，减少了用户操作步骤。
文档编号H04M11/00GK102543082SQ20121001810
公开日2012年7月4日申请日期2012年1月19日优先权日2012年1月19日
发明者王刚申请人:北京赛德斯汽车信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王刚
技术所有人：北京赛德斯汽车信息技术有限公司
我是此专利的发明人

上一篇：被动辐射度量成像设备和方法
上一篇：一种基于云计算部署提供获取动态路由、静态路由的调用方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。