应用于手机短信查询的拼音纠错技术及装置的制作方法

文档序号:7694922阅读:226来源:国知局
专利名称:应用于手机短信查询的拼音纠错技术及装置的制作方法
技术领域
本发明属于手机扩展功能技术领域,特别涉及一种应用于手机短信査询的拼音纠 错技术及装置。
背景技术
目前在短信上的应用服务由于不具备自然语言处理技术,只能是简单的定制服务 等,用户需要学会发送代码等特定信息才能进行简单的应用。而对于搜索和路径这种 用户需求复杂的应用,这种方式远远不能满足要求,还会因为繁琐的操作步骤造成不 好的用户体验。
手机用户的一个特点为手机输入法带来的输入的错误率较高的问题,目前手机上 输入方法大部分为拼音输入,而且在词组数量、易用性方面远远不如电脑上的输入法, 这就造成很多用户在输入的时候因为操作失误或者为了快捷,使用音似的错别字或词。 如经常可以发现类似这样的短信"直到(知道)到东直门怎么走不?"。在本地搜索和 路况导航的应用中,这种情况出现的更多,因为大部分的地名、路名都不在输入法的 词库中,用户为了方便往往用常用的音似词组代替,在很多情况下,用户甚至也不知 道某个地名、路名的正确写法,只是知道读音,而且路名、地名中有较多的生僻字, 用户不知道如何输入,只能用音似字或形似字代替。如"海龙大厦",用户可能会输入 成"海隆大厦"。"婺源"用户可能会输入成"无缘"或者"蝥源"。在系统层面上,传 统的短信查询系统采用基于关键字或者基于指令的搜索技术,给用户带来了很大的不 便,而上述过程在应用层面上很好的解决了这个问题。

发明内容
本发明的目的在于,对手机用户通过自然语言文本输入的文本进行拼音纠错。 为了实现上述目的,本发明提供了一种应用于手机短信査询的拼音纠错技术,包 含步骤一査找实体的同音、近音实体,对同音或近音错别字进行匹配纠错;步骤 二査找实体的模糊音实体,对模糊音进行匹配纠错;步骤三査找实体的形似扩展 词,对縮写词进行匹配纠错。本发明还提供一种应用于手机短信査询的拼音纠错装置,包含査找实体的同音、 近音实体,对同音或近音错别字进行匹配纠错的同音纠错模块;查找实体的模糊音实 体,对模糊音进行匹配纠错的模糊音纠错模块;査找实体的形似扩展词,对縮写词进 行匹配纠错的縮写纠错模块。
本发明提供的技术方案的有益效果是针对手机输入的特点,对地名的识别应用 拼音纠错的技术以及縮写识别的技术,解决了用户不知道地名具体写法或者地名包含 生僻字时的问题,并方便用户可以不用记住地名的完整名称,更符合用户习惯。通过 本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理 实体词构成的一个联合査询,便于后面的地理导航系统的进一步处理。


图1为本发明的自然语言处理技术流程图2为本发明的拼音纠错技术流程图; 图3为本发明的拼音纠错装置结构示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
本发明提供一种应用于手机短信查询的拼音纠错技术,是基于自然语言处理技术 的另一手机短信息查询纠错方法。图1为本发明的自然语言处理技术流程图。首先,
阐释所述自然语言处理技术,其处理过程为手机用户输入自然语言文本查询语句(步 骤S101),如"从机场到海隆大厦怎么走?"分词模块进行处理,借助常用词词典将
自然语言文本分割成常用词(步骤S102),该句被分割为"从/机场/到/海/隆/大厦/怎么 /走/ /"。然后,文本被发送到词性标注模块,该模块借助词性词典及特征词典,将常 用词标注词性及特征(步骤S103),如"机场"被标注为"通用地名","到"被标注 为动词,通过这样的步骤,我们可以理解句子的结构,如主谓宾等;利用句法特征和
常用词特征辅助对査询语句的分类。再通过问句领域识别模块,借助领域特征词典及 领域问法特征词典,将属于"交通信息"的自然语言文本分发到实体识别模块,这个 步骤需要结合疑问词特征,如是否包含"哪里"、"怎么",动词特征,如"走""到" "去",以及常用词领域特征,如"通用地名"、"常用人名"等,理解查询语句中的简
单语义,根据语义特征对文本进行分类(步骤S104)。将属于"交通信息"的文本发送到实体识别模块,借助领域相关实体词典,识别出可能的领域实体(步骤S105)。 上述问题中的"机场"、"海隆大厦"被识别出。之后,在实体匹配模块中进行实体匹 配,利用POI实体词典,识别出正确的实体的词和可能是实体的词串(步骤S106), 经过此步,所有地名和可能的地名实体都被识别,如"王府井","东四环"。
图2为本发明的拼音纠错技术流程图。然后,对可能是实体的词串进行拼音纠错。 由于手机输入法常常是简单的拼音输入法,容易出现同音或近音错别字,如"中观村",
"海隆大厦"等,我们利用同音纠错模块査找可能实体的同音实体进行纠错(歩骤 S201)。这一步的输出为经纠错的实体匹配结果,上述"海隆大厦"被转换为"海龙大 厦"。同时考虑各地口音特点,再通过模糊音纠错模块,加入了基于模糊音的纠错,如
"f"和"h"等(步骤S202)。再后,通过縮写纠错模块添加形似縮写实体匹配结果, 即将縮写形似的词匹配成正确的实体词(步骤S203)。上述"机场"映射成"首都机 场"。最后,所有匹配实体被输出。
如图3所示,本发明还提供一种应用于手机短信查询的拼音纠错装置,包含同 音纠错模块1,查找可能为实体的同音实体进行匹配,输出经匹配的正确实体;模糊
音纠错模块2,查找可能为实体的模糊音实体进行匹配,输出经匹配的正确实体;縮
写纠错模块3,将縮写形似的词匹配成正确的实体词。
以上仅为本发明的典型实例而己,并非用来限定本发明的实施范围。即凡依照本 发明申请专利范围所作的均等变化与修饰,皆为本发明专利范围所覆盖。
权利要求
1. 一种应用于手机短信查询的拼音纠错技术,其特征在于,包含步骤一查找实体的同音、近音实体,对同音或近音错别字进行匹配纠错;步骤二查找实体的模糊音实体,对模糊音进行匹配纠错;步骤三查找实体的形似扩展词,对缩写词进行匹配纠错。
2、 一种应用于手机短信查询的拼音纠错装置,其特征在于,包含 查找实体的同音、近音实体,对同音或近音错别字进行匹配纠错的同音纠错模块; 查找实体的模糊音实体,对模糊音进行匹配纠错的模糊音纠错模块; 査找实体的形似扩展词,对縮写词进行匹配纠错的缩写纠错模块。
全文摘要
本发明提供一种应用于手机短信查询的拼音纠错技术及装置,步骤一查找实体的同音、近音实体,对同音或近音错别字进行匹配纠错;步骤二查找实体的模糊音实体,对模糊音进行匹配纠错;步骤三查找实体的形似扩展词,对缩写词进行匹配纠错。本发明的优点在于针对手机输入的特点,对地名的识别应用拼音纠错的技术以及缩写识别的技术,解决了用户不知道地名具体写法或者地名包含生僻字时的问题,并方便用户可以不用记住地名的完整名称,更符合用户习惯。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。
文档编号H04Q7/32GK101287228SQ20081011260
公开日2008年10月15日 申请日期2008年5月26日 优先权日2008年5月26日
发明者皖 张, 啸 胡, 楠 赵 申请人:北京捷讯畅达科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1