词语识别方法及装置制造方法

文档序号:6493600阅读:238来源:国知局
词语识别方法及装置制造方法
【专利摘要】本发明的实施方式提供了一种词语识别方法,包括:对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。通过使用常用词语的先验知识对词语进行识别,获得整个词语的置信度,降低了单个字识别的误差,提高了词语识别的准确率和效率。
【专利说明】词语识别方法及装置【技术领域】
[0001]本发明的各实施方式涉及词语识别方法及装置。
【背景技术】
[0002]在对词语进行光学字符识别时,通常先将词语通过各种拆分方法拆分为多个文字,然后对每个文字分别进行识别。这种方法一方面速度较慢,另一方面,可能某个文字区域不清晰或有残缺而导致该区域对应文字的识别不准确。而且,由于每个字的识别具有一定的错误概率,这使得整个词语的准确识别的概率就更低。

【发明内容】

[0003]鉴于上述原因,本发明提供一种词语识别方法及装置,其通过使用出现频率较高的常用词与要识别的词语进行比较,从而获得对词语较高的识别率。
[0004]根据本发明的一个方面,提供一种词语识别方法,包括:对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
[0005]根据本发明的另一方面,使用光学字符识别(OCR)对所述单字进行识别。
[0006]根据本发明的另一方面,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
`[0007]根据本发明的另一方面,当某个常用词中的某个单根据本发明的另一方面字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
[0008]根据本发明的另一方面,仅搜索与被识别的词语字数相同的常用词。
[0009]根据本发明的另一方面,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
[0010]根据本发明的另一方面,提供一种词语识别装置,包括:单字识别单元,用于对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;常用词搜索单元,用于搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;置信度计算单元,用于计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;输出单元,若置信度最高的常用词的置信度大于一阈值,输出单元输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
[0011]根据本发明的另一方面,所述单字识别单元包括光学字符识别(OCR)引擎。[0012]根据本发明的另一方面,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
[0013]根据本发明的另一方面,该常用词搜索单元被配置为当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
[0014]根据本发明的另一方面,该常用词搜索单元被配置为仅搜索与被识别的词语字数相同的常用词。
[0015]根据本发明的另一方面,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
[0016]通过使用常用词语的先验知识对词语进行识别,获得整个词语的置信度,降低了单个字识别的误差,提高了词语识别的准确率和效率。该词语识别方法和词语识别装置在名片等具有特定常用词的场合中的词语识别是特别有利的。
【专利附图】

【附图说明】
[0017]当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中:
[0018]图1是根据本发明优选实施例的词语识别方法的流程图;
[0019]图2是适于用来实践本发明实施方式的词语识别装置的示意性框图;
[0020]图3是用来实践本发明实施方式的移动终端的示意性框图。
【具体实施方式】
[0021]附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0022]现在将仅通过示例性方式来详细地描述本发明的各种实施方式。
[0023]图1是根据本发明优选实施例的一词语识别方法的流程图。该方法可典型地用于名片中的常用词的识别。该方法具体包括下列步骤:
[0024]首先执行步骤S11,对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度。优选可通过光学字符识别(OCR)对单个的字进行识别,光学字符识别是公知的字符识别技术,在此不再赘述。对每个单字可能识别出多个候选字,每个后候选字对应有其识别的置信度。记录其中每个单字置信度最高的前若干个候选字及其置信度,以备后面步骤使用。例如,假设要识别词语AB,假设取每个单字的置信度最高的前三个候选字,则首先使用OCR将AB中的单字A识别出A的置信度为0.9,识别为A’的置信度为0.4,识别为A”的置信度为0.2,将单字B识别为B的置信度为0.8,识别为B’的置信度为0.4,识别为B”的置信度为0.1,将这些数据进行记录。
[0025]然后执行步骤S12,搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零。其中的常用词是使用概率较高的、需要对其进行非常准确的识别的一些词语。例如对于名片中的词语识别来说,该常用词可以是“姓名”、“电话”、“地址”等通常会在名片中出现的词语。可以通过建立一个常用词库来记录常用词,并且可以根据需要向该常用词库中增加或删除常用词。
[0026]在第一优选实施方式中,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。假设要识别词语AB,则在搜索常用词库中的常用词AC时,先在A、A’、A”、B、B’和B”的集合中搜索是否出现AC中的A。显然,该集合中存在A,则记录该候选字A对应的置信度0.9。然后再在该集合中搜索是否出现AC中的C,显然,该集合中不存在C,因而将常用词AC中C对应的置信度设为零。
[0027]优选地,当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。如上例,当在上述集合中搜索到常用词AC中的A后,在搜索AC中的C时,将不再在A的候选字A、A’、A”中搜索,而仅在剩余的候选字B、B’和B”中进行搜索。因为对于被识别的词语中的A已经在常用词中找到对应的单字,那么A对应的其他候选字很大程度可能是被误识别的字或与该常用词无关的字,因而在搜索该常用词的其他单字时,无需再在该范围中进行搜索。这样,可以节约计算资源,提高常用词的搜索速度。
[0028]当搜索完常用词AC后,再按照上述方法在上述集合中搜索常用词库中的其他常用词AB、AD、EB、AFG等中的各单字,并得到各常用词中各单字对应的置信度。例如,常用词AB中A的置信度即为0.9, B的置信度即为0.8,而AD中A的置信度即为0.9, D因在集合中不存在因而置信度为零。
[0029]然后执行步骤S 13,计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度。该平均置信度可以通过将常用词中的各单字的置信度取均值而获得。例如,对于上述常用词AC,由于A的置信度为0.9,C的置信度为0,因而常用词AC的平均置信度为(0.9+0)/2 = 0.45。而常用词AB的平均置信度为(0.9+0.8)/2 = 0.85。常用词AFG的平均置信度为(0.9+0+0)/3 = 0.3。通过该步骤可以获得被识别的词语相对于常用词库中所有常用词的置信度。该置信度同时考虑了词语中的各个单字的识别概率,因而该置信度能够相对于各个单字更能全面地反映被识别词语与该常用词之间的匹配概率,减小单字识别误差对词语整体识别的影响,从而更利于对词语整体进行准确地识别。
[0030]当获得每个常用词的置信度后,便执行步骤S14,判断置信度最高的常用词的置信度是否大于一阈值。该阈值可以通过经验进行设置,即保证一定的识别准确率,又允许词语图形具有部分容错能力,例如可以将该阈值设为0.8。若置信度最高的常用词的置信度大于一阈值,则执行步骤S15,输出这个常用词作为该词语的识别结果,否则执行步骤S16,输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。例如,上述例子中,常用词中置信度最高的为常用词AB,其置信度为0.85,大于设定的阈值0.8,则将该词语AB识别为常用词库中的常用词AB输出。可见,该识别的词语的含义是正确的。如果常用词库中没有收录常用词AB,而常用词AC的置信度是最高的,为0.45,小于设定的阈值0.8,说明该词语与常用词AC不是太匹配,则不输出该常用词AC,而是将在步骤Sll中识别的AB中的各个单字的置信度最高的候选字作为该词语的识别结果,即A的候选字中A的置信度最高,为
0.9,则输出A,而B的候选字中B的置信度最高,为0.8,则输出B,因而其输出为AB,与该词语的含义是符合的。
[0031]在第二优选实施方式中,仅搜索与被识别的词语字数相同的常用词。例如在上述例子中,被识别的词AB为两个单字,则仅在这两个单字的候选字集合中搜索具有两个单字的常用词,例如AC、AB、AD、EB等,而不搜索AFG等不是两个单字的常用词。通过这种方式,可以节约字数不匹配的常用词的搜索时间,提高识别效率。
[0032]优选地,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。例如,常用词AB中的A出现在第一个字位置,则仅在被识别词语AB的第一个字位置的单字A的候选字A、A’、A”中搜索A,常用词AB中的B出现在第二个字位置,则仅在被识别词语AB的第二个字位置的单字B的候选字B、B’和B”中搜索B。通过位置匹配的搜索,可以节约搜算计算量,提高搜索效率。
[0033]该词语识别方法适于通过计算机程序来实现。
[0034]图2是适于用来实践本发明实施方式的词语识别装置的示意性框图。在图2中,词语识别装置200包括:单字识别单元201,用于对所述词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度;常用词搜索单元202,用于搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;置信度计算单元203,用于计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度;输出单元204,若置信度最高的常用词的置信度大于一阈值,输出单元204输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
[0035]优选地,所述单字识别单元包括光学字符识别(OCR)引擎。
[0036]优选地,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
[0037]优选地,该常用词搜索单元被配置为当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
[0038]优选地,该常用词搜索单元被配置为仅搜索与被识别的词语字数相同的常用词。
[0039]优选地,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
[0040]该词语识别装置200适于执行以上所述的各种词语识别方法。
[0041]该词语识别装置适于通过载入以上词语识别方法的计算机硬件来实现。该词语识别装置尤其适于通过载入以上词语识别算法的、具有计算处理功能的手机等移动设备来实现。该移动设备优选还具有数码相机,用于拍摄名片等包含文字的图像信息。该移动设备可通过载入的算法程序,即时对拍摄的名片等图像中的词语进行提取、识别、存储。
[0042]下面参考图3,其示出了适于用来实践本发明实施方式的移动终端300的示意性框图。在图3所示的示例中,移动终端300是一个具有无线通信能力的移动设备。然而,可以理解,这仅仅是示例性而非限制性的。其他类型的移动终端也可以容易地采用本发明的实施方式,诸如便携式数字助理(PDA)、寻呼机、移动计算机、移动电视、游戏设备、膝上型计算机、照相机、录像机、GPS设备以及其他类型的语音和文本通信系统。固定式移动终端同样可以容易地使用本发明的实施方式。
[0043]移动终端300包括一个或天线312,其可操作地与发射机314和接收机316进行通信。移动终端300还包括处理器312或者其他处理元件,其分别提供去往发射机314的信号和接收来自接收机316的信号。信号包括按照适当蜂窝系统的空中接口标准的信令信息,并且还包括用户语音、接收的数据和/或用户生成的数据。在此方面,移动终端300能够利用一个或多个空中接口标准、通信协议、调制类型以及接入类型来进行操作。作为示范,移动终端300能够根据多个第一代、第二代、第三代和/或第四代通信协议等中的任何协议来进行操作。例如,移动终端300可以能够按照第二代(G)无线通信协议IS-136 (TDMA)、GSM和IS-95 (CDMA)来进行操作,或者按照诸如UMTS、CDMA2000, WCDMA和TD-SCDMA的第三代(G)无线通信协议来进行操作,或者按照第四代(4G)无线通信协议和/或类似协议进行操作。
[0044]可以理解,处理器312包括实现移动终端300的功能所需的电路。例如,处理器312可以包括数字信号处理器设备、微处理器设备、各种模数转换器、数模转换器和其他支持电路。移动终端300的控制和信号处理功能按照这些设备各自的能力在其间分配。处理器312由此还可以包括在调制和传输之前对消息和数据进行卷积编码和交织的功能。处理器312还可以另外包括内部语音编码器,并且可以包括内部数据调制解调器。此外,处理器312可以包括对可以存储在存储器中的一个或多个软件程序进行操作的功能。例如,处理器312可以能够操作连接程序,诸如传统的Web浏览器。连接程序继而可以允许移动终端300例如按照无线应用协议(WAP)、超文本传输协议(HTTP)等来发射和接收Web内容(诸如基于位置的内容和/或其他web页面内容)。
[0045]移动终端300还可以包括用户接口,其例如可以包括耳机或者扬声器324、振铃器322、麦克风326、显示屏328以及输入接口 331,所有这些设备都耦合至处理器312。移动终端300可以包括小键盘330。小键盘330可以包括传统的数字键(0_9)和相关键(#、*),以及用于操作移动终端300的其他键。备选地,小键盘330可以包括传统的QWERTY小键盘布置。小键盘330还可以包括与功能相关联的各种软键。移动终端300还可以包括相机模块336,用于捕获静态和/或动态图像。
[0046]特别地,显示屏328可以包括触摸式屏幕和/或邻近式屏幕,用户可以通过直接操作屏幕而操作移动终端300。此时,显示屏328同时充当输入设备和输出设备二者。在这样的实施方式中,输入接口 331可以配置用于接收用户通过例如普通的笔、专用触笔和/或手指在显示屏328上提供的输入,包括指点输入和手势输入。处理器312可配置用于检测此类输入,并且识别出用户的手势。
[0047]此外,移动终端300可以包括诸如操纵杆的接口设备或者其他用于输入接口。移动终端300还包括电池334,诸如振动电池组,用于为操作移动终端300所需的各种电路供电,以及可选地提供机械振动作为可检测输出。
[0048]移动终端300可以进一步包括用户标识模块(UM) 338。UIM 338通常是具有内置处理器的存储器设备。UM 338例如可以包括订户标识模块(SM)、通用集成电路卡(ΠCC)、通用订户标识模块(USM)、可移动用户标识模块(R-UM)等。ΠΜ 338通常存储与移动订户相关的信元。
[0049]移动终端300还可以具有存储器。例如,移动终端300可以包括易失性存储器340,例如包括用于数据临时存储的高速缓存区域的易失性随机存取存储器(RAM)。移动终端300还可以包括其他非易失性存储器342,其可以是嵌入式的和/或可移动的。非易失性存储器342可以附加地或者可选地包括例如EEPROM和闪存等。存储器可以存储移动终端300所使用的多个信息片段和数据中的任意项,以实现移动终端300的功能。
[0050]所述移动终端300可以配置用于实现上文结合图1描述的方法以及作为结合图2描述的装置。
[0051]应当理解,图3所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。
[0052]已经出于示出和描述的目的给出了本发明的说明书,但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解,本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。
[0053]因此,实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的,即,在不脱离本发明精神的前提下,做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。
【权利要求】
1.一种词语识别方法,包括: 对词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度; 搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零; 计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度; 若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
2.根据权利要求1所述的方法,其中,使用光学字符识别(OCR)对所述单字进行识别。
3.根据权利要求1或2所述的方法,其中,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
4.根据权利要求3所述的方法,其中,当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
5.根据权利要求1或2所述的方法,其中,仅搜索与被识别的词语字数相同的常用词。
6.根据权利要求5所述的方法,其中,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
7.一种词语识别装置,包括: 单字识别单元,用于对词语中的每个单字进行识别,并记录识别结果中置信度最高的前若干个识别的候选字及其对应的置信度; 常用词搜索单元,用于搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零; 置信度计算单元,用于计算针对每个常用词的所述词语中各单字的平均置信度,作为该常用词的置信度; 输出单元,若置信度最高的常用词的置信度大于一阈值,输出单元输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
8.根据权利要求7所述的装置,其中,所述单字识别单元包括光学字符识别(OCR)引擎。
9.根据权利要求7或8所述的装置,其中,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
10.根据权利要求9所述的装置,其中,该常用词搜索单元被配置为当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
11.根据权利要求7或8所述的装置,其中,该常用词搜索单元被配置为仅搜索与被识别的词语字数相同的常用词。
12.根据权利要求11所述的装置,其中,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
【文档编号】G06K9/20GK103870822SQ201210570618
【公开日】2014年6月18日 申请日期:2012年12月17日 优先权日:2012年12月17日
【发明者】郑大念 申请人:北京千橡网景科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1