一种分词方法和分词装置的制作方法

文档序号：6576658阅读：258来源：国知局

专利名称：一种分词方法和分词装置的制作方法
技术领域：
本发明涉及分词技术，更具体地说，涉及一种文字输入方法和文字输入装置。
背景技术：
作为自然语言分析等前沿技术的关键组成部分，分词技术在近年来受到了人们的
广泛关注。所谓分词，就是将文字序列切分成一个一个单独的词。以中文分词技术为例，分
词技术的目标就是将例如但不限于一句话切分为一个一个单独的中文词语。而将文字序列
切分为单独的词，是实现机器识别人类语言的第一步，因此分词技术至关重要。经过多年的发展，研究人员已先后开发出多种分词方法，包括例如但不限于基于
字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待
分析的文字序列与一个机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功
(识别出一个词)。按照扫描方向的不同，字符串匹配方法可以分为正向匹配和逆向匹配；
按照不同长度优先匹配的标准，字符串匹配方法可以分为最大(最长)匹配和最小(最短)
匹配；按照是否与词性标注过程相结合的标准，又可以分为单纯分词方法和分词与标注相
结合的一体化方法。基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别
词的效果。这种方法的基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语
义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分分词子系
统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等
的句法和语义信息来对分词歧义进行判断，通过模拟人对句子的理解来达到分词的目标。第三种分词方法是基于统计的分词方法。从形式上看，词是稳定的字的组合，因此
在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现
的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频
度进行统计，计算它们的互现信息。定义两个字的互现信息，计算例如两个汉字的相邻共现
概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便
可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切
分词典，因而又叫做无词典分词法或统计取词方法。尽管可以达到很好的效果，但上述分词方法的计算量通常很大，因此往往需要专门的高性能计算设备来完成分词操作。此外，对于文字序列之中存在的歧义词，上述分词方法的辨识精确度较低。因此，需要一种分词方案，能够克服现有技术之中存在的计算量较大的缺陷。

发明内容
本发明要解决的技术问题在于，针对现有分词方法存在的计算量较大以及对歧义
词的辨识精确度较低的缺陷，提供一种分词方法和分词装置。本发明解决其技术问题所采用的技术方案是
构造一种文字输入方法，包括匹配步骤，包括接收输入的构字元素序列，查找并显示与该构字元素序列相匹配的至少一个文字串；
所述方法还包括封装步骤，包括接收输入的文字串选择命令，基于所显示至少一个文字串之中的所选文字串生成对应的分词封装并输出。在本发明提供的文字输入方法中，每一文字串包括至少一个文字字符。在本发明提供的文字输入方法中，所述分词封装内顺序包含分词起始符、所选文
字串和分词截止符。在本发明提供的文字输入方法中，在所述分词封装中，所述分词起始符和所述分词截止符的显示属性均为不可见。在本发明提供的文字输入方法中，在所述分词封装中，所选文字串的显示属性为可见。
本发明还提供了一种文字输入装置，包括匹配模块，用于接收输入的构字元素序列，查找并显示与该构字元素序列相匹配的至少一个文字串；
所述装置还包括封装单元，用于接收输入的文字串选择命令，基于所显示至少一个文字串之中的所选文字串生成对应的分词封装并输出。
在本发明提供的文字输入装置中，每一文字串包括至少一个文字字符。在本发明提供的文字输入装置中，所述分词封装内顺序包含分词起始符、所选文
字串和分词截止符。在本发明提供的文字输入装置中，在所述分词封装中，所述分词起始符和所述分词截止符的显示属性均为不可见。在本发明提供的文字输入装置中，在所述分词封装中，所选文字串的显示属性为可见。本发明还提供了一种分词方法，包括分词封装提取步骤，包括接收输入的文字序列，提取其中包含的至少一个分词封装；文字串提取步骤，包括对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。在本发明提供的分词方法中，每一分词封装内顺序包含分词起始符、文字串和分词截止符。在本发明提供的分词方法中，每一文字串包括至少一个文字字符。在本发明提供的分词方法中，在每一分词封装中，分词起始符和分词截止符的显
示属性均为不可见。在本发明提供的分词方法中，在每一分词封装中，文字串的显示属性为可见。
本发明还提供了一种分词装置，包括分词封装提取模块，用于接收输入的文字序列，提取其中包含的至少一个分词封装；文字串提取模块，用于对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。在本发明提供的分词装置中，每一分词封装内顺序包含分词起始符、文字串和分词截止符。在本发明提供的分词装置中，每一文字串包括至少一个文字字符。在本发明提供的分词装置中，在每一分词封装中，分词起始符和分词截止符的显
示属性均为不可见。在本发明提供的分词装置中，在每一分词封装中，文字串的显示属性为可见。实施本发明的技术方案，具有以下有益效果借助现有文字输入方法之中的联想
词输入方案，本发明提供的文字输入方法和文字输入系统将用户输入的每一联想词封装成
对应的分词封装。如此一来便可得到由分词封装组成的文字序列，在输入过程中即自动完
成了对文字序列的切分。接下来，在依据本发明提供的分词方法和分词装置对这种形式的
文字序列进行分词处理时，通过识别其中的每一分词封装便可完成对文字序列的切分，因
此本发明提供的技术方案将大大降低现有分词操作的计算量，提高分词效率。此外，分词封
装是基于用户输入的联想词而生成的，因此依据分词封装对文字序列的切分可精确的反映
用户的真实切分意图，这样一来便可有效避免对歧义词的错误识别，大大提高文字序列的
分词准确度。

下面将结合附图及实施例对本发明作进一步说明，附图中图1是依据本发明一较佳实施例的文字输入方法的流程图；图2是依据本发明一较佳实施例的文字输入系统的逻辑结构示意图；图3是依据本发明一较佳实施例的分词方法的流程图图4是依据本发明一较佳实施例的分词装置的逻辑结构示意图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本发明提高了一种文字输入方法和文字输入装置，借助现有文字输入方法之中的联想词输入方案，将用户输入的每一联想词封装成对应的分词封装。如此一来便可得到由分词封装组成的文字序列，在输入过程中即自动完成了对文字序列的切分。接下来，在通过本发明提供的分词方法和分词装置对这种形式的文字序列进行分词处理时，通过识别其中的每一分词封装便可完成对文字序列的切分，因此本发明提供的技术方案将大大降低现有分词操作的计算量，提高分词效率。此外，分词封装是基于用户输入的联想词而生成的，因此依据分词封装对文字序列的切分可精确的反映用户的真实切分意图，这样一来便可有效避免对歧义词的错误识别，大大提高文字序列的分词准确度。下面便结合附图和具体实施例来对本发明提供的技术方案进行详细描述。
图1是依据本发明一较佳实施例的文字输入方法100的流程图。如图1所示，方法100开始于步骤102。随后，在下一步骤104，接收输入的构字元素序列。以中文为例，可实现中文输入的输入法包括例如但不限于拼音输入法、笔划输入法、五笔字型输入法等，其对应的构字元素分别为拼音字母、笔划、字根等，因此对应的构字元素序列分别为拼音字母序列、笔划序列、字根序列等。随后，在下一步骤106，查找并显示与该构字元素序列相匹配的至少一个文字串。
随着联想输入功能的出现，文字输入法一般都可实现联想词的输入(例如但不限于紫光拼音输入法、搜狗输入法、谷歌输入法、QQ输入法等)。例如输入包含若干构字元素的构字元素序列，将显示与该构字元素序列相对应的至少一个联想词或者文字以供用户选择。例如，在添加了联想输入功能的拼音输入法中，输入"py"可同时联想得到"拼音"、"评语"等多个联想词以供用户选择。此外，也可通过完整的输入"pinyin"来得到"拼音"一词，而通过添加联想功能，输入"pinyin"将直接显示"拼音"一词，而无需分别显示"pin"和 "yin"所对应的汉字。有关联想输入的具体技术内容已经在现有技术中做了清楚的描述，因此本文不再赘述。在本发明提供的技术方案中，在本步骤中显示的文字串既可包括联想词，也可包括单个文字，即该文字串包含至少一个文字。由于在具体应用过程中，联想输入的方式可大大提高输入效率，因此联想输入已成为文字输入的首选。而联想输入的最大特点在于，输出是的词而非单个文字。因此，随着联想式输入方法的出现，用户输入文字时，一般以词为单位进行输入，而非以往的以字为单位进行输入，即用户输入的构字元素序列往往对应于一个词。如此一来，在输入文字序列时，用户实际上是以词为单位进行输入的，也就是说，在输入文字序列中，用户并非以每个文字为单位进行输入，而是尽量以组成词语的方式进行输入。而分词操作的目标往往就是在文字序列之中找出这种词语。基于现有的联想式输入法，在收到用户输入的构字元素序列后，输入法将在自身字词库中查找该构字元素序列所对应的至少一个文字串，作为候选文字串，显示给用户。
应注意，虽然本发明是以中文为例进行描述的，但本领域的技术人员应当明白，本发明的技术方案同样适用于文字构成及输入习惯上与中文类似的其他文字，例如但不限于日文、韩文、满文等。在具体实现过程中，步骤104和步骤106可统称为匹配步骤。有关匹配步骤的具体内容已经在现有技术之中进行了清楚的描述，因此本文不再赘述。
随后，在下一步骤108，接收用户输入的文字串选择命令。随后，在下一步骤IIO，基于所显示至少一个文字串之中的所选文字串生成对应的分词封装并输出。在本发明的一个具体实施例中，生成的分词封装内可顺序包含分词起始符、所选文字串和分词截止符。为了不影响用户输入，在输出的分词封装中，分词起始符和分词截止符的显示属性均可设置为不可见，而仅将所选文字串的显示属性设置为可见。如此一来，在输入文字序列的过程中，在输出的文字序列中，用户将不会看到分词起始符和分词截止符。
例如，可将分词起始符设置为'，将分词截止符设置为厂，此时分词封装将采用下列结构 ~文字串/' 此时，依照本发明文字输入方法100输入的文字序列将采用下列结构
~文字串1厂~文字串2厂~文字串3厂... 为避免产生错误识别，可将分词起始符和分词截止符设置为使用率极低的字符或者若干字符的组合。由上文所述可知，依据本发明提供的文字输入方法100输入的文字序列将主要由一个个的分词封装组成。由于这种分词封装是基于用户本人输入的词语而生成的，因此这种分词封装真实准确的反映了用户的切分意图，而不会产生歧义词。
在具体实现过程中，步骤108和步骤110可通称为封装步骤。本发明还提供了一种与上述文字输入方法相对应的文字输入系统，下面就结合图 2对其进行详细描述。图2是依据本发明一较佳实施例的文字输入系统200的逻辑结构示意图。如图2 所示，文字输入系统200包括匹配模块202和封装模块204。匹配模块202进一步包括查找模块2022和字词库2024。匹配模块202用于接收输入的构字元素序列。在具体实现过程中，在匹配模块202 收到构字元素序列后，其查找模块2022便在字词库2024中查找与该构字元素序列相匹配的至少一个文字串并显示。封装单元与匹配模块202通信连接，用于接收输入的文字串选择命令，基于所显示至少一个文字串之中的所选文字串生成对应的分词封装并输出。有关分词封装的具体内容已经在前文结合图1做了清楚的描述，因此此处不再赘述。本发明还提供了一种与上文所述的文字输入方法和文字输入系统相对应的分词方法和分词系统，下面就分别结合图3和图4对其进行描述。图3是依据本发明一较佳实施例的分词方法300的流程图。如图3所示，方法300 开始于步骤302。随后，在下一步骤304，接收输入的文字序列。随后，在下一步骤306，提取其中包含的至少一个分词封装。如上文所示，分词封装包括分词起始符、文字串和分词截止符。因此，可通过识别分词起始符和分词截止符来确定文字序列之中的每一个分词封装。在具体实现过程中，步骤304和步骤306可统称为分词封装提取步骤。随后，在下一步骤308，对于提取的每一分词封装，提取该分词封装之中包含的文
字串并输出。在具体实现过程中，步骤308可称文字串提取步骤。应注意，图3仅用于描述本发明的原理，并非用于限定本发明的范围。因此，在具体实现过程中，在不背离本发明主旨和范围的情况下，可对图3进行修改，例如在图3中添加其他步骤或者修改图3中若干步骤的执行顺序等，例如可在提取完一个分词封装之后，立即提取该分词封装之中包含的文字串并输出。此外，图3所示的分词方法300还可作为现有分词方法的预处理步骤，即在执行现有分词方法之前，首先执行本发明提供的分词方法300，然后以分词方法300输出的文字串组成的序列为基础依照现有分词方法进行分词操作。此时，在执行现有分词方法时，应当将分词方法300输出的文字串作为一个不可再分的整体进行操作。例如，以现有的机械分词方法为例，在基于分词方法300输出的文字串进行进一步的分词时，只能将文字串作为一个整体与其他文字串进行拼接组合，然后在词库之中查找时候包含拼接后文字串的词语，而不应将文字串与其他文字串之中的若干文字进行组合来进行分词操作。例如，若分词方法300输出的文字串包含"社会"、"主义"两个词，则在基于这两个文字串进行机械分词时，只能以"社会"+ "主义"的方式来执行分词操作，而不能以"社会"+ "主"的方式来执行分词操作。本发明还提供了一种与上述分词方法相对应的分词装置，下面就结合图4对其进行详细的描述。图4是依据本发明一较佳实施例的分词装置400的逻辑结构示意图。如图4所示，分词装置400包括分词封装提取模块402和文字串提取模块404。分词封装提取模块402用于接收输入的文字序列，提取其中包含的至少一个分词封装。文字串提取模块404用于对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。有关分词封装的具体内容已经在前文做了清楚的描述，因此此处不再赘述。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
权利要求
一种分词方法，其特征在于，包括分词封装提取步骤，包括接收输入的文字序列，提取其中包含的至少一个分词封装；文字串提取步骤，包括对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。
2. 根据权利要求1所述的分词方法，其特征在于，每一分词封装内顺序包含分词起始符、文字串和分词截止符。
3. 根据权利要求1所述的分词方法，其特征在于，每一文字串包括至少一个文字字符。
4. 根据权利要求2所述的分词方法，其特征在于，在每一分词封装中，分词起始符和分词截止符的显示属性均为不可见。
5. 根据权利要求2或4所述的分词方法，其特征在于，在每一分词封装中，文字串的显示属性为可见。
6. —种分词装置，其特征在于，包括分词封装提取模块，用于接收输入的文字序列，提取其中包含的至少一个分词封装；文字串提取模块，用于对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。
7. 根据权利要求6所述的分词装置，其特征在于，每一分词封装内顺序包含分词起始符、文字串和分词截止符。
8. 根据权利要求6所述的分词装置，其特征在于，每一文字串包括至少一个文字字符。
9. 根据权利要求7所述的分词装置，其特征在于，在每一分词封装中，分词起始符和分词截止符的显示属性均为不可见。
10. 根据权利要求7或9所述的分词装置，其特征在于，在每一分词封装中，文字串的显示属性为可见。
全文摘要
本发明涉及分词技术，针对现有分词方法存在的计算量较大以及对歧义词的辨识精确度较低的缺陷，提供一种分词方法和分词装置。分词方法包括接收输入的文字序列，提取其中包含的至少一个分词封装；对于提取的每一分词封装，提取该分词封装之中包含的文字串并输出。本发明还提供了一种分词装置。本发明提供的技术方案可在输入过程中自动完成对文字序列的切分，因此本发明提供的技术方案将大大降低现有分词操作的计算量，提高分词效率。此外，依据分词封装对文字序列的切分可精确的反映用户的真实切分意图，可大大提高文字序列的分词准确度。
文档编号G06F17/27GK101702153SQ200910110349
公开日2010年5月5日申请日期2009年10月28日优先权日2009年10月28日
发明者刘克鸿, 刘飞, 杨丰, 杨旗, 王有为, 蒋铮, 马慧申请人:卓望数码技术(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王有为;刘克鸿;刘飞;杨旗;杨丰;马慧;蒋铮
技术所有人：卓望数码技术（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。