分词方法及装置制造方法

文档序号：6511358阅读：202来源：国知局

分词方法及装置制造方法
【专利摘要】本发明实施例公开了一种分词方法及装置，属于数据处理领域。其中所述方法包括：获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；根据词的长度计算出词的长度分数；根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。本发明通过采用对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，从而能够快速、准确地对句子进行分词。
【专利说明】分词方法及装置

【技术领域】
[0001] 本发明涉及数据处理【技术领域】，特别涉及一种分词方法及装置。

【背景技术】
[0002] 随着互联网的普遍应用，面向互联网进行搜索逐渐成为了人们获取信息的主要方式。分词技术作为搜索引擎中的一项重要的基础技术，近年来受到了人们的广泛关注，分词技术的好坏将直接影响搜索质量的好坏。所谓分词，就是将句子切分成一个一个单独的词。是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词，是实现机器识别人类语言的第一步，因此分词技术至关重要。
[0003] 现有的分词方法主要包括以下三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
[0004] 基于字符串匹配的分词方法又称为机械分词方法。这种方法是按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词）。按照扫描方向的不同，字符串匹配方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的标准，又可以分为最大(最长）匹配和最小(最短）匹配。但是采用此方法进行分词，其分词过程较为粗糙，只能识别词典中已经收录的词条，词条名称众多，无法完全收录，导致得到的分词结果不够准确，降低了分词准确度。
[0005] 基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段，即采用此种方法还不能有效地进行分词。
[0006] 基于统计的分词方法的原理为：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如"这一"、"之一"、"有的"、"我的"、"许多的"等，并且对常用词的识别精度差，时空开销大，计算复杂性太高，导致切分效率降低，再加上受制于有限的训练语料库，分词辨识精度也较低。

【发明内容】

[0007] 本发明提供一种分词方法及装置，以解决现有的方法分词精度低等问题。
[0008] 具体地，本发明实施例提供了一种分词方法，所述分词方法，包括：获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；根据词的长度计算出词的长度分数；根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。
[0009] 另外，本发明实施例提供了一种分词装置，所述分词装置，包括：统计分数获取模块、长度分数获取模块、词典生成模块以及分词模块，统计分数获取模块，用于获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数；长度分数获取模块，用于根据词的长度计算出词的长度分数；词典生成模块，用于根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典；分词模块，用于获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。
[0010] 本发明实施例提供的技术方案带来的有益效果是：
[0011] 通过根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典，还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精度低等问题，采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户的单元词的组合或者可以独立表达用户意图意思的单元词。从而能够快速、准确地对句子进行分词。
[0012] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

【专利附图】

【附图说明】
[0013] 图1是本发明一个实施例提供的分词方法的流程图；
[0014] 图2是本发明另一个实施例提供的分词方法的流程图；
[0015] 图3是本发明又一个实施例提供的分词方法的流程图；
[0016] 图4是本发明又一个实施例提供的分词方法的流程图；
[0017] 图5是本发明一个实施例提供的分词装置的主要架构框图；
[0018] 图6是本发明另一个实施例提供的分词装置的主要架构框图；
[0019] 图7是本发明又一个实施例提供的分词装置的主要架构框图；
[0020] 图8是本发明又一个实施例提供的分词装置的主要架构框图；
[0021] 图9是一种终端的结构框图。

【具体实施方式】
[0022] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的分词方法及装置其【具体实施方式】、结构、特征及功效，详细说明如后。
[0023] 有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。
[0024] 第一实施例
[0025] 请参考图1，其示出了本发明一个实施例提供的分词方法的流程图。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，所述分词方法，可包括以下步骤101-107 :
[0026] 步骤101，获取一段时间内词在不同搜索领域中被搜索的次数，根据被搜索的次数计算出词的统计分数。
[0027] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面，例如百度、谷歌，雅虎等网站页面。社区搜索领域可以为交流信息的场所，例如天涯论坛、新浪论坛等社区网站。微博，即微型博客(MicroBlog)的简称，是一个基于用户关系信息分享、传播以及获取平台，例如新浪微博，腾讯微博等。音乐搜索领域可以为提供音乐的网站，例如百度音乐等。视频搜索领域可以为提供视频的网站，例如优酷、土豆等视频网站。图片搜索领域可以为提供图片的网站，例如百度图片等。电子商务搜索领域可以提供商贸活动的网站，例如淘宝、阿里巴巴等网站。
[0028] 词的统计分数的一种计算方法可以为在不同搜索领域中被搜索的次数之和，当然，在本发明实施例中，词的统计分数也可以根据实际需要而采用其它的计算方法。
[0029] 步骤103,根据词的长度计算出词的长度分数。
[0030] 词的长度分数的一种计算方法可以等于词的长度，当然，在本发明实施例中，词的长度分数也可以根据实际需要而为词的长度的函数。
[0031] 步骤105,根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典。
[0032] 词的分值可以等于词的统计分数和长度分数之和。当然，在本发明实施例中，词的分值也可以根据实际需要而采用其它的计算方法。分词词典中包括每个词和词的对应分值。
[0033] 步骤107,获取待分词的句子，将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。
[0034] 综上所述，本实施例提供的分词方法，通过根据词的统计分数和长度分数得到词的分值，由词和词的分值生成分词词典，还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精度低等问题，采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式，能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。
[0035] 第二实施例
[0036] 请参考图2,其示出了本发明另一个实施例提供的分词方法的流程图。图2是在图1的基础上改进而来的。该方法可以由分词装置所执行的分词过程；分词装置可以运行在终端、服务器等设备上，所述分词方法，可包括以下步骤201-209 :
[0037] 步骤201，获取一段时间内词在不同搜索领域中被搜索的次数。
[0038] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面，例如百度、谷歌，雅虎等网站页面。社区搜索领域可以为交流信息的场所，例如天涯论坛、新浪论坛等社区网站。微博，即微型博客(MicroBlog)的简称，是一个基于用户关系信息分享、传播以及获取平台，例如新浪微博，腾讯微博等。音乐搜索领域可以为提供音乐的网站，例如百度音乐等。视频搜索领域可以为提供视频的网站，例如优酷、土豆等视频网站。图片搜索领域可以为提供图片的网站，例如百度图片等。电子商务搜索领域可以提供商贸活动的网站，例如淘宝、阿里巴巴等网站。
[0039] 优选地，步骤201中，获取一段时间内词在不同搜索领域中被搜索的次数，包括：
[0040] 根据一段时间内词X在网页搜索领域中被搜索的次数web(x)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数，一段时间内词X在网页搜索领域中被搜索的次数web (X)的一种计算方法可以为一段时间内（例如过去η天内)词X在网页搜索领域中被搜索的次数的累加，具体计算公式如下：
[0041]

【权利要求】
1. 一种分词方法，其特征在于，所述分词方法包括：获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数；根据词的长度计算出词的长度分数；根据所述词的统计分数和所述长度分数得到词的分值，由词和词的分值生成分词词血. 获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。
2. 根据权利要求1所述的分词方法，其特征在于，所述搜索领域包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个，所述垂直搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
3. 根据权利要求1所述的分词方法，其特征在于，获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数，包括：获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数；根据被搜索的次数得到词的统计分数的计算公式，根据词的统计分数的计算公式计算出词的统计分数，词的统计分数的计算公式为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X )+w4氺vert(X)+w5氺trade(X)；其中，f(X)为词X的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，Social(X)为一段时间内词X在社区搜索领域中被搜索的次数，Weibo(X)为一段时间内词X在微博搜索领域中被搜索的次数，vert(X)为一段时间内词X在垂直搜索领域中被搜索的次数，trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数，wl、w2、 w3、w4、w5 为权值，wl+w2+w3+w4+w5=l。
4. 根据权利要求3所述的分词方法，其特征在于，获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数，包括：根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数，如果考虑词的热度，则web(X)的计算公式为：
其中，Qi(X)为第i个单位时间段内词X在网页搜索领域中被搜索的次数，Q为当前时间的前一个单位时间段内词X在网页搜索领域中被搜索的次数，ml为热度参数，ml、nl为大于0的整数，ml小于nl，al、bl为权值，al+bl=l; 根据一段时间内词x在社区搜索领域中被搜索的次数social(X)的计算公式得到一段时间内词X在社区搜索领域中被搜索的次数，如果考虑词的热度，则social(X)的计算公式为：
其中，Si(X)为第i个单位时间段内词X在社区搜索领域中被搜索的次数，S为当前时间的前一个单位时间段内词X在社区搜索领域中被搜索的次数，m2为热度参数，m2、n2为大于O的整数，m2小于n2,a2、b2为权值，a2+b2=l; 根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段时间内词X在微博搜索领域中被搜索的次数，如果考虑词的热度，则weibo(X)的计算公式为：
其中，Ri(X)为第i个单位时间段内词X在微博搜索领域中被搜索的次数，R为当前时间的前一个单位时间段内词X在微博搜索领域中被搜索的次数，m3为热度参数，m3、n3为大于0的整数，m3小于n3,a3、b3为权值，a3+b3=l; 根据一段时间内词x在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时间内词X在垂直搜索领域中被搜索的次数，如果考虑词的热度，则vert(X)的计算公式为：
其中，Vi(X)表示第i个单位时间段内词X在垂直搜索领域中被搜索的次数，V为当前时间的前一个单位时间段内词X在垂直搜索领域中被搜索的次数，m4为热度参数，m4、n4为大于0的整数，m4小于n4,a4、b4为权值，a4+b4=l; 根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(X)的计算公式得到一段时间内词X在电子商务搜索领域中被搜索的次数，如果考虑词的热度，则trade(X)的计算公式为
Ti(X)为第i个单位时间段内词X在电子商务搜索领域中被搜索的次数，T为当前时间的前一个单位时间段内词X在电子商务搜索领域中被搜索的次数，m5为热度参数，m5、n5为大于0的整数，m5小于n5,a5、b5为权值，a5+b5=l。
5. 根据权利要求1所述的分词方法，其特征在于，根据词的长度计算出词的长度分数中，包括：翻词账度分_计式为：gW= 其巾，g(x) 账度分数， length(x)为词X的长度，c为参数；根据词的长度分数的计算公式计算出词的长度分数。
6. 根据权利要求5所述的分词方法，其特征在于，根据所述词的统计分数和所述长度分数得到词的分值，包括：确定词的分值的计算公式为Fin_score(x)=A*f(x)+B*g(X)，其中，Fin_score(X)为词X的分值，f(x)为词X的统计分数，g(X)为词的长度分数，A、B为权值，Α、Β>0且A+B=l; 根据词的分值的计算公式得到词的分值。
7. -种分词装置，其特征在于，所述分词装置，包括：统计分数获取模块，用于获取一段时间内词在不同搜索领域中被搜索的次数，根据所述被搜索的次数计算出词的统计分数；长度分数获取模块，用于根据词的长度计算出词的长度分数；词典生成模块，用于根据所述词的统计分数和所述长度分数得到词的分值，由词和词的分值生成分词词典；分词模块，用于获取待分词的句子，将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果，计算各个分词结果的分值，将分值高的分词结果作为所述待分词的句子的分词结果。
8. 根据权利要求7所述的分词装置，其特征在于，所述搜索领域包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个，所述垂直搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
9. 根据权利要求7所述的分词装置，其特征在于，所述统计分数获取模块，包括：次数获取模块，用于获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数；统计分数计算公式确定模块，用于根据被搜索的次数得到词的统计分数的计算公式为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X)+w4*vert(X)+w5*trade(X);其中，f(x)为词x的统计分数，web(x)为一段时间内词x在网页搜索领域中被搜索的次数，social(X) 为一段时间内词X在社区搜索领域中被搜索的次数，weibo(x)为一段时间内词X在微博搜索领域中被搜索的次数，vert(X)为一段时间内词X在垂直搜索领域中被搜索的次数， trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数，wl、w2、w3、w4、w5为权值，wl+w2+w3+w4+w5=l; 统计分数计算模块，用于通过词的统计分数的计算公式计算出词的统计分数。
10. 根据权利要求9所述的分词装置，其特征在于，所述次数获取模块，包括：网页搜索次数获取模块，用于根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数，如果考虑词的热度，则web(X)的计算公式为：
其中，Qi(X)为第i个单位时间段内词X在网页搜索领域中被搜索的次数，Q为当前时间的前一个单位时间段内词X在网页搜索领域中被搜索的次数，ml为热度参数，ml、nl为大于0的整数，ml小于nl，al、bl 为权值，al+bl=l; 社区搜索次数获取模块，用于根据一段时间内词X在社区搜索领域中被搜索的次数Social(X)的计算公式得到一段时间内词X在社区搜索领域中被搜索的次数，如果考虑词的热度，贝1Jsocial (X)的计算公式为：其中，Si(X)为 I --J
第i个单位时间段内词X在社区搜索领域中被搜索的次数，S为当前时间的前一个单位时间段内词X在社区搜索领域中被搜索的次数，m2为热度参数，m2、n2为大于O的整数，m2小于n2,a2、b2 为权值，a2+b2=l; 微博搜索次数获取模块，用于根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段时间内词X在微博搜索领域中被搜索的次数，如果考虑词的热度，贝1Jweibo(x)的计算公式为：
其中，Ri(X)为第i 个单位时间段内词X在微博搜索领域中被搜索的次数，R为当前时间的前一个单位时间段内词X在微博搜索领域中被搜索的次数，m3为热度参数，m3、n3为大于0的整数，m3小于 n3,a3、b3 为权值，a3+b3=l; 垂直搜索次数获取模块，用于根据一段时间内词X在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时间内词X在垂直搜索领域中被搜索的次数，如果考虑词的热度，则vert(X)的计算公式为：
其中，Vi(X)表示第i 个单位时间段内词X在垂直搜索领域中被搜索的次数，V为当前时间的前一个单位时间段内词X在垂直搜索领域中被搜索的次数，m4为热度参数，m4、n4为大于0的整数，m4小于 n4,a4、b4 为权值，a4+b4=l; 电子商务搜索次数获取模块，用于根据一段时间内词X在电子商务搜索领域中被搜索的次数trade(X)的计算公式得到一段时间内词X在电子商务搜索领域中被搜索的次数，如果考虑词的热度，则trade(X)的计算公式为：
Ti(x)为第i个单位时间段内词X在电子商务搜索领域中被搜索的次数，T为当前时间的前一个单位时间段内词X在电子商务搜索领域中被搜索的次数，m5为热度参数，m5、n5为大于0的整数，m5小于n5,a5、b5为权值，a5+b5=l。
11. 根据权利要求7所述的分词装置，其特征在于，所述长度分数获取模块，还包括：长度分数公式确定模块，用于得到词的长度分数的计算公式为：
，其中，g(x)为词X的长度分数，Iength(X)为词X的长度，c为参数；长度分数计算模块，用于根据词的长度分数的计算公式计算出词的长度分数。
12. 根据权利要求7所述的分词装置，其特征在于，所述词典生成模块，包括：分值计算公式确定模块，用于确定词的分值的计算公式为Fin_score (x)=A*f(x)+B*g(x)，其中，Fin_score(X)为词x的分值，f(X)为词x的统计分数，g(X)为词的长度分数， A、B为权值，Α、Β>0且A+B=l ; 分值计算模块，用于根据词的分值的计算公式得到词的分值。
【文档编号】G06F17/30GK104462051SQ201310415761
【公开日】2015年3月25日申请日期:2013年9月12日优先权日:2013年9月12日
【发明者】程刚申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程刚;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种数据信号采样的方法和设备的制作方法
上一篇：一种校正光学相干断层扫描图像边缘线的方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。