分词方法及装置制造方法

文档序号:6511358阅读:202来源:国知局
分词方法及装置制造方法
【专利摘要】本发明实施例公开了一种分词方法及装置,属于数据处理领域。其中所述方法包括:获取一段时间内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;根据词的长度计算出词的长度分数;根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词词典;获取待分词的句子,将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的分词结果。本发明通过采用对海量用户的搜索行为进行统计并建立精准的分词词典进行分词的方式,从而能够快速、准确地对句子进行分词。
【专利说明】分词方法及装置

【技术领域】
[0001] 本发明涉及数据处理【技术领域】,特别涉及一种分词方法及装置。

【背景技术】
[0002] 随着互联网的普遍应用,面向互联网进行搜索逐渐成为了人们获取信息的主要方 式。分词技术作为搜索引擎中的一项重要的基础技术,近年来受到了人们的广泛关注,分词 技术的好坏将直接影响搜索质量的好坏。所谓分词,就是将句子切分成一个一个单独的词。 是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技 术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词,是实 现机器识别人类语言的第一步,因此分词技术至关重要。
[0003] 现有的分词方法主要包括以下三种:基于字符串匹配的分词方法、基于理解的分 词方法和基于统计的分词方法。
[0004] 基于字符串匹配的分词方法又称为机械分词方法。这种方法是按照一定的策略将 待分析的汉字串与机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别 出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配;按照不 同长度优先匹配的标准,又可以分为最大(最长)匹配和最小(最短)匹配。但是采用此方法 进行分词,其分词过程较为粗糙,只能识别词典中已经收录的词条,词条名称众多,无法完 全收录,导致得到的分词结果不够准确,降低了分词准确度。
[0005] 基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义 现象。基于这种分词方法开发的分词系统通常包括三个部分:分词子系统、句法语义子系 统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信 息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量 的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可 直接读取的形式,因此目前基于理解的分词系统还处在试验阶段,即采用此种方法还不能 有效地进行分词。
[0006] 基于统计的分词方法的原理为:从形式上看,词是稳定的字的组合,因此在上下文 中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或 概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信 息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组 可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又 叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现 频度高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等,并且对 常用词的识别精度差,时空开销大,计算复杂性太高,导致切分效率降低,再加上受制于有 限的训练语料库,分词辨识精度也较低。


【发明内容】

[0007] 本发明提供一种分词方法及装置,以解决现有的方法分词精度低等问题。
[0008] 具体地,本发明实施例提供了一种分词方法,所述分词方法,包括:获取一段时间 内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;根据词的 长度计算出词的长度分数;根据词的统计分数和长度分数得到词的分值,由词和词的分值 生成分词词典;获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行匹配 以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分词的 句子的分词结果。
[0009] 另外,本发明实施例提供了一种分词装置,所述分词装置,包括:统计分数获取模 块、长度分数获取模块、词典生成模块以及分词模块,统计分数获取模块,用于获取一段时 间内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;长度分 数获取模块,用于根据词的长度计算出词的长度分数;词典生成模块,用于根据词的统计分 数和长度分数得到词的分值,由词和词的分值生成分词词典;分词模块,用于获取待分词的 句子,将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结 果的分值,将分值高的分词结果作为待分词的句子的分词结果。
[0010] 本发明实施例提供的技术方案带来的有益效果是:
[0011] 通过根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词词 典,还将待分词的句子与分词词典中的词进行匹配以得到多个分词结果,计算各个分词结 果的分值,将分值高的分词结果作为待分词的句子的分词结果。解决了现有的方法分词精 度低等问题,采用本发明对海量用户的搜索行为进行统计并建立精准的分词词典进行分词 的方式,能够分出较完整表达用户意思的短词。分出的词和传统的分到的单元词不同。而 是分到能够比单元词更完整的表达用户的单元词的组合或者可以独立表达用户意图意思 的单元词。从而能够快速、准确地对句子进行分词。
[0012] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够 更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

【专利附图】

【附图说明】
[0013] 图1是本发明一个实施例提供的分词方法的流程图;
[0014] 图2是本发明另一个实施例提供的分词方法的流程图;
[0015] 图3是本发明又一个实施例提供的分词方法的流程图;
[0016] 图4是本发明又一个实施例提供的分词方法的流程图;
[0017] 图5是本发明一个实施例提供的分词装置的主要架构框图;
[0018] 图6是本发明另一个实施例提供的分词装置的主要架构框图;
[0019] 图7是本发明又一个实施例提供的分词装置的主要架构框图;
[0020] 图8是本发明又一个实施例提供的分词装置的主要架构框图;
[0021] 图9是一种终端的结构框图。

【具体实施方式】
[0022] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合 附图及较佳实施例,对依据本发明提出的分词方法及装置其【具体实施方式】、结构、特征及功 效,详细说明如后。
[0023] 有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实 施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目 的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说 明之用,并非用来对本发明加以限制。
[0024] 第一实施例
[0025] 请参考图1,其示出了本发明一个实施例提供的分词方法的流程图。该方法可以由 分词装置所执行的分词过程;分词装置可以运行在终端、服务器等设备上,所述分词方法, 可包括以下步骤101-107 :
[0026] 步骤101,获取一段时间内词在不同搜索领域中被搜索的次数,根据被搜索的次数 计算出词的统计分数。
[0027] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、 电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和 延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图 片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面,例如百度、谷歌,雅虎 等网站页面。社区搜索领域可以为交流信息的场所,例如天涯论坛、新浪论坛等社区网站。 微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台, 例如新浪微博,腾讯微博等。音乐搜索领域可以为提供音乐的网站,例如百度音乐等。视频 搜索领域可以为提供视频的网站,例如优酷、土豆等视频网站。图片搜索领域可以为提供 图片的网站,例如百度图片等。电子商务搜索领域可以提供商贸活动的网站,例如淘宝、阿 里巴巴等网站。
[0028] 词的统计分数的一种计算方法可以为在不同搜索领域中被搜索的次数之和,当 然,在本发明实施例中,词的统计分数也可以根据实际需要而采用其它的计算方法。
[0029] 步骤103,根据词的长度计算出词的长度分数。
[0030] 词的长度分数的一种计算方法可以等于词的长度,当然,在本发明实施例中,词的 长度分数也可以根据实际需要而为词的长度的函数。
[0031] 步骤105,根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词 词典。
[0032] 词的分值可以等于词的统计分数和长度分数之和。当然,在本发明实施例中,词的 分值也可以根据实际需要而采用其它的计算方法。分词词典中包括每个词和词的对应分 值。
[0033] 步骤107,获取待分词的句子,将待分词的句子与分词词典中的词进行匹配以得到 多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的分词 结果。
[0034] 综上所述,本实施例提供的分词方法,通过根据词的统计分数和长度分数得到词 的分值,由词和词的分值生成分词词典,还将待分词的句子与分词词典中的词进行匹配以 得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为待分词的句子的 分词结果。解决了现有的方法分词精度低等问题,采用本发明对海量用户的搜索行为进行 统计并建立精准的分词词典进行分词的方式,能够分出较完整表达用户意思的短词。分出 的词和传统的分到的单元词不同。而是分到能够比单元词更完整的表达用户意思的单元词 的组合或者可以独立表达用户意图的单元词。从而能够快速、准确地对句子进行分词。
[0035] 第二实施例
[0036] 请参考图2,其示出了本发明另一个实施例提供的分词方法的流程图。图2是在 图1的基础上改进而来的。该方法可以由分词装置所执行的分词过程;分词装置可以运行 在终端、服务器等设备上,所述分词方法,可包括以下步骤201-209 :
[0037] 步骤201,获取一段时间内词在不同搜索领域中被搜索的次数。
[0038] 搜索领域可以包括网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、 电子商务搜索领域等。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和 延伸,是对网页库中的某类专门的信息进行一次整合。垂直搜索领域包括音乐搜索领域、图 片搜索领域、视频搜索领域等。网页搜索领域可以为搜索的网站页面,例如百度、谷歌,雅虎 等网站页面。社区搜索领域可以为交流信息的场所,例如天涯论坛、新浪论坛等社区网站。 微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台, 例如新浪微博,腾讯微博等。音乐搜索领域可以为提供音乐的网站,例如百度音乐等。视频 搜索领域可以为提供视频的网站,例如优酷、土豆等视频网站。图片搜索领域可以为提供图 片的网站,例如百度图片等。电子商务搜索领域可以提供商贸活动的网站,例如淘宝、阿里 巴巴等网站。
[0039] 优选地,步骤201中,获取一段时间内词在不同搜索领域中被搜索的次数,包括:
[0040] 根据一段时间内词X在网页搜索领域中被搜索的次数web(x)的计算公式得到一 段时间内词X在网页搜索领域中被搜索的次数,一段时间内词X在网页搜索领域中被搜索 的次数web (X)的一种计算方法可以为一段时间内(例如过去η天内)词X在网页搜索领域 中被搜索的次数的累加,具体计算公式如下:
[0041]

【权利要求】
1. 一种分词方法,其特征在于,所述分词方法包括: 获取一段时间内词在不同搜索领域中被搜索的次数,根据所述被搜索的次数计算出词 的统计分数; 根据词的长度计算出词的长度分数; 根据所述词的统计分数和所述长度分数得到词的分值,由词和词的分值生成分词词 血. 获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行匹配以得到多个 分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分词的句子的分词 结果。
2. 根据权利要求1所述的分词方法,其特征在于,所述搜索领域包括网页搜索领域、社 区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个,所述垂直 搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
3. 根据权利要求1所述的分词方法,其特征在于,获取一段时间内词在不同搜索领域 中被搜索的次数,根据所述被搜索的次数计算出词的统计分数,包括: 获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领域、垂直搜索领域、电 子商务搜索领域中被搜索的次数; 根据被搜索的次数得到词的统计分数的计算公式,根据词的统计分数的计算公式计算 出词的统计分数,词的统计分数的计算公式为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X )+w4氺vert(X)+w5氺trade(X); 其中,f(X)为词X的统计分数,web(x)为一段时间内词x在网页搜索领域中被搜索的 次数,Social(X)为一段时间内词X在社区搜索领域中被搜索的次数,Weibo(X)为一段时 间内词X在微博搜索领域中被搜索的次数,vert(X)为一段时间内词X在垂直搜索领域中 被搜索的次数,trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数,wl、w2、 w3、w4、w5 为权值,wl+w2+w3+w4+w5=l。
4. 根据权利要求3所述的分词方法,其特征在于,获取一段时间内词在网页搜索领域、 社区搜索领域、微博搜索领域、垂直搜索领域、电子商务搜索领域中被搜索的次数,包括: 根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时 间内词X在网页搜索领域中被搜索的次数,如果考虑词的热度,则web(X)的计算公式为:
其中,Qi(X)为第i个单位时间段内词X在网页搜索领域中被搜索的次数,Q为当前时 间的前一个单位时间段内词X在网页搜索领域中被搜索的次数,ml为热度参数,ml、nl为 大于0的整数,ml小于nl,al、bl为权值,al+bl=l; 根据一段时间内词x在社区搜索领域中被搜索的次数social(X)的计算公式得到一段 时间内词X在社区搜索领域中被搜索的次数,如果考虑词的热度,则social(X)的计算公式 为:
其中,Si(X)为第i个单位时间段内词X在社区搜索领域中被搜索的次数,S为当前时 间的前一个单位时间段内词X在社区搜索领域中被搜索的次数,m2为热度参数,m2、n2为 大于O的整数,m2小于n2,a2、b2为权值,a2+b2=l; 根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段 时间内词X在微博搜索领域中被搜索的次数,如果考虑词的热度,则weibo(X)的计算公式 为:
其中,Ri(X)为第i个单位时间段内词X在微博搜索领域中被搜索的次数,R为当前时 间的前一个单位时间段内词X在微博搜索领域中被搜索的次数,m3为热度参数,m3、n3为 大于0的整数,m3小于n3,a3、b3为权值,a3+b3=l; 根据一段时间内词x在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时 间内词X在垂直搜索领域中被搜索的次数,如果考虑词的热度,则vert(X)的计算公式为:
其中,Vi(X)表示第i个单位时间段内词X在垂直搜索领域中被搜索的次数,V为当前 时间的前一个单位时间段内词X在垂直搜索领域中被搜索的次数,m4为热度参数,m4、n4为 大于0的整数,m4小于n4,a4、b4为权值,a4+b4=l; 根据一段时间内词x在电子商务搜索领域中被搜索的次数trade(X)的计算公式得到 一段时间内词X在电子商务搜索领域中被搜索的次数,如果考虑词的热度,则trade(X)的 计算公式为
Ti(X)为第i个单位时间段内词X在电子商务搜索领域中被搜索的次数,T为当前时间 的前一个单位时间段内词X在电子商务搜索领域中被搜索的次数,m5为热度参数,m5、n5为 大于0的整数,m5小于n5,a5、b5为权值,a5+b5=l。
5. 根据权利要求1所述的分词方法,其特征在于,根据词的长度计算出词的长度分数 中,包括: 翻词账度分_计式为:gW= 其巾,g(x) 账度分数, length(x)为词X的长度,c为参数; 根据词的长度分数的计算公式计算出词的长度分数。
6. 根据权利要求5所述的分词方法,其特征在于,根据所述词的统计分数和所述长度 分数得到词的分值,包括: 确定词的分值的计算公式为Fin_score(x)=A*f(x)+B*g(X),其中,Fin_score(X)为 词X的分值,f(x)为词X的统计分数,g(X)为词的长度分数,A、B为权值,Α、Β>0且A+B=l; 根据词的分值的计算公式得到词的分值。
7. -种分词装置,其特征在于,所述分词装置,包括: 统计分数获取模块,用于获取一段时间内词在不同搜索领域中被搜索的次数,根据所 述被搜索的次数计算出词的统计分数; 长度分数获取模块,用于根据词的长度计算出词的长度分数; 词典生成模块,用于根据所述词的统计分数和所述长度分数得到词的分值,由词和词 的分值生成分词词典; 分词模块,用于获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行 匹配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分 词的句子的分词结果。
8. 根据权利要求7所述的分词装置,其特征在于,所述搜索领域包括网页搜索领域、社 区搜索领域、微博搜索领域、垂直搜索领域、或电子商务搜索领域中的至少一个,所述垂直 搜索领域包括音乐搜索领域、图片搜索领域或视频搜索领域。
9. 根据权利要求7所述的分词装置,其特征在于,所述统计分数获取模块,包括: 次数获取模块,用于获取一段时间内词在网页搜索领域、社区搜索领域、微博搜索领 域、垂直搜索领域、电子商务搜索领域中被搜索的次数; 统计分数计算公式确定模块,用于根据被搜索的次数得到词的统计分数的计算公式 为f (X)=wl*web(X)+w2*social(X)+w3*weibo(X)+w4*vert(X)+w5*trade(X);其中,f(x)为 词x的统计分数,web(x)为一段时间内词x在网页搜索领域中被搜索的次数,social(X) 为一段时间内词X在社区搜索领域中被搜索的次数,weibo(x)为一段时间内词X在微博 搜索领域中被搜索的次数,vert(X)为一段时间内词X在垂直搜索领域中被搜索的次数, trade(X)为一段时间内词X在电子商务搜索领域中被搜索的次数,wl、w2、w3、w4、w5为权 值,wl+w2+w3+w4+w5=l; 统计分数计算模块,用于通过词的统计分数的计算公式计算出词的统计分数。
10. 根据权利要求9所述的分词装置,其特征在于,所述次数获取模块,包括: 网页搜索次数获取模块,用于根据一段时间内词X在网页搜索领域中被搜索的次数web(X)的计算公式得到一段时间内词X在网页搜索领域中被搜索的次数,如果考虑词的热 度,则web(X)的计算公式为:
其中,Qi(X)为第i个单位 时间段内词X在网页搜索领域中被搜索的次数,Q为当前时间的前一个单位时间段内词X在 网页搜索领域中被搜索的次数,ml为热度参数,ml、nl为大于0的整数,ml小于nl,al、bl 为权值,al+bl=l; 社区搜索次数获取模块,用于根据一段时间内词X在社区搜索领域中被搜索的次数Social(X)的计算公式得到一段时间内词X在社区搜索领域中被搜索的次数,如果考虑词 的热度,贝1Jsocial (X)的计算公式为:其中,Si(X)为 I --J
第i个单位时间段内词X在社区搜索领域中被搜索的次数,S为当前时间的前一个单位时 间段内词X在社区搜索领域中被搜索的次数,m2为热度参数,m2、n2为大于O的整数,m2小 于n2,a2、b2 为权值,a2+b2=l; 微博搜索次数获取模块,用于根据一段时间内词x在微博搜索领域中被搜索的次数weibo(X)的计算公式得到一段时间内词X在微博搜索领域中被搜索的次数,如果考虑词的 热度,贝1Jweibo(x)的计算公式为:
其中,Ri(X)为第i 个单位时间段内词X在微博搜索领域中被搜索的次数,R为当前时间的前一个单位时间段 内词X在微博搜索领域中被搜索的次数,m3为热度参数,m3、n3为大于0的整数,m3小于 n3,a3、b3 为权值,a3+b3=l; 垂直搜索次数获取模块,用于根据一段时间内词X在垂直搜索领域中被搜索的次数vert(X)的计算公式得到一段时间内词X在垂直搜索领域中被搜索的次数,如果考虑词的 热度,则vert(X)的计算公式为:
其中,Vi(X)表示第i 个单位时间段内词X在垂直搜索领域中被搜索的次数,V为当前时间的前一个单位时间段 内词X在垂直搜索领域中被搜索的次数,m4为热度参数,m4、n4为大于0的整数,m4小于 n4,a4、b4 为权值,a4+b4=l; 电子商务搜索次数获取模块,用于根据一段时间内词X在电子商务搜索领域中被搜索 的次数trade(X)的计算公式得到一段时间内词X在电子商务搜索领域中被搜索的次数,如 果考虑词的热度,则trade(X)的计算公式为:
Ti(x)为 第i个单位时间段内词X在电子商务搜索领域中被搜索的次数,T为当前时间的前一个单 位时间段内词X在电子商务搜索领域中被搜索的次数,m5为热度参数,m5、n5为大于0的 整数,m5小于n5,a5、b5为权值,a5+b5=l。
11. 根据权利要求7所述的分词装置,其特征在于,所述长度分数获取模块,还包括: 长度分数公式确定模块,用于得到词的长度分数的计算公式为:
,其 中,g(x)为词X的长度分数,Iength(X)为词X的长度,c为参数; 长度分数计算模块,用于根据词的长度分数的计算公式计算出词的长度分数。
12. 根据权利要求7所述的分词装置,其特征在于,所述词典生成模块,包括: 分值计算公式确定模块,用于确定词的分值的计算公式为Fin_score (x)=A*f(x)+B*g(x),其中,Fin_score(X)为词x的分值,f(X)为词x的统计分数,g(X)为词的长度分数, A、B为权值,Α、Β>0且A+B=l ; 分值计算模块,用于根据词的分值的计算公式得到词的分值。
【文档编号】G06F17/30GK104462051SQ201310415761
【公开日】2015年3月25日 申请日期:2013年9月12日 优先权日:2013年9月12日
【发明者】程刚 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1