一种词库生成方法及装置与流程

文档序号:12464670阅读:169来源:国知局
一种词库生成方法及装置与流程

本发明涉及计算机领域,尤其涉及一种词库生成方法及装置。



背景技术:

随着计算机技术的不断发展,分词技术已经广泛应用于搜索引擎、机器翻译、语音合成、自动摘要等领域。其中,分词技术是指将一句或者一段中文文字切分成一个一个中文词语的技术,而最常用的分词方法是使用词典进行分词,因此词库质量的好坏直接影响了分词的质量。

目前,词库的生成是由人工进行维护的,当发现一个新词的时候,人工将新词加入词库中;当发现词库中的第一词语不准确时,人工对不准确的第一词语进行修正。

然而,由人工维护词库,会导致维护词库的工作量大、词库准确性降低。



技术实现要素:

为解决上述技术问题,本发明实施例期望提供一种词库生成方法及装置,能够降低维护词库的工作量,提高词库的准确性。

本发明的技术方案是这样实现的:

本发明实施例提供一种词库生成方法,该方法包括:

当预设时间段到达时,获取至少一个待分词文档;

按照第一预设划分策略,将所述至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合;

根据预设内聚模型和预设比较策略,确定与所述至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合;

根据所述至少一个第一词语集合,确定第一词库。

在上述方法中,根据所述预设内聚模型和所述预设比较策略,确定与一个第一字符串集合对应的所述第一词语集合的方法包括:

根据所述预设内聚模型,计算第一字符串的第一内聚度,所述第一字符串为所述一个第一字符串集合中的任意一个字符串;

根据所述第一内聚度和所述预设比较策略,判断所述第一字符串中是否存在第一词语;

当判断出所述第一字符串中存在所述第一词语时,将所述第一字符串存储至第一词语集合中,直至判断完所述一个第一字符串集合中的所有字符串,得到所述第一词语集合。

在上述方法中,所述计算第一字符串的第一内聚度,包括:

统计所述一个第一字符串集合的第一数量和所述第一字符串在第一待分词文档中出现的第二数量,所述第一待分词文档为所述至少一个待分词文档中所述一个第一字符串集合对应的待分词文档;

按照所述预设内聚模型将所述第一字符串划分成左部分和右部分;

在所述第一待分词文档中分别统计所述左部分的第三数量和所述右部分的第四数量;

根据所述第一数量、所述第二数量、所述第三数量和所述第四数量计算所述第一内聚度。

在上述方法中,所述根据所述第一内聚度和所述预设比较策略,判断所述第一字符串中是否存在第一词语,包括:

获取预设内聚度阈值;

将所述第一内聚度与所述预设内聚度阈值进行比较;

当所述第一内聚度大于所述预设内聚度阈值时,判断所述第一字符串中存在所述第一词语;

当所述第一内聚度小于所述预设内聚度阈值时,判断所述第一字符串中不存在所述第一词语。

在上述方法中,所述获取预设内聚度阈值,包括:

选取N个无歧义基本词;

在所述至少一个待分词文档中计算所述N个无歧义基本词分别对应的第三内聚度集合;

将所述第三内聚度集合划分成至少一个区域,在所述至少一个区域中确定第四数量最多的第一区域,所述第四数量为所述第三内聚度集合中所述第一区域内的第三内聚度的个数;

根据所述第四数量和所述第三内聚度计算所述第一区域中的内聚度平均值,并将所述内聚度平均值确定为所述预设内聚度阈值。

在上述方法中,所述根据所述至少一个第一词语集合,确定第一词库,包括:

根据所述至少一个第一词语集合确定第一词语库;

判断是否存在第二词库,所述第二词库为已经存在的词库;

当存在所述第二词库时,将所述第一词语库中的第二词语与所述第二词库的第三词语进行匹配;

当所述第二词语与所述第三词语匹配失败时,将所述第二词语添加至所述第二词库中;

当不存在所述第二词库时,将所述第一词语库确定为所述第一词库。

本发明实施例提供一种词库生成装置,所述装置包括:

获取单元,用于当预设时间段到达时,获取至少一个待分词文档;

划分单元,用于按照第一预设划分策略,将所述至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合;

确定单元,用于根据预设内聚模型和预设比较策略,确定与所述至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合;根据所述至少一个第一词语集合,确定第一词库。

在上述装置中,所述装置还包括:计算单元、判断单元和存储单元;

所述计算单元,用于根据所述预设内聚模型,计算第一字符串的第一内聚度,所述第一字符串为所述一个第一字符串集合中的任意一个字符串;

所述判断单元,用于根据所述第一内聚度和所述预设比较策略,判断所述第一字符串中是否存在第一词语;

所述存储单元,用于当判断出所述第一字符串中存在所述第一词语时,将所述第一字符串存储至第一词语集合中,直至判断完所述一个第一字符串集合中的所有字符串,得到所述第一词语集合。

在上述装置中,所述装置还包括:统计单元和划分单元;

所述统计单元,用于统计所述一个第一字符串集合的第一数量和所述第一字符串在第一待分词文档中出现的第二数量,所述第一待分词文档为所述至少一个待分词文档中所述一个第一字符串集合对应的待分词文档;

所述划分单元,用于按照所述预设内聚模型将所述第一字符串划分成左部分和右部分;

所述统计单元,还用于在所述第一待分词文档中分别统计所述左部分的第三数量和所述右部分的第四数量;

所述计算单元,具体用于根据所述第一数量、所述第二数量、所述第三数量和所述第四数量计算所述第一内聚度。

在上述装置中,所述装置还包括:匹配单元和添加单元;

所述确定单元,还用于根据所述至少一个第一词语集合确定第一词语库;

所述判断单元,还用于判断是否存在第二词库,所述第二词库为已经存在的词库;

所述匹配单元,还用于当存在所述第二词库时,将所述第一词语库中的第二词语与所述第二词库的第三词语进行匹配;

所述添加单元,用于当所述第二词语与所述第三词语匹配失败时,将所述第二词语添加至所述第二词库中;

所述确定单元,还用于当不存在所述第二词库时,将所述第一词语库确定为所述第一词库。

本发明实施例提供了一种词库生成方法及装置,通过当预设时间段到达时,获取至少一个待分词文档;按照第一预设划分策略,将至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合;根据预设内聚模型和预设比较策略,确定与至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合;根据至少一个第一词语集合,确定第一词库。采用上述技术实现方案,词库生成装置获取至少一个待分词文档,并从至少一个待分词文档中确定至少一个第一词语集合,根据至少一个第一词语集合确定第一词库,可以降低维护词库的工作量,提高词库的准确性。

附图说明

图1为实现本发明各个实施例的一种可选的移动终端的硬件结构示意;

图2为本发明的移动终端能够操作的通信系统;

图3为本发明实施例提供的一种词库生成方法的流程图一;

图4为本发明实施例提供的一种词库生成方法的流程图二;

图5为本发明实施例提供的一种词库生成方法的流程图三;

图6为本发明实施例提供的一种示例性的词库生成方法的流程图;

图7为本发明实施例提供的一种装置1的结构示意图一;

图8为本发明实施例提供的一种装置1的结构示意图二;

图9为本发明实施例提供的一种装置1的结构示意图三

图10为本发明实施例提供的一种装置1的结构示意图四;

图11为本发明实施例提供的一种装置1的结构示意图五。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如,本发明实施例中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

移动终端100可以包括用户输入单元130、存储器160、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等变化的触敏组件)、滚轮、摇杆等等。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。

至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。

参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干已知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。

每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语“基站”可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为“蜂窝站”。或者,特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

实施例一

本发明实施例提供一种词库生成方法,如图3所示,该方法可以包括:

S101、当预设时间段到达时,获取至少一个待分词文档。

本发明实施例提供的一种词库生成方法适用于使用词库生成装置生成词库的场景下。

本发明实施例中,词库生成装置内部预设时间段,当预设时间段到达时,词库生成装置检测是否存在至少一个待分词文档,当检测到存在至少一个待分析文档时,词库生成装置获取至少一个待分词文档。

可选的,本发明实施例中获取至少一个待分词文档的方式,可以是用户手动输入至少一个待分词文档,也可以是当用户发送文档时,词库生成装置自动获取的,具体的根据实际情况进行选择,本发明实施例不做具体限定。

S102、按照第一预设划分策略,将至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合。

当词库生成装置获取待至少一个待分词文档之后,词库生成装置将至少一个待分词文档划分成长度为N的至少一个第一字符串集合的形式,N大于等于2。

本发明实施例中,词库生成装置并行的将至少一个待分词文档中的每一个待分词文档划分成长度为N的一个第一字符串集合,生成至少一个第一字符串集合,N大于等于2,这样,就可以缩减词库生成的时间。

示例性的,文档一的内容是“下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。”将文档一划分成长度为5的字符串集合的形式为“下面将结合”、“本发明实施例”、“中的附图对”“本发明实施例”、“中的技术方”、“案进行清楚”、“完整地描述”这些字符串集合的形式。

S103、根据预设内聚模型和预设比较策略,确定与至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合。

当词库生成装置得到至少一个第一字符串集合之后,词库生成装置就要确定与至少一个第一字符串集合对应的至少一个第一词语集合了。

本发明实施例中,词库生成装置先从至少一个第一字符串集合中分别选取至少一个待分词文档对应的至少一个第一字符串,然后根据预设内聚模型,计算至少一个第一字符串的至少一个第一内聚度,然后分别将至少一个第一内聚度与预设内聚度阈值进行比较,当至少一个第一内聚度中有第一内聚度大于预设内聚度阈值时,则将第一内聚度对应的第一字符串存储至第一待分词文档对应的第一词语集合中,当判断完至少一个第一字符串集合中的所有字符串之后,词库生成装置就获得了至少一个第一词语集合。

本发明实施例中,词库生成装置利用公式(1)和公式(2)计算至少一个第一字符串的至少一个第一内聚度。

将公式(1)带入公式(2)中,得到计算至少一个第一内聚度的公式(3)

本发明实施例中,词库生成装置将获得的至少一个字符串集合中的每个字符串根据nagao算法分成左部分和右部分两个部分,再分别统计该字符串、左部分和右部分分别在所属待分词文档中出现的第二数量、第三数量和第四数量,即为tf、tf(letfPart)和tf(rightPart),然后统计所述待分词文档中所有字符串的第一数量,即为N,此时就可以获得至少一个第一内聚度了。

本发明实施例中,nagao算法将至少一个第一字符串划分为左右两个部分的所有划分可能都列举出来,并分别统计各种可能中左部分和右部分在第一待分词文档中出现的第三数量和第四数量。

示例性的,,字符串集合中第一字符串的长度为5,第一字符串的内容为“县城里有米”,那么根据nagao算法可以将第一字符串划分为“县”和“城里有米”左右两个部分、“县城”和“里有米”左右两个部分、“县城里”和“有米”左右两个部分以及“县城里有”和“米”左右两个部分这4中划分方式,nagao算法分别统计这4中划分情况下左右两个部分在全文中出现的次数。

本发明实施例中,词库生成装置计算出预设内聚度阈值,并将预设内聚度阈值存储至词库生成装置中,以供与至少一个第一内聚度进行比较,词库生成装置首先选取N个无歧义基本词,然后在至少一个待分词文档中计算N个无歧义基本词对应的第三内聚度集合,之后,词库生成装置将第三内聚度集合划分成多个区域,并寻找第三内聚度数量最多的第一区域,最后,词库生成装置用第一区域内第三内聚度的和除以第一区域内第三内聚度的个数得到第一区域内第三内聚度的平均值,则这个值就为预设内聚度阈值。

S104、根据至少一个第一词语集合,确定第一词库。

当词库生成装置确定至少一个第一词语集合之后,词库生成装置就要根据至少一个第一词语集合确定第一词库了。

本发明实施例中,当词库生成装置确定了至少一个第一词语集合之后,词库生成装置找出至少一个第一词语集合中的交集,从而将交集中存在的词语确定为第一词语库,然后,词库生成装置判断是否已经存在第二词库,如果存在第二词库时,词库生成装置将第一词语库中的第二词库中不存在的词语添加至第二词库中;如果不存在第二词库时,词库生成装置将第一词语库确定为第一词库。

本发明实施例中,词库生成装置将第一词语库中的第二词语依次与第二词库中的第三词语进行匹配操作,当第二词语与第三词语匹配成功时,表征第二词库中存在第二词语;当第二词语与第三词语匹配失败时,表征第二词库中不存在第二词语,此时,将第二词语添加至第二词库中。

可以理解的是,将第一词语库中的第二词库中不存在的第二词语添加至第二词库中,可以完成第二词库的自动定期更新。

可以理解的是,词库生成装置获取至少一个待分词文档,并从至少一个待分词文档中确定至少一个第一词语集合,根据至少一个第一词语集合确定第一词库,可以将第维护词库的工作量,提高词库的准确性。

具体的,如图4所示,根据预设内聚模型和预设比较策略,确定与一个第一字符串集合对应的第一词语集合的方法,包括:

S201、词库生成装置统计一个第一字符串集合的第一数量和第一字符串在第一待分词文档中出现的第二数量,第一待分词文档为至少一个待分词文档中一个第一字符串集合对应的待分词文档。

本发明实施例中,词库生成装置获取到第一待分词文档及其一个第一字符串集合之后,词库生成装置统计一个第一字符串集合的第一数量和第一字符串在第一待分词文档中出现的第二数量。

S202、词库生成装置按照预设内聚模型将第一字符串划分成左部分和右部分。

在词库生成装置获取待一个第一字符串中的第一字符串之后,词库生成装置首先按照预设内聚模型将第一字符串划分成左部分和右部分两个部分。

本发明实施例中,词库生成装置可以利用nagao算法将第一字符串划分成左部分和右部分两个部分,具体的,nagao算法将第一字符串划分为左右两个部分的所有划分可能都列举出来。

示例性的,字符串集合中第一字符串的长度为5,第一字符串的内容为“县城里有米”,那么根据nagao算法可以将第一字符串划分为“县”和“城里有米”左右两个部分、“县城”和“里有米”左右两个部分、“县城里”和“有米”左右两个部分以及“县城里有”和“米”左右两个部分这4中划分方式。

S203、词库生成装置在第一待分词文档中分别统计左部分的第三数量和右部分的第四数量。

在词库生成装置获取到第一字符串划分为左部分和右部分两个部分的所有划分可能之后,词库生成装置就要在第一待分词文档中将所有划分可能下的左部分和右部分出现的第三数量和第四数量进行统计了。

本发明实施例中,词库生成装置在第一待分词文档中分别统计各种划分可能下的左部分和右部分出现的第三数量和第四数量。

S204、词库生成装置根据第一数量、第二数量、第三数量和第四数量计算第一内聚度。

在词库生成装置获取到第一数量、第二数量、第三数量和第四数量之后,词库生成装置就要根据获取到的以上数量来计算第一内聚度了。

本发明实施例中,词库生成装置计算各种划分可能下的第二内聚度,然后在从第二内聚度中选取最小值对应的内聚度作为第一内聚度。

本发明实施例中,根据公式(1)计算第一字符串以及左部分和右部分的词频。

copro(word)=tf/N (1)

其中,tf为字符串在第一待分词文档中出现的次数,N为一个第一字符串集合的第一数量。

本发明实施例中,根据公式(2)计算第一字符串中每种划分情况下的第二内聚度。

根据公式(1)和公式(2),可以得到计算内聚度的公式(3)

本发明实施例中,根据S201得到的第一数量和第二数量分别对应公式(3)中的N和tf、根据S203得到的第三数量和第四数量对应公式(3)中的tf(letfPart)和tf(rightPart),因此,词库生成装置计算出了第二内聚度。

S205、词库生成装置获取预设内聚度阈值。

在词库生成装置计算出第一内聚度之后,词库生成装置就要获取预设内聚度阈值来作为判断第一字符串是否存在第一词语的标准了。

本发明实施例中,词库生成装置计算出预设内聚度阈值,并将预设内聚度阈值存储至词库生成装置中,以供与至少一个第一内聚度进行比较,词库生成装置首先选取N个无歧义基本词,然后在至少一个待分词文档中计算N个无歧义基本词对应的第三内聚度集合,之后,词库生成装置将第三内聚度集合划分成至少一个区域,并寻找第三内聚度数量最多的第一区域,最后,词库生成装置用第一区域内第三内聚度的和除以第一区域内第三内聚度的个数得到第一区域内第三内聚度的平均值,则这个值就为预设内聚度阈值。

示例性的,词库生成装置计算出的内聚度集合为0.1、0.7、0.6、0.6、0.5、0.9,词库生成装置将内聚度集合划分为[0.1,05),[0.5,0.8),[0.8,1]这三个区域,在[0.1,05)区域中有一个内聚度,在[0.5,0.8)区域中有四个内聚度,在[0.8,1]区域中有一个内聚度,此时,计算[0.5,0.8)区域中的内聚度平均值为0.6,则词库生成装置的预设内聚度域值为0.6。

S206、词库生成装置将第一内聚度与预设内聚度阈值进行比较。

在词库生成装置获取到预设内聚度阈值之后,词库生成装置就要将第一内聚度与预设内聚度阈值进行比较,从而判断第一字符串中是否存在第一词语。

本发明实施例中,词库生成装置将第一内聚度与预设内聚度阈值进行比较。

S207、当第一内聚度小于预设内聚度阈值时,词库生成装置判断第一字符串中不存在第一词语。

在词库生成装置获取到预设内聚度阈值之后,词库生成装置就要将第一内聚度与预设内聚度阈值进行比较,从而判断第一字符串中是否存在第一词语。

本发明实施例中,当第一内聚度小于预设内聚度阈值时,表征第一字符串中不存在第一词语。

S208、当第一内聚度大于预设内聚度阈值时,词库生成装置判断第一字符串中存在第一词语。

在词库生成装置获取到预设内聚度阈值之后,词库生成装置就要将第一内聚度与预设内聚度阈值进行比较,从而判断第一字符串中是否存在第一词语。

本发明实施例中,当第一内聚度大于预设内聚度阈值时,表征第一字符串中存在第一词语。

S209、当词库生成装置判断出第一字符串中存在第一词语时,词库生成装置将第一字符串存储至第一词语集合中,直至词库生成装置判断完一个第一字符串集合中的所有字符串,得到第一词语集合。

当词库生成装置判断出第一字符串中存在第一词语时,词库生成装置将第一字符串存储至第一词语集合中。

本发明实施例中,第一词语集合为第一待分词文档对应的词语集合。

本发明实施例中,当词库生成装置判断出第一字符串中存在第一词语时,词库生成装置将第一字符串存储至第一词语集合中。

本发明实施例中,词库生成装置将一个第一字符串集合中的所有字符串都进行判断,得到了第一词语集合。

步骤S207和步骤S208-步骤S209为步骤S206之后的两个并列的步骤,具体的根据实际情况进行判定,本发明实施例不做具体限定。

因此,对至少一个第一字符串集合中的每个一个第一字符串集合执行步骤S201-步骤S209的操作,就可以得到步骤S103中的根据预设内聚模型和预设比较策略,确定与至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合的过程。

实施例二

本发明实施例提供一种词库生成方法,如图5所示,该方法可以包括:

S301、当预设时间段到达时,词库生成装置获取至少一个待分词文档。

该步骤与步骤S101的实现过程相同,具体可参照步骤S101,在此不做赘述。

S302、词库生成装置按照第一预设划分策略,将至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合。

该步骤与步骤S102的实现过程相同,具体可参照步骤S102,在此不做赘述。

S303、词库生成装置根据预设内聚模型和预设比较策略,确定与至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合。

该步骤与步骤S103的实现过程相同,具体可参照步骤S103,在此不做赘述。

S304、词库生成装置根据至少一个第一词语集合确定第一词语库。

在词库生成装置得到至少一个第一词语集合之后,词库生成装置就要根据至少一个第一词语集合来确定第一词语库了。

本发明实施例中,当词库生成装置确定了至少一个第一词语集合之后,词库生成装置找出至少一个第一词语集合中的交集,从而将交集中存在的词语确定为第一词语库。

S305、词库生成装置判断是否存在第二词库,第二词库为已经存在的词库。

当词库生成装置确定了第一词语库之后,词库生成装置就要判断是否已经存在第二词库了。

本发明实施例中,词库生成装置检测是否已经存在第二词库。

S306、当存在第二词库时,词库生成装置将第一词语库中的第二词语与第二词库的第三词语进行匹配。

当词库生成装置检测到存在第二词库时,词库生成装置将获取到的第二次欲哭中的第二词语依次与第二词库中的第三词语进行匹配操作。

S307、当第二词语与第三词语匹配失败时,词库生成装置将第二词语添加至第二词库中。

当第二词语与第三词语匹配失败时,表征第二词库中没有第二词语,此时词库生成装置将第二词库添加至第二词库中。

S308、当不存在第二词库时,词库生成装置将第一词语库确定为第一词库。

当词库生成装置检测到不存在第二词库至,词库生成装置直接将第一词语库作为第二词库。

步骤S306-步骤S307和步骤S308为步骤S305之后两个并列的步骤,具体的根据实际情况进行选择,本发明实施例不做具体的限定。

可以理解的是,将第一词语库中的第二词库中不存在的第二词语添加至第二词库中,可以完成第二词库的自动定期更新。

示例性的,词库生成装置获取第一待分词文档,并将第一待分词文档中的第一词语添加至第一词语库的过程如图6所示,词库生成装置首先获取第一待分词文档,然后将第一待分词文档划分为一个第一字符串集合,依次将一个第一字符串集合中的第一字符串按照nagao算法划分成左部分和右部分,分别统计左部分的数量、右部分的数量、第一字符串在第一待分词文档中出现的数量以及一个第一字符串集合中字符串的数量,然后再根据左部分的数量、右部分的数量、第一字符串在第一待分词文档中出现的数量以及一个第一字符串集合中字符串的数量计算第一字符串的第二内聚度,词库生成装置从第二内聚度中确定内聚度值最小的内聚度作为第一字符串的第一内聚度,比较第一内聚度与预设内聚度阈值,当第一内聚度大于预设内聚度阈值时,将第一字符串添加至第一词语库中,当将第一字符串添加至第一词语库之后和当第一内聚度小于预设内聚度阈值时,判断是否是一个第一字符串集合中的最后一个字符串,如果否,则进行下一个字符串的判断流程,如果是,则结束流程。

可以理解的是,词库生成装置获取至少一个待分词文档,并从至少一个待分词文档中确定至少一个第一词语集合,根据至少一个第一词语集合确定第一词库,可以降低维护词库的工作量,提高词库的准确性。

实施例三

本发明实施例提供一种词库生成装置2,如图7所示,该词库生成装置2包括:

获取单元10,用于当预设时间段到达时,获取至少一个待分词文档.

划分单元11,用于按照第一预设划分策略,将所述至少一个待分词文档划分成至少一个第一字符串集合,其中,一个待分词文档对应一个第一字符串集合。

确定单元12,用于根据预设内聚模型和预设比较策略,确定与所述至少一个第一字符串集合中每个第一字符串集合对应的第一词语集合,得到至少一个第一词语集合;根据所述至少一个第一词语集合,确定第一词库。

可选的,基于图7如图8所示,所述词库生成装置2还包括:计算单元13、判断单元14和存储单元15。

所述计算单元13,用于根据所述预设内聚模型,计算第一字符串的第一内聚度,所述第一字符串为所述一个第一字符串集合中的任意一个字符串;

所述判断单元14,用于根据所述第一内聚度和所述预设比较策略,判断所述第一字符串中是否存在第一词语。

所述存储单元15,用于当判断出所述第一字符串中存在所述第一词语时,将所述第一字符串存储至第一词语集合中,直至判断完所述一个第一字符串集合中的所有字符串,得到所述第一词语集合。

可选的,基于图8如图9所示,所述词库生成装置2还包括:统计单元16。

所述统计单元16,用于统计所述一个第一字符串集合的第一数量和所述第一字符串在第一待分词文档中出现的第二数量,所述第一待分词文档为所述至少一个待分词文档中所述一个第一字符串集合对应的待分词文档。

所述划分单元11,具体用于按照所述预设内聚模型将所述第一字符串划分成左部分和右部分。

所述统计单元16,还用于在所述第一待分词文档中分别统计所述左部分的第三数量和所述右部分的第四数量。

所述计算单元13,具体用于根据所述第一数量、所述第二数量、所述第三数量和所述第四数量计算所述第一内聚度。

可选的,基于图7如图10所示,所述词库生成装置2还包括:匹配单元17和添加单元18。

所述确定单元12,还用于根据所述至少一个第一词语集合确定第一词语库。

所述判断单元14,还用于判断是否存在第二词库,所述第二词库为已经存在的词库。

所述匹配单元17,还用于当存在所述第二词库时,将所述第一词语库中的第二词语与所述第二词库的第三词语进行匹配。

所述添加单元18,用于当所述第二词语与所述第三词语匹配失败时,将所述第二词语添加至所述第二词库中。

所述确定单元12,还用于当不存在所述第二词库时,将所述第一词语库确定为所述第一词库。

可选的,该词库生成装置2可以由终端1实现,具体的,终端1可以包括手机、iPad等可以进行文档输入的终端,具体的根据实际情况进行选择,本发明实施例不做具体的限定。

如图11所示,在实际应用中,上述获取单元10、划分单元11、确定单元12、计算单元13、判断单元14、存储单元15、统计单元16、匹配单元17和添加单元18可由位于终端1上的处理器19实现,具体为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等实现,该终端1还可以包括存储器110,该存储器110可以与处理器19连接,其中,存储器110用于存储可执行程序代码,该程序代码包括计算机操作指令,存储器110可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少一个磁盘存储器。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1