一种文本信息处理方法、装置和系统与流程

文档序号:11458583阅读:169来源:国知局
一种文本信息处理方法、装置和系统与流程

本发明涉及通信技术领域,具体涉及一种文本信息处理方法、装置和系统。



背景技术:

随着科学技术的不断发展,用户产生的文本语料也呈现指数级增长,不断发生的新事物催生很多新词语,如“非典”等。新词语的出现常常令一些文本处理模型,如分词,变得不知所措,而分词是中文自然语言处理中最基础的一个环节,不理想的分词结果势必影响诸如文本分类、聚类以及主题识别等常见的文本处理任务,因此对新词的自动发现显得非常必要。

现有的新词发现方法一般可分为基于统计和基于规则两种方法。其中,基于统计的方法常见有隐马尔可夫模型、最大熵、以及支持向量机等,这些统计信息常常用于生成分词模型;而基于规则方法则是从模板特征库和已标注上下文搭配特征的训练集中学习一些规则,进而再把学习得到的规则用于待发现新词语料,常见的一些规则如词语构造规则等。

在对现有技术的研究和实践过程中,本发明的发明人发现,现有方案都需要对文本语料进行分词,而这种基于分词的新词发现方案,需要不断将训练语料和待发现新词语料组合,重新生成分词模型训练语料,不断滚动的去发现新词,流程复杂,需要耗费较多计算资源;而且,由于新词没有明确定义,因此,其边界也较难确定,用常规的词典和规则对其进行过滤,也往往达不到良好效果,新词发现率较低。



技术实现要素:

本发明实施例提供一种文本信息处理方法、装置和系统,不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。

本发明实施例提供一种文本信息处理方法,包括:

获取文本信息,并根据所述文本信息确定训练语料;

将所述训练语料划分为单字,以及字串;

分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;

根据所述独立概率和联合概率选择候选新词,得到候选新词集合;

确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。

相应的,本发明实施例还提供一种文本信息的处理装置,包括:

获取单元,用于获取文本信息,并根据所述文本信息确定训练语料;

划分单元,用于将所述训练语料划分为单字,以及字串;

统计单元,用于分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;

选择单元,用于根据所述独立概率和联合概率选择候选新词,得到候选新词集合;

确定单元,用于确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。

此外,本发明实施例还提供一种文本信息的处理系统,包括本发明实施例提供的任一种文本信息的处理装置。

本发明实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的文本信息处理系统的场景示意图;

图1b是本发明实施例提供的文本信息处理方法的流程图;

图2是本发明实施例提供的文本信息处理方法的另一流程图;

图3a是本发明实施例提供的文本信息处理装置的结构示意图;

图3b是本发明实施例提供的文本信息处理装置的另一结构示意图;

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种文本信息处理方法、装置和系统。

该文本信息处理系统可以包括本发明实施例所提供的任一种文本信息处理装置,该文本信息处理装置具体可以集成在服务器中,如图1a所示,该服务器可以获取文本信息,比如,可以从网络中获取新闻、影视剧信息、用户生成内容(ugc,usergeneratedcontent),比如用户发表的文章、微博和/或博客等文本信息,并根据该文本信息确定训练语料,然后,将该训练语料划分为单字,以及字串,分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,再然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,将该候选新词集合中的候选新词与预设常用词典进行匹配,若该候选新词不在预设常用词典中,且联合概率大于预设阈值,则确定该候选新词为新词,从而达到发现新词的目的。

以下分别进行详细说明。

实施例一、

本实施例将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在服务器等网络设备中。

一种文本信息处理方法,包括:获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。

如图1b所示,该文本信息处理方法的具体流程可以如下:

101、获取文本信息,并根据该文本信息确定训练语料。

其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及用户生成内容(ugc,usergeneratedcontent)等,其中,该ugc可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。

在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。

102、将该训练语料划分为单字,以及字串。

其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。

需说明的是,本发明实施例所说的单字,可以包括汉字或日语等文字,为了描述方便,本发明实施例均以汉字为例进行说明。

103、分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率。例如,具体可以如下:

(1)分别统计单字在训练语料中出现的次数、字串在训练语料中出现的次数,以及该训练语料的总字数。

(2)根据该单字在训练语料中出现的次数和该训练语料的总字数计算单字的概率,得到单字的独立概率。

比如,可以用该单字在训练语料中出现的次数除以该训练语料的总字数,即可得到该单字的独立概率,用公式表示即为:

其中,p(wk)为单字的独立概率,count(wk)为单字在训练语料中出现的次数,为训练语料的总字数。

(3)根据该字串在训练语料中出现的次数和该训练语料的总字数计算字串的概率,得到字串所对应的联合概率。

比如,可以将该字串在训练语料中出现的次数除以该训练语料的总字数,即可得到字串所对应的联合概率,用公式表示即为:

其中,p(wj...wj+k)为字串所对应的联合概率,count(wj...wj+k)为字串在训练语料中出现的次数,为训练语料的总字数。

104、根据该独立概率和联合概率选择候选新词,得到候选新词集合。

例如,可以将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即具体可以如下:

确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。用公式表示即为:

当p(wj)p(wj+1)...p(wj+k)<p(wj...wj+k)时,将该当前字串确定为候选新词。

由于字串(候选新词)在语料中不断出现,势必更有可能成为新词,因此,可选的,为了提高发现新词的准确率,可以根据人的阅读速度把训练语料大小转化成时间长短,然后,再根据艾宾浩斯记忆规律,不断学习,并对联合概率进行更新,即在步骤“根据该独立概率和联合概率选择候选新词,得到候选新词集合”之后,该文本信息处理方法还可以包括:

根据艾宾浩斯记忆规律对该候选新词集合中候选新词所对应的联合概率 进行实时更新,得到更新后联合概率;例如,可以如下:

(1)从该候选新词集合中确定当前需要处理的候选新词。

(2)估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间。

例如,可以确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置,然后,计算该训练开始位置到该顺序位置的距离,得到第一距离,将该第一距离除以预设阅读速度,得到前向时间。用公式表示即为:

其中,tpre表示前向时间;posi表示第i个候选新词在语料中的位置;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。

(3)估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;

例如,可以确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置,然后,计算该逆序位置到该训练结束位置的距离,得到第二距离,将该第二距离除以预设阅读速度,得到后置时间。用公式表示即为:

其中,tbck表示后置时间;posi表示第i个候选新词在语料中的位置;len表示该训练语料的总长度;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。

(4)根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率。

其中,该指数衰减式函数可以根据艾宾浩斯记忆规律进行构造,比如,可以如下:

其中,f(seqi)表示候选新词成新词的概率大小;α是衰减常量,表示衰减幅度,可根据实际应用的需求进行调整;tpre为前向时间;tbck为后置时间。

需说明的是,在进行候选新词的成词概率计算时,可以根据迭代次数会将训练语料按顺序平均生成相应的训练开始位置,确保每一次迭代计算的开始位置都不同,而且最大可能保证在生成tpre和tbck不受开始位置的影响,即在步骤“根据艾宾浩斯记忆规律对该候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率”之前,该文本信息处理方法还可以包括:

获取需要迭代的次数;根据该迭代次数将该训练语料按顺序平均生成相应的训练开始位置,使得每一次迭代的训练开始位置均不同;根据该训练开始位置确定相应训练结束位置。

则此时,步骤“确定该训练语料的训练开始位置”具体可以为:根据当前迭代序位确定相应的训练开始位置;

步骤“确定该训练语料的训练结束位置”具体可以为:根据当前迭代序位确定相应的训练结束位置。

其中,需要迭代的次数可以根据实际应用的需求进行设置,比如,可以设置为100次,等等。

此外,还需说明的是,除了可以采用艾宾浩斯记忆规律来构造该指数衰减式函数之外,还可以采用其他的“可模仿指数衰减规律”的函数,如牛顿冷却定律,等等。

(5)返回执行从该候选新词集合中确定当前需要处理的候选新词的步骤,即返回执行步骤(1),直至该候选新词集合中所有的候选新词的联合概率更新完毕。

105、确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。

需说明的是,如果该联合概率已经进行了更新,则此时需要采用更新后的联合概率进行比较,即步骤“确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词”具体可以为:

确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合 概率大于预设阈值时,确定该候选新词为新词。

其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。

由上可知,本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。

实施例二、

根据实施例一所描述的方法,以下将举例作进一步详细说明。

在本实施例中,将以汉字,且该文本信息处理装置具体集成在服务器中为例进行说明。

如图2所示,一种文本信息处理方法的具体流程可以如下:

201、服务器获取文本信息,并根据该文本信息确定训练语料。

其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及ugc等,其中,该ugc可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。

在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。

202、服务器将该训练语料划分为单字,以及字串。

其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。

203、服务器统计各个单字在训练语料中出现的次数、字串在训练语料中 出现的次数,以及该训练语料的总字数。

204、服务器根据该单字在训练语料中出现的次数和该训练语料的总字数计算单字的概率,得到单字的独立概率。

比如,可以用该单字在训练语料中出现的次数除以该训练语料的总字数,即可得到该单字的独立概率,用公式表示即为:

其中,p(wk)为单字的独立概率,count(wk)为单字在训练语料中出现的次数,为训练语料的总字数。

例如,单字“美”在训练语料中出现的次数为100次,而训练语料的总字数为100000个,则该单字“美”的独立概率为1/1000;同理,如果单字“好”在训练语料中出现的次数为1000次,而训练语料的总字数为100000个,则该单字“好”的独立概率为1/100,以此类推,等等。

205、服务器根据该字串在训练语料中出现的次数和该训练语料的总字数计算字串的概率,得到字串所对应的联合概率。

比如,可以将该字串在训练语料中出现的次数除以该训练语料的总字数,即可得到字串所对应的联合概率,用公式表示即为:

其中,p(wj...wj+k)为字串所对应的联合概率,count(wj...wj+k)为字串在训练语料中出现的次数,为训练语料的总字数。

例如,如果字串“美好”在训练语料中出现的次数为50次,而训练语料的总字数为100000个,则该字串“美好”的联合概率为1/2000;同理,如果字串“美丽”在训练语料中出现的次数为10次,而训练语料的总字数为100000个, 则该字串“美丽”的联合概率为1/10000以此类推,等等。

需说明的是,步骤204和205的执行顺序可以不分先后。

206、服务器将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即当p(wj)p(wj+1)...p(wj+k)<p(wj...wj+k)时,将该当前字串确定为候选新词,此后,可以将该候选新词添加至候选新词集合中。例如,具体可以如下:

确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。

比如,如果字串“美好”的联合概率为1/2000,而单字“美”的独立概率为1/1000,单字“好”的独立概率为1/100,则字串“美好”的联合概率大于单字“美”和“好”的独立概率的乘积,因此,可以确定字串“美好”为候选新词,依次类推。

207、服务器根据艾宾浩斯记忆规律对该候选新词集合中候选新词所对应的联合概率进行实时更新,得到更新后联合概率;例如,可以如下:

(1)从该候选新词集合中确定当前需要处理的候选新词。

其中,该候选新词集合中可以包括多个候选新词,可以逐一对这些候选新词的联合概率进行更新。

(2)估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间。

例如,可以确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置,然后,计算该训练开始位置到该顺序位置的距离,得到第一距离,将该第一距离除以预设阅读速度,得到前向时间。用公式表示即为:

其中,tpre表示前向时间;posi表示第i个候选新词在语料中的位置;δ表 示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。

比如,如果候选新词“美好”在该训练语料中的顺序位置距离训练开始位置的距离为80000个字,而阅读速度δ为每秒八个字,则此时,可以计算出该候选新词“美好”的前向时间为80000/8=10000秒。

(3)估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;

例如,可以确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置,然后,计算该逆序位置到该训练结束位置的距离,得到第二距离,将该第二距离除以预设阅读速度,得到后置时间。用公式表示即为:

其中,tbck表示后置时间;posi表示第i个候选新词在语料中的位置;len表示该训练语料的总长度;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。

比如,如果候选新词“美好”在该训练语料中的逆序位置距离训练结束位置的距离为20000个字(即训练语料的总长度100000减去字串“美好”的前向位置80000),而阅读速度δ为每秒八个字,则此时,可以计算出该候选新词“美好”的后置时间为20000/8=2500秒。

(4)根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率。

其中,该指数衰减式函数可以根据艾宾浩斯记忆规律进行构造,比如,可以如下:

其中,f(seqi)表示候选新词成新词的概率大小;α是衰减常量,表示衰减幅度,可根据实际应用的需求进行调整;tpre为前向时间;tbck为后置时间。

需说明的是,在进行候选新词的成词概率计算时,可以根据迭代次数会将训练语料按顺序平均生成相应的训练开始位置,确保每一次迭代计算的开始位 置都不同,而且最大可能保证在生成tpre和tbck不受开始位置的影响,即在步骤“根据艾宾浩斯记忆规律对该候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率”之前,该文本信息处理方法还可以包括:

获取需要迭代的次数;根据该迭代次数将该训练语料按顺序平均生成相应的训练开始位置,使得每一次迭代的训练开始位置均不同;根据该训练开始位置确定相应训练结束位置。

则此时,步骤“确定该训练语料的训练开始位置”具体可以为:根据当前迭代序位确定相应的训练开始位置;

步骤“确定该训练语料的训练结束位置”具体可以为:根据当前迭代序位确定相应的训练结束位置。

其中,需要迭代的次数可以根据实际应用的需求进行设置,比如,可以设置为100次,等等。

比如,假设待训练语料中,总共有100000条语料,设置的迭代次数是100轮,那么,第一轮迭代开始位置是第一条文本,结束位置是第100000条;第二轮迭代开始位置是1001条,相应的结束位置是999条;第k(k<100)轮迭代开始位置是(1000*(k-1)+1)位置,结束位置是(1000*(k-1)-1)位置,等等。

(5)返回执行从该候选新词集合中确定当前需要处理的候选新词的步骤,即返回执行步骤(1),直至该候选新词集合中所有的候选新词的联合概率更新完毕。

208、服务器确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定该候选新词为新词。

例如,可以将该候选新词集合中的候选新词与预设常用词典中的词语进行匹配,若该候选新词不存在于该常用词典中,且该候选新词当前的联合概率(即更新后联合概率)大于预设阈值,则确定该候选新词为新词;否则,若该候选新词存在于该常用词典中,或者,虽然该候选新词不存在于该常用词典中,但其当前的联合概率(即更新后联合概率)小于等于预设阈值,则确定该候选新词不是新词。

其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。

比如,如果“美好”这个候选新词已经在词典中,则不将“美好”这个候选新词作为新词,而如果“猴赛雷”这个候选新词不在常用词典中,且“猴赛雷”的联合概率大于预设阈值,则可以确定“猴赛雷”为新词,等等。

由上可知,本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。

该方案可用于生成大规模语料词库、词语权值计算(关键词或主题词提取)以及生成扩展词典等,此外,还可以用于对词语的检测,比如对恶意评论的检测,等等。

实施例三、

为了更好地实施以上方法,本发明实施例还提供一种文本信息的处理装置,如图3a所示,该文本信息处理装置可以包括获取单元301、划分单元302、统计单元303、选择单元304和确定单元305,如下:

(1)获取单元301;

获取单元301,用于获取文本信息,并根据该文本信息确定训练语料。

其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及ugc等,其中,该ugc可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。

在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的 文本信息作为训练语料,等等。

(2)划分单元302;

划分单元302,用于将该训练语料划分为单字,以及字串。

其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。

(3)统计单元303;

统计单元303,用于分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率。例如,该统计单元303,具体可以用于:

分别统计该单字在训练语料中出现的次数、该字串在训练语料中出现的次数,以及该训练语料的总字数;

根据该单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;

根据该字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。

具体可参见前面的方法实施例,在此不再赘述。

(4)选择单元304;

选择单元304,用于根据该独立概率和联合概率选择候选新词,得到候选新词集合。

例如,可以将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即:

选择单元304,具体可以用于:确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。

(5)确定单元305;

确定单元305,用于确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。

其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。

由于字串(候选新词)在语料中不断出现,势必更有可能成为新词,因此,为了提高发现新词的准确率,可以根据人的阅读速度把训练语料大小转化成时间长短,然后,再根据艾宾浩斯记忆规律,不断学习,并对联合概率进行更新,即可选的,如图3b所示,该文本信息的处理装置还可以包括更新单元306,如下:

该更新单元306,可以用于根据艾宾浩斯记忆规律对该候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率。

则此时,确定单元305,具体可以用于确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定该候选新词为新词。

例如,该更新单元306,具体可以用于从该候选新词集合中确定当前需要处理的候选新词;估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,该指数衰减式函数根据艾宾浩斯记忆规律进行构造;返回执行从该候选新词集合中确定当前需要处理的候选新词的操作,直至该候选新词集合中所有的候选新词的联合概率更新完毕。

其中,前向时间和后置时间的计算方式可以如下:

该更新单元306,具体可以用于确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置;计算该训练开始位置到该顺序位置的距离,得到第一距离;将该第一距离除以预设阅读速度,得到前向时间。

该更新单元306,具体可以用于确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置;计算该逆序位置到该训练结束位置的距离,得到第二距离;将该第二距离除以预设阅读速度,得到后置时间。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

该文本信息处理装置具体可以集成在服务器等网络设备中。

由上可知,本实施例的文本信息的处理装置的划分单元302可以将训练语料划分为单字,以及字串,并由统计单元303分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,由选择单元304根据该独立概率和联合概率选择候选新词,得到候选新词集合,并由确定单元305在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。

实施例四、

相应的,本发明实施例还提供一种文本信息的处理系统,包括本发明实施例所提供的任一种文本信息的处理装置,具体可参见实施例三,例如,可以如下:

文本信息的处理装置,用于获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。

其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及ugc等,其中,该ugc可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。

此外,该文本信息的处理系统还可以包括其他设备,比如用于存储数据的 存储服务器,以及用于发表文本信息的终端设备,等等,在此不再赘述。

以上各个设备的具体实施可参见前面的方法实施例,在此不再赘述。

由于该文本信息的处理系统可以包括本发明实施例所提供的任一种文本信息的处理装置,因此,可以实现本发明实施例所提供的任一种文本信息的处理装置所能实现的有益效果,详见前面的实施例,在此不再赘述。

实施例五、

本发明实施例还提供一种服务器,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(radiofrequency,rf)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

rf电路403可用于收发信息过程中,信号的接收和发送,特别地,将基 站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,rf电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim)卡、收发信机、耦合器、低噪声放大器(lna,lownoiseamplifier)、双工器等。此外,rf电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(gsm,globalsystemofmobilecommunication)、通用分组无线服务(gprs,generalpacketradioservice)、码分多址(cdma,codedivisionmultipleaccess)、宽带码分多址(wcdma,widebandcodedivisionmultipleaccess)、长期演进(lte,longtermevolution)、电子邮件、短消息服务(sms,shortmessagingservice)等。

服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、 开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(lcd,liquidcrystaldisplay)、有机发光二极管(oled,organiclight-emittingdiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。

以上各个操作的具体实施以及相应的有益效果可参见前面的实施例,在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

以上对本发明实施例所提供的一种文本信息处理方法、装置和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以 上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1