文本类目的确定方法、装置、存储介质和计算机设备与流程

文档序号:17643458发布日期:2019-05-11 00:49阅读:204来源:国知局
文本类目的确定方法、装置、存储介质和计算机设备与流程

本申请涉及计算机技术领域,特别是涉及一种文本类目的确定方法、装置、计算机可读存储介质和计算机设备。



背景技术:

文本类目标注,是指将文本标注为一个类目体系中的一个或多个类目。文本类目标注在广告、推荐、搜索等大量业务场景中有着广泛的应用。确定文本所属的类目是文本类目标注中的重要环节。

传统的文本类目的确定方式中,先由人工标注若干文本所属的类目,得到训练样本,再根据训练样本对神经网络等机器学习模型进行训练得到映射模型,进而将待处理文本输入至映射模型中,通过映射模型确定待处理文本的类目。然而,人工标注得到训练样本的过程,耗费了大量的人力。并且,映射模型是根据人工标注的训练样本训练得到,因此确定待处理文本所属的类目的质量对人工标注的质量具有严重的依赖性。



技术实现要素:

基于此,有必要针对传统方式中耗费了大量的人力,且确定待处理文本所属的类目的质量对人工标注的质量具有严重的依赖性的技术问题,提供一种文本类目的确定方法、装置、计算机可读存储介质和计算机设备。

一种文本类目的确定方法,包括:

提取待处理文本的关键词,并确定各所述关键词的权重;

获取与各所述关键词分别对应的语义描述信息;

根据各所述语义描述信息,确定各关键词分别与各候选类目的第一相关度;

根据各所述关键词的权重及各所述第一相关度,确定所述待处理文本分别与各所述候选类目的第二相关度;

根据各所述第二相关度,从各所述候选类目中确定所述待处理文本所属的类目。

一种文本类目的确定装置,包括:

关键词处理模块,用于提取待处理文本的关键词,并确定各所述关键词的权重;

语义描述信息获取模块,用于获取与各所述关键词分别对应的语义描述信息;

第一相关度确定模块,用于根据各所述语义描述信息,确定各关键词分别与各候选类目的第一相关度;

第二相关度确定模块,用于根据各所述关键词的权重及各所述第一相关度,确定所述待处理文本分别与各所述候选类目的第二相关度;

文本类目确定模块,用于根据各所述第二相关度,从各所述候选类目中确定所述待处理文本所属的类目。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述的文本类目的确定方法的步骤。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述的文本类目的确定方法的步骤。

上述文本类目的确定方法、装置、计算机可读存储介质和计算机设备,提取待处理文本的关键词,并得到各关键词的权重,然后获取与各关键词分别对应的语义描述信息,再根据各语义描述信息,确定各关键词分别与候选类目的第一相关度,然后根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度,进而根据各第二相关度,从各候选类目中确定待处理文本所属的类目。如此,可以在不具有任何所属类目已知的文本的情况下,由计算机设备全程自动地确定任何文本所属的类目,从而省掉了人工标注类目的环节,节省了人力成本,并且清除了确定待处理文本所属的类目的质量对人工标注的质量的依赖性。

附图说明

图1为一个实施例中文本类目的确定方法的应用环境图;

图2为一个实施例中文本类目的确定方法的流程示意图;

图3为一个实施例中确定关键词与候选类目的第一相关度的过程示意图;

图4为一个实施例中确定文本与候选类目的第二相关度的过程示意图;

图5为一个实施例中展示及查询文本的类目标注结果的界面示意图;

图6为一个实施例中第一比例阈值的确定方式的流程示意图;

图7为一个实施例中确定第一比例阈值过程中确定剩余词数的过程示意图;

图8为一个实施例中确定关键词与候选类目的第一相关度的过程示意图;

图9为一个实施例中确定关键词与候选类目的第一相关度的过程示意图;

图10为一个实施例中人工录入关联知识的界面示意图;

图11为一个实施例中人工录入类目优先级信息的界面示意图;

图12为一个实施例中文本类目的确定方法的流程示意图;

图13为一个实施例中文本类目的确定装置的结构框图;

图14为一个实施例中计算机设备的结构框图;

图15为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明的是,本申请所使用的术语“第一”、“第二”等是用于对类似的对象作出命名上的区分,但这些对象本身不受这些术语限制。应当理解,在不脱离本申请的范围的情况下,这些术语在适当的情况下可以互换。比如,可将“第一分词”描述为“第二分词”,且类似地,将“第二分词”描述为“第一分词”。

本申请各实施例提供的文本类目的确定方法,可应用于如图1所示的应用环境中。该应用环境可涉及终端110和服务器120,终端110和服务器120通过网络连接。

具体地,终端110获取待处理文本,并将待处理文本发送至服务器120。服务器120提取待处理文本的关键词,并得到各关键词的权重,再获取与各关键词分别对应的语义描述信息,然后分别根据各语义描述信息,确定各关键词与候选类目的第一相关度,进而根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度,根据各第二相关度,从各候选类目中确定待处理文本所属的类目。

在其他应用环境中,也可仅涉及服务器120,而不涉及终端110,据此,由服务器120独立执行从获取待处理文本到从各候选类目中确定待处理文本所属的类目的一系列步骤。或者,也可仅涉及终端110,而不涉及服务器120,据此,由终端110独立执行从获取待处理文本到从各候选类目中确定待处理文本所属的类目的一系列步骤。

其中,终端110可以包括手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等中的至少一种,但不限于此。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群实现。

在一个实施例中,如图2所示,提供了一种文本类目的确定方法。以该方法应用于计算机设备(比如上述图1中的终端110或服务器120)为例进行说明。该方法可以包括如下步骤s202至s210。

s202,提取待处理文本的关键词,并得到各关键词的权重。

待处理文本,是需要确定所属的类目的文本。待处理文本可以是短文本,短文本是文本长度较短的文本,比如不超过160个字符的文本,常见的短文本包括微博信息、文章标题、观点评论、手机短信及文献摘要,但不限于此。待处理文本也可以为长文本,长文本是相较于短文本而言文本长度较长的文本。

关键词,可以是待处理文本中具有代表性的词,其可以用于表征待处理文本的主题思想。具体地,可以对待处理文本进行关键词提取处理,从而得到待处理文本的关键词。关键词提取处理可以采用任何适用的关键词提取方式实现,比如textrank算法、rake算法及topic-model算法等等,在此不作具体限定。

关键词的权重,可以用于表征该关键词对待处理文本的重要程度。关键词的权重可以根据该关键词的tf-idf值确定。其中,关键词的tf-idf值是该关键词在待处理文本中的词频(termfrequency,tf)乘以该关键词的逆文档频率(inversedocumentfrequency,idf)。

关键词在待处理文本中的词频,是关键词在待处理文本中的出现次数。关键词的逆文档频率可以为:

在一个实施例中,目标语料库可以是网络搜索服务对应的语料库。据此,目标语料库的所有对象中包含该关键词的对象的数目,可以是通过网络搜索服务对关键词进行搜索得到的所有搜索结果的总数目,目标语料库中的所有对象的数目可以设为预定数值,比如设为:1+100000000。

需要说明的是,调用网络搜索服务对关键词进行搜索后,可以一并得到对该关键词进行搜索得到的所有搜索结果的数目以及与该关键词对应的语义描述信息,并将两者进行关联。据此,获取到与关键词对应的语义描述信息时,便可以一并获取到对该关键词进行搜索得到的所有搜索结果的数目这一参数,计算关键词的逆文档频率时即可直接取用这一参数,而无需临时调用网络搜索服务获取这一参数。

在一个实施例中,根据待处理文本的各关键词的tf-idf值确定各关键词的权重,具体可以采用如下方式实现:计算机设备分别根据待处理文本的各关键词的tf-idf值确定各关键词的原始权重,再分别对各关键词的原始权重进行归一化,得到各关键词的权重。其中,对关键词的原始权重进行归一化,可以是将该关键词的原始权重除以待处理文本的各关键词的原始权重的总和。此外,关键词的原始权重可以是该关键词的tf-idf值本身,也可以是该关键词的tf-idf值和该关键词的词长的乘积。

举例说明,假设待处理文本是“庄家拉大阳线的陷阱”,提取的该待处理文本的关键词及得到各关键词对应的权重,可以是“庄家:0.3;大阳线:0.5;陷阱:0.2”。其中,关键词之间用“;”分隔,“:”之后是关键词对应的权重,待处理文本的各关键词的权重的总和是1。

s204,获取与各关键词分别对应的语义描述信息。

语义描述信息,是用于帮助理解关键词所表达的含义的信息。语义描述信息的数据形式可以为文本文件。

在一个实施例中,关键词对应的语义描述信息可以根据相关人员整理的、用于描述该关键词的信息(以下简称为专家描述信息)确定,相关人员可以是相关领域的专家。具体地,可以由专家针对各候选关键词整理各自对应的专家描述信息,再根据各候选关键词、各专家描述信息、以及各候选关键词及各专家描述信息之间的匹配关系,构建专家知识库,据此,需要得到关键词的语义描述信息时,在专家知识库中查找与该关键词对应的候选关键词,该关键词的语义描述信息可以包括查找到的候选关键词所匹配的专家描述信息。

s206,根据各语义描述信息,确定各关键词分别与各候选类目的第一相关度。

关键词与候选类目的第一相关度,是可以用于衡量该关键词与该候选类目之间的匹配程度的度量值。第一相关度的取值范围可以是[0,+1],第一相关度越大,表明该关键词与该候选类目之间的匹配程度越高,反之第一相关度越小,表明该关键词与该候选类目之间的匹配程度越低。

在本实施例中,候选类目多于1个,计算机设备分别根据各关键词对应的语义描述信息,确定各关键词分别与各候选类目的第一相关度。

举例说明,如图3所示,对待处理文本lt1进行关键词提取得到3个关键词:关键词kw1、关键词kw2及关键词kw3,关键词kw1对应语义描述信息sd1、关键词kw2对应语义描述信息sd2、关键词kw3对应语义描述信息sd3,且存在3个候选类目:候选类目c1、候选类目c2及候选类目c3。

据此,计算机设备根据语义描述信息sd1,确定关键词kw1与候选类目c1的第一相关度、关键词kw1与候选类目c2的第一相关度、以及关键词kw1与候选类目c3的第一相关度。并且,计算机设备根据语义描述信息sd2,确定关键词kw2与候选类目c1的第一相关度、关键词kw2与候选类目c2的第一相关度、以及关键词kw2与候选类目c3的第一相关度。以及,计算机根据语义描述信息sd3,确定关键词kw3与候选类目c1的第一相关度、关键词kw3与候选类目c2的第一相关度、以及关键词kw3与候选类目c3的第一相关度。

在一个实施例中,计算机设备可以根据各关键词对应的语义描述信息及各候选类目的类目描述信息,确定各关键词分别与各候选类目的第一相关度。比如计算机设备根据语义描述信息sd1和候选类目c1的类目描述信息,确定关键词kw1与候选类目c1的第一相关度。其中,候选类目的类目描述信息是可以用于反映该候选类目的特性的信息。

s208,根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度。

待处理文本与候选类目的第二相关度,是可以用于衡量该待处理文本与该候选类目之间的匹配程度的度量值。第二相关度的取值范围可以是[0,+1],第二相关度越大,表明该待处理文本与该候选类目之间的匹配程度越高,反之第二相关度越小,表明该待处理文本与该候选类目之间的匹配程度越低。

在本实施例中,针对每一个候选类目,计算机设备根据待处理文本的各关键词的权重及各关键词分别与该候选类目的第一相关度进行加权求和,得到该待处理文本与该候选类目的第二相关度。

承接前述示例,如图4所示,计算机设备根据关键词kw1的权重、关键词kw1与候选类目c1的第一相关度、关键词kw2的权重、关键词kw2与候选类目c1的第一相关度、关键词kw3的权重、以及关键词kw3与候选类目c1的第一相关度进行加权求和,得到待处理文本lt1与候选类目c1的第二相关度。并且,计算机设备根据关键词kw1的权重、关键词kw1与候选类目c2的第一相关度、关键词kw2的权重、关键词kw2与候选类目c2的第一相关度、关键词kw3的权重、以及关键词kw3与候选类目c2的第一相关度进行加权求和,得到待处理文本lt1与候选类目c2的第二相关度。以及,计算机设备根据关键词kw1的权重、关键词kw1与候选类目c3的第一相关度、关键词kw2的权重、关键词kw2与候选类目c3的第一相关度、关键词kw3的权重、以及关键词kw3与候选类目c3的第一相关度进行加权求和,得到待处理文本lt1与候选类目c3的第二相关度。

s210,根据各第二相关度,从各候选类目中确定待处理文本所属的类目。

待处理文本所属的类目,可以包括各候选类目中、与待处理文本的第二相关度满足相关度筛选条件的候选类目。其中,相关度筛选条件可以根据实际需求设定。

具体地,相关度筛选条件可以包括:与待处理文本的第二相关度等于或大于相关度阈值,相关度阈值根据实际需求预先确定。相关度筛选条件也可以包括:与待处理文本的第二相关度属于各第二相关度中数值最大的预定个数的第二相关度,即按照各第二相关度的数值大小进行排序,由前往后依次减小,待处理文本所属的类目可以包括排列在前的预定个数的第二相关度所对应的候选类目,预定个数可以根据实际需求设为任意正整数。

需要说明的是,可以预先设置类目体系(将目标领域进行规定和划分所形成的体系),类目体系中包含多于1个的候选类目。据此,可以根据各第二相关度,从类目体系包含的各候选类目中确定待处理文本所属的类目。

在一个实施例中,在步骤s210之后,还可以包括如下步骤:根据待处理文本所属的类目对该待处理文本进行类目标注。类目标注具体可以是输出该待处理文本对应的类目标注结果,该类目标注结果可以包括该待处理文本、该待处理文本所属的类目、以及该待处理文本与其所属的类目的相关度。其中,该待处理文本与其所属的类目的相关度可以根据该待处理文本与其所属的类目的第二相关度确定,比如可以是该待处理文本与其所属的类目的第二相关度本身。

据此,在实际应用场景中,可以基于文本类目的确定方法搭建自动标注系统,该自动标注系统可以用于对文本进行类目标注。此外,自动标注系统还可以提供文本的类目标注结果的展示及查询服务。展示及查询界面可以如图5所示,用户可以点击界面中的“前一页”和“下一页”的控件,按页浏览已完成类目标注的文本;也可以在输入框500中输入文本或者文本id,再点击“查询”控件,以查询该文本所属的类目的类目id、类目名称、以及其与文本的相关度;还可以在输入框500中输入类目名称或者类目id,从而查询相应类目下的文本。

需要说明的是,对于先由人工标注若干文本所属的类目,得到训练样本,再根据训练样本对神经网络等机器学习模型进行训练得到映射模型,进而将待处理文本输入至映射模型中,通过映射模型确定待处理文本的类目的传统方式,由于存在以下缺陷,无法满足广告、推荐、搜索等大量真实业务场景中对于确定海量文本所属的类目的需求。

(1)人工标注训练样本的过程,耗费了大量的人力。具体地,需要人工标注的训练样本的数量,会随着类目体系中包含的候选类目的数量增多而线性增长。比如,假设支持一个候选类目需要人工标注1万条训练数据,支持包含1000个候选类目的类目体系便需要人工标注1000万条训练数据,这将耗费巨大的人力和物力。

(2)确定待处理文本所属的类目的质量严重依赖人工标注的质量。通过映射模型确定文本所属的类目,希望高质量地确定文本所属的类目,则要求人工对训练样本的标注具有极高的准确率,同时要求训练样本在类目体系包含的各候选类目的比例分布与真实整体样本保持一致。然而人工标注(尤其是大规模的人工标注)产生的训练样本难以满足上述要求,且在实际应用中,人工标注的训练样本的质量普遍较差,从而导致传统方式中无法高质量地确定待处理文本所属的类目。

(3)无法自动学习新知识及无法自动更新映射模型。传统方式是从人工标注的训练样本中,学习到将文本映射到类目的知识,得到映射模型,如此,没有新训练样本便不能自动地学习到新知识,无法自动地更新映射模型。然而,网络上不断涌现的新词和热点词,对传统方式而言,若不引入人工再次参与标注,映射模型将无法理解包含这些新词和热点词的待处理文本,从而无法准确地确定该待处理文本所属的类目。

(4)不支持将人工积累的业务知识,引入确定待处理文本所属的类目的过程中。在真实业务中常见的场景中,相关人员具有大量的关于确定文本所属的类目的业务知识,比如哪些关键词与哪些类目相关,类目体系包含的各候选类目中哪些类目应该得到优先考虑等等,将相关人员积累的这些业务知识引入确定待处理文本所属的类目的过程中,能够提高确定待处理文本所属的类目的质量,但传统方式中将待处理文本输入至映射模型,映射模型即可输出表征该待处理文本所属的类目的结果,中间的处理逻辑对于人而言是抽象难于理解的,无法进行人工干预,从而不支持将人工积累的业务知识引入确定待处理文本所属的类目的过程中。

本申请实施例提供的文本类目的确定方法,提取待处理文本的关键词,并得到各关键词的权重,然后获取与各关键词分别对应的语义描述信息,再根据各语义描述信息,确定各关键词分别与候选类目的第一相关度,然后根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度,进而根据各第二相关度,从各候选类目中确定待处理文本所属的类目。如此,可以在不具有任何所属类目已知的文本的情况下,由计算机设备全程自动地确定任何文本所属的类目,从而省掉了人工标注类目的环节,节省了人力成本,并且清除了确定待处理文本所属的类目的质量对人工标注的质量的依赖性。此外,从获取待处理文本到确定待处理文本所属的类目的过程中,中间逻辑对于人而言是可以理解的,因此使得将人工积累的业务知识引入确定待处理文本所属的类目的过程中成为可能。

在一个实施例中,提取待处理文本的关键词的步骤,可以包括如下步骤:对待处理文本进行分词处理,得到待处理文本的多个第一分词;从各第一分词中剔除属于目标过滤词库的第一分词,得到一个或多个第二分词;各第二分词包括剔除后剩下的第一分词;根据各第二分词,得到待处理文本的关键词。

分词处理,用于从待处理文本中分割出若干个词语。分词处理可以采用任何可能的分词方式实现,比如条件随机场(conditionalrandomfield,crf)分词、jieba分词(即结巴分词)、nlpir分词、ltp(languagetechnologyplatform)分词、或者thulac(thulexicalanalyzerforchinese)分词等等。

其中,条件随机场分词是根据条件随机场理论,综合考虑词语在待处理文本中出现的频率以及词语的上下文关系对待处理文本进行分词,该方式对于歧义词和新词具有良好的分词效果。

需要说明的是,对待处理文本进行分词处理时,可以采用以下优化策略:可以将书名号内的文本内容整体作为一个分词,而不进行分割,比如待处理文本是“《少年派的奇幻漂流》中老虎的隐喻意义”,将“少年派的奇幻漂流”整体作为一个分词,而不分割出“少年派”、“奇幻漂流”等词语。

对于待处理文本是短文本的情况,还可以采用以下两项优化策略中的至少一项:可以将预定形式的括号内的文本内容整体作为一个分词,而不进行分割,预定形式的括号包括小括号、中括号及大括号中的至少一种;可以将待处理文本中、靠近文本首端的第一个冒号之前的文本内容整体作为一个分词,而不进行分割,比如待处理文本是“lpl战报:艰难让一追二we2:1翻盘top”,将“lpl战报”整体作为一个分词。

通过将上述情形中的文本内容整体作为一个分词,而不进行分割,有效地保留了特定文本内容的实际含义,有利于提高确定关键词的准确性。

过滤词库,是用于记录过滤词的数据库。过滤词库可以与数据源一一对应。文本所属的数据源是该文本的来源,比如可以将用户关注的公众号的主题文本归属于一个数据源、将用户阅读过的文章的标题文本归属于一个数据源、将用户购买过的商品的描述文本归属于一个数据源、将用户观看过的视频的描述文本归属于一个数据源等等。

过滤词库中记录的过滤词,是需要从待处理文本的各第一分词中剔除的词语,其可以包括不具实际含义的词语及相应数据源涵盖的文本中常见的词语中的至少一种。可以理解,在数据源涵盖的文本中常见的词语,难以表征该数据源中单个文本的特性,从而根据该词语难以对该数据源涵盖的各文本作出区分,因此可以将该词语作为该数据源的过滤词,收入该数据源对应的过滤词库中。

目标过滤词库,是与目标数据源相对应的过滤词库。目标数据源是待处理文本所属的数据源。具体实施时,计算机设备可以先确定待处理文本所属的数据源(即目标数据源),再确定该目标数据源对应的过滤词库(即目标过滤词库)。

在本实施例中,计算机设备可以对待处理文本进行分词处理,得到待处理文本的各第一分词,再从各第一分词中,剔除与目标过滤词库中记录的各过滤词相同的第一分词,进而根据剔除后剩下的第一分词(即第二分词),得到待处理文本的关键词。

在一个实施例中,构建目标过滤词库的方式,可以包括如下步骤:对属于目标数据源的文本进行分词处理,得到多个第三分词;分别确定各第三分词对应的第一比例;根据第一比例超过第一比例阈值的第三分词,构建目标过滤词库。

第三分词对应的第一比例,可以是目标数据源中包含该第三分词的文本数占目标数据源的文本总数的比例。假设“体育新闻”这一目标数据源涵盖10个文本,其中6个文本包含“比赛”这一第三分词,则“比赛”这一第三分词对应的第一比例是

第一比例阈值,用作衡量第三分词是否是目标数据源涵盖的各文本中常见的词语的标准。第三分词对应的第一比例超过第一比例阈值,表明该第三分词是目标数据源涵盖的各文本中常见的词语,应作为该目标数据源的过滤词;第三分词对应的第一比例未超过第一比例阈值,表明第三分词不是目标数据源涵盖的各文本中常见的词语,不应作为该目标数据源的过滤词。其中,第一比例阈值可以采用任何适用的方式确定,比如由人工根据实际需求进行设定。承接前述示例,第一比例阈值设为20%,“比赛”这一第三分词对应的第一比例超过了20%,则“比赛”这一第三分词是“体育新闻”这一目标数据源涵盖的各文本中常见的词语,应作为该目标数据源的过滤词。

在本实施例中,目标数据源涵盖若干个文本,计算机设备可以对目标数据源涵盖的每一个文本分别进行分词处理,从而得到若干个第三分词。针对每一个第三分词,计算机设备确定该目标数据源中包含该第三分词的文本数占该目标数据源的文本总数的比例,以得到各第三分词对应的第一比例。进而,从各

第三分词中筛选出第一比例超过第一比例阈值的各第三分词,再根据筛选出的各第三分词,构建目标过滤词库。据此,构建出的目标过滤词库中记录第一比例超过第一比例阈值的各第三分词。

在一个实施例中,也可以由人工凭借经验确定出针对目标数据源不具实际含义的词语,再根据针对目标数据源不具实际含义的词语,构建目标过滤词库。据此,构建出的目标过滤词库中记录人工确定的、针对目标数据源不具实际含义的词语。

在一个实施例中,也可以根据由人工确定的针对目标数据源不具实际含义的词语、以及第一比例超过第一比例阈值的各第三分词,共同构建目标过滤词库。即,构建出的目标过滤词库中同时记录由人工确定的针对目标数据源不具实际含义的词语、以及第一比例超过第一比例阈值的各第三分词。

需要说明的是,构建数据源对应的过滤词库可以是预先完成的准备工作。具体地,可以预先构建出各个数据源对应的过滤词库,在获取到待标注本文之后,确定待处理文本所属的数据源(即目标数据源),在需要使用到目标数据源对应的过滤词库(即目标过滤词库)时,直接从预先构建的各个数据源对应的过滤词库中找到目标过滤词库即可,而无需临时再构建目标过滤词库。此外,各数据源对应的过滤词库可以定期更新。

在一个实施例中,除前文描述的人为设定的方式确定第一比例阈值之外,如图6所示,还可以采用如下步骤确定第一比例阈值:s602,根据当前比例阈值,从各第三分词中确定第四分词;s604,确定与属于目标数据源的各文本分别对应的剩余词数;s606,确定剩余词数等于或大于词数阈值的文本数占目标数据源的文本总数的第二比例;s608,在第二比例未超过第二比例阈值时,将当前比例阈值确定为第一比例阈值;s610,在第二比例超过第二比例阈值时,根据下调数值更新当前比例阈值,并返回根据当前比例阈值,从各第三分词中确定第四分词的步骤。

第四分词,可以包括第一比例等于或大于当前比例阈值的第三分词。具体地,从对属于目标数据源的各文本进行分词处理得到的各第三分词中,筛选出的第一比例等于或大于当前比例阈值的第三分词,即为第四分词。

文本对应的剩余词数,可以是从该文本的各第三分词中剔除第四分词后剩下的第三分词的数目。

举例说明,如图7所示,假设属于目标数据源的各文本分别为文本ct1、ct2以及ct3,对ct1进行分词处理,得到第三分词pc3-1、pc3-2、pc3-3、pc3-4以及pc3-5,对ct2进行分词处理,得到第三分词pc3-1、pc3-2、pc3-6、pc3-7以及pc3-8,对ct3进行分词处理,得到第三分词pc3-6、pc3-7、pc3-8、pc3-9以及pc3-10,则对ct1、ct2以及ct3进行分词处理得到的各第三分词分别为第三分词pc3-1至第三分词pc3-10,共计10个第三分词。

若第三分词pc3-1至第三分词pc3-10中,第一比例等于或大于当前比例阈值n1的第三分词(即第四分词)分别为pc3-1、pc3-2、pc3-3、pc3-4以及pc3-9。则,从文本ct1的各第三分词(pc3-1、pc3-2、pc3-3、pc3-4以及pc3-5)中,剔除第四分词后剩下的第三分词为pc3-5,即对应于当前比例阈值n1,文本ct1对应的剩余词数为1个。从文本ct2的各第三分词(pc3-1、pc3-2、pc3-6、pc3-7以及pc3-8)中,剔除第四分词后剩下的第三分词为pc3-6、pc3-7以及pc3-8,即对应于当前比例阈值n1,文本ct2对应的剩余词数为3个。从文本ct3的各第三分词(pc3-6、pc3-7、pc3-8、pc3-9以及pc3-10)中,剔除第四分词后剩下的第三分词为pc3-6、pc3-7、pc3-8及pc3-10,即对应于当前比例阈值n1,文本ct3对应的剩余词数为4个。

第二比例,是剩余词数等于或大于词数阈值的文本数占目标数据源的文本总数的比例,词数阈值可以根据实际需求进行确定。承接前述示例,属于目标数据源的各文本分别为文本ct1、ct2以及ct3,共计3个文本,假设词数阈值是3,则剩余词数等于或大于3的文本分别为ct2和ct3,第二比例为

第二比例阈值,用于衡量当前比例阈值能否作为第一比例阈值。确定第二比例后,判断第二比例是否超过第二比例阈值,若未超过,将当前比例阈值确定为第一比例阈值,结束确定第一比例阈值的流程;若超过,表明当前比例阈值无法作为第一比例阈值,则根据下调数值更新当前比例阈值,即在当前比例阈值的基础上减去下调数值,再根据更新后的当前比例阈值重新执行从各第三分词中确定出第四分词的步骤及其后续步骤。第二比例阈值可以根据实际需求确定,比如可以设为90%。

此外,可以是一个数据源对应一个第一比例阈值,在确定一个数据源所对应的第一比例阈值的过程中,第一次确定当前比例阈值时,将初始比例阈值确定为当前比例阈值。初始比例阈值可以根据实际需求预先确定,比如可以设为100%。

需要说明的是,相较于人为设定第一比例阈值的方式,根据当前比例阈值确定剩余词数等于或大于词数阈值的文本占属于所述目标数据源的各文本的第二比例,在判定第二比例超过第二比例阈值时,减小当前比例阈值,再重新确定第二比例,直至第二比例未超过第二比例阈值时,将当前比例阈值确定为第一比例阈值。如此,实现了由计算机设备自动确定第一比例阈值,且提高了所确定的第一比例阈值的准确性。

在一个实施例中,根据各第二分词,得到待处理文本的关键词的步骤,可以包括如下步骤:根据各第二分词进行排列组合,得到第五分词;从各第五分词中,确定第六分词;从各第六分词中,确定第七分词;根据第七分词,得到待处理文本的关键词。

第五分词,包含连续相邻的至少两个第二分词。具体地,从各第一分词中剔除属于目标过滤词库的第一分词后,按照预先设定的排列组合规则对剩下的各第一分词(即各第二分词)进行排列组合,得到所有包含连续相邻的至少两个第二分词的组合词,各组合词即为各第五分词。

举例说明,从各第一分词中剔除属于目标过滤词库的第一分词后剩下的各第一分词为“中国”、“人民”以及“解放军”,按照预先设定的排列组合规则进行排列组合后,一共得到以下3个包含连续相邻的至少两个第二分词的组合词:“中国人民”、“人民解放军”、以及“中国人民解放军”,这3个组合词即为3个第五分词。需要说明的是,由于“中国”和“解放军”未连续相邻,“中国解放军”不是第五分词。

第六分词,可以是属于已有词条的第五分词。已有词条可以包括百科词条,百科词条是可以通过百科搜索服务搜索到的词条。比如,百科词条可以包括百度百科中收录的词条和维基百科中收录的词条。具体地,计算机设备可以分别判断各第五分词是否属于已有词条,再将属于已有词条的各第五分词作为各第六分词。

第七分词,不包含于各第六分词中除自身以外的第六分词中。其中,若分词b中包含分词a中的全部内容,则分词a包含于分词b中,若分词b中仅包含分词a中的部分内容,而不包含分词a中的全部内容,则分词a不包含于分词b中(分词a和分词b是互不相同的任意两个分词,“a”和“b”的描述仅为作出命名上的区分)。

举例说明,各第六分词分别是“中国人民”、“人民解放军”、以及“中国人民解放军”。对于这3个第六分词,由于“中国人民”仅包含“中国人民解放军”中的部分内容,“中国人民”包含于“中国人民解放军”中,“中国人民”不是第七分词。由于“人民解放军”也仅包含“中国人民解放军”中的部分内容,“人民解放军”也包含于“中国人民解放军”,“人民解放军”不是第七分词。只有“中国人民解放军”不包含于除自身以外的任何第六分词中(既不包含于“中国人民”中,也不包含于“人民解放军”中),因此从这3个第六分词中确定出的第七分词是“中国人民解放军”。

在一个实施例中,根据第七分词得到待处理文本的关键词,具体可以是将第七分词作为待处理文本的关键词。

在一个实施例中,获取与各关键词分别对应的各语义描述信息的步骤,即步骤s204,可以包括如下步骤:获取与各关键词分别对应的网络搜索信息;分别根据各关键词对应的网络搜索信息,得到与各关键词分别对应的各语义描述信息。

关键词对应的网络搜索信息,可以通过网络搜索服务对该关键词进行搜索得到。其中,网络搜索服务可以是基于互联网进行的信息搜索服务,其可以包括网页搜索服务和百科搜索服务中的至少一种。网页搜索服务比如百度网页搜索服务、谷歌网页搜索服务等。百科搜索服务比如百度百科搜索、维基百科搜索服务等,但不限于此。

在一个实施例中,网络搜素信息可以包括通过网络搜索服务对该关键词进行搜索得到的目标搜索结果。目标搜索结果可以包括搜索得到的所有搜索结果中相关度最高的若干条搜索结果(具体条数可以根据实际需求设定)。比如,一般而言,通过网络搜索服务对关键词进行搜索得到的各搜索结果已经按照相关度由高到低进行排序,从前往后相关度依次降低,据此可以将排列在前的50条搜索结果作为目标搜索结果。

在一个实施例中,根据关键词对应的网络搜索信息,得到与该关键词对应的语义描述信息,具体可以是与该关键词对应的语义描述信息包括与该关键词对应的网络搜索信息。

在另一个实施例中,结合前文描述,也可以根据关键词对应的专家描述信息及该关键词对应的网络搜索信息,共同确定与该关键词对应的语义描述信息。具体地,与该关键词对应的语义描述信息可以同时包括与该关键词对应的网络搜索信息和该关键词对应的专家描述信息。

在一个实施例中,获取与各关键词分别对应的搜索结果的步骤,可以包括如下步骤:调用网络搜索服务分别对各关键词进行搜索,得到与各关键词分别对应的网络搜索结果。

在本实施例中,每次需要得到与关键词对应的网络搜索结果时,均临时调用网络搜索服务对该关键词进行搜索,从而得到与关键词对应的网络搜索结果。

在一个实施例中,获取与各关键词分别对应的网络搜索信息的步骤,可以包括如下步骤:分别在本地信息库中查找各关键词对应的候选关键词;本地信息库记录候选关键词与候选搜索信息之间的匹配关系,候选搜索信息是通过网络搜索服务对相应候选关键词进行搜索得到;在查找到与关键词对应的候选关键词时,根据查找到的候选关键词所匹配的候选搜索信息,得到该关键词对应的网络搜索信息;在未查找到与关键词对应的候选关键词时,调用网络搜索服务对该关键词进行搜索,得到与该关键词对应的网络搜索信息。

在本实施例中,可以预先调用网络搜索服务分别对各候选关键词进行搜索,搜索到的与各候选关键词分别对应的目标搜索结果,即为各候选搜索信息,进而生成记录有各候选关键词、各候选搜索信息、以及各候选关键词与各候选搜索信息之间的匹配关系的数据库,再将该数据库中的内容存储至计算机设备,以得到本地信息库。

后续需要获取与关键词对应的网络搜索信息时,计算机设备可以直接在本地信息库中查找与该关键词对应的候选关键词。在本地信息库中查找到与该关键词对应的候选关键词,表明事先调用网络搜索服务搜索过该关键词,此时可以不再重复调用网络搜索服务搜索该关键词,而直接将与该关键词对应的候选关键词所匹配的候选搜索信息,作为该关键词对应的网络搜索信息。

相反地,在本地信息库中没有查找到与该关键词对应的候选关键词,表明事先没有调用网络搜索服务搜索过该关键词,本地信息库中也就没有存储能够作为该关键词对应的网络搜索信息的候选搜索信息。此时,计算机设备可以临时调用网络搜索服务对该关键词进行搜索,搜索到的与该关键词对应的目标搜索结果即为该关键词对应的网络搜索信息。此外,还可以将该关键词及搜索到的与该关键词对应的目标搜索结果作为新增的候选关键词和新增的候选搜索信息,更新至本地信息库及记录有各候选关键词、各候选搜索信息、以及各候选关键词与各候选搜索信息之间的匹配关系的数据库。

需要说明的是,在本地信息库中没有查找到与该关键词对应的候选关键词,才调用网络搜索服务对该关键词进行搜索,能够极大地提升确定待处理文本所属的类目的效率。并且实际应用中,文本中常出现的关键词的数量是比较有限的,在本地信息库积累到千万级别的候选关键词后,便很少需要再调用外部的网络搜索服务得到关键词对应的网络搜索信息了,从而可以非常高效地完成确定海量文本所属的类目的任务。

此外,还可以定时对记录有各候选关键词、各候选搜索信息、以及各候选关键词与各候选搜索信息之间的匹配关系的数据库进行更新。比如,每隔预定的天数,重新调用网络搜索服务对数据库中的各候选关键词进行搜索,从而更新各候选关键词分别对应的各候选搜索信息。

在一个实施例中,分别根据各关键词对应的网络搜索信息,得到与各关键词分别对应的各语义描述信息的步骤,可以包括如下步骤:分别对与各关键词分别对应的网络搜索信息进行数据清洗,得到与各关键词分别对应的各语义描述信息。

数据清洗,可以从关键词对应的网络搜索信息中,去除与该关键词本身不相关的信息。相应地,该关键词对应的语义描述信息可以包括去除与该关键词本身不相关的信息后剩下的信息。其中,与该关键词本身不相关的信息,可以包括日期、网站名称、视频播放信息、音乐播放信息、以及常见网址等,但不限于此。

举例说明,关键词的网络搜索信息是“对于“2018年,豆瓣8.5分,堪比《少年派的奇幻漂流》!_搜狐娱乐_搜狐网【在线播放】”,进行数据清洗后,将去除如下信息:“2018年”、“_搜狐娱乐”、“_搜狐网”、以及“【在线播放】”。

在一个实施例中,根据各语义描述信息,确定各关键词分别与各候选类目的第一相关度的步骤,即步骤s206,可以包括如下步骤:根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的第三相关度;根据各第三相关度,确定各关键词分别与各候选类目的第一相关度。

候选类目的类目名称,是该候选类目的名称。类目名称可以是仅包括单个层级的名称,比如“手机app”。类目名称也可以是包括多于一个的层级的名称,据此,可以采用预定连接符对各层级进行分隔,比如“手机app-游戏-moba”为包括3个层级的类目名称,采用“-”这一连接符对各层级进行分隔。

语义描述信息与候选类目的第三相关度,根据该语义描述信息和该候选类目的类目名称进行确定,是可以用于衡量该语义描述信息与该候选类目之间的匹配程度的度量值。第三相关度的取值范围可以是[0,+1],第三相关度越大,表明根据该语义描述信息和该候选类目的类目名称而言,该语义描述信息与该候选类目之间的匹配程度越高,反之第三相关度越小,表明根据该语义描述信息和该候选类目的类目名称而言,该关键词与该候选类目之间的匹配程度越低。

根据前文描述,针对每一个关键词,计算机设备可以根据该关键词对应的语义描述信息及各候选类目的类目描述信息,确定该关键词分别与各候选类目的第一相关度。在本实施例中,候选类目的类目描述信息可以包括该候选类目的类目名称,据此,针对每一个关键词,计算机设备根据该关键词对应的语义描述信息和各候选类目的类目名称,确定该关键词对应的语义描述信息分别与各候选类目的第三相关度。进而,根据该关键词对应的语义描述信息分别与各候选类目的第三相关度,确定该关键词分别与各候选类目的第一相关度。

举例说明,如图8所示,待处理文本lt1的关键词分别为关键词kw1、关键词kw2及关键词kw3,关键词kw1对应语义描述信息sd1、关键词kw2对应语义描述信息sd2、关键词kw3对应语义描述信息sd3,候选类目分别为候选类目c1、候选类目c2及候选类目c3。

据此,计算机设备根据语义描述信息sd1和候选类目c1的类目名称,确定语义描述信息sd1与候选类目c1的第三相关度,从而根据语义描述信息sd1与候选类目c1的第三相关度,确定关键词kw1与候选类目c1的第一相关度。

计算机设备根据语义描述信息sd1和候选类目c2的类目名称,确定语义描述信息sd1与候选类目c2的第三相关度,从而根据语义描述信息sd1与候选类目c2的第三相关度,确定关键词kw1与候选类目c2的第一相关度。

计算机设备根据语义描述信息sd1和候选类目c3的类目名称,确定语义描述信息sd1与候选类目c3的第三相关度,从而根据语义描述信息sd1与候选类目c3的第三相关度,确定关键词kw1与候选类目c3的第一相关度。

以此类推,确定出关键词kw2分别与候选类目c1、候选类目c2及候选类目c3的第一相关度,确定出关键词kw3分别与候选类目c1、候选类目c2及候选类目c3的第一相关度。

在一个实施例中,关键词对应的语义描述信息与候选类目的第三相关度,即为该关键词与该候选类目的第一相关度。比如,语义描述信息sd1与候选类目c1的第三相关度,即为关键词kw1与候选类目c1的第一相关度。

在一个实施例中,根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的第三相关度的步骤,可以包括如下步骤:根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的类目名称的共有词;从各语义描述信息分别与各候选类目的类目名称的共有词中,确定各语义描述信息分别与各候选类目的类目名称的目标共有词;确定各语义描述信息分别与各候选类目的类目名称的目标共有词的总词长与各候选类目的类目名称的总词长的第三比例;根据各第三比例、各语义描述信息分别与各候选类目的类目名称的目标共有词在相应语义描述信息中的第一词频、以及各语义描述信息分别与各候选类目的类目名称的目标共有词的第一逆文档频率,确定各语义描述信息分别与各候选类目的类目名称的第三相关度。

语义描述信息和候选类目的类目名称的共有词,是该语义描述信息和该候选类目的类目名称中共同包含的分词。比如,语义描述信息是“《王者荣耀》是由腾讯游戏开发并运行的一款运营在android、ios平台上的moba类手机游戏”,候选类目的类目名称是“手机app-游戏-moba”,两者的共有词为“手机”、“手”、“机”、“游戏”、“游”、“戏”、“moba”、“m”、“o”,“b”、“a”、“mo”、“ob”、“ba”等等。

在本实施例中,针对每一个语义描述信息,计算机设备分别确定该语义描述信息与每一个候选类目的类目名称的共有词。比如,共有3个语义描述信息:语义描述信息sd1、语义描述信息sd2及语义描述信息sd3,共有3个候选类目:候选类目c1、候选类目c2及候选类目c3,则确定语义描述信息sd1与候选类目c1的共有词、语义描述信息sd1与候选类目c2的共有词、以及语义描述信息sd1与候选类目c3的共有词,类似地,确定语义描述信息sd2分别与候选类目c1、候选类目c2以及候选类目c3的共有词,以及语义描述信息sd3分别与候选类目c1、候选类目c2以及候选类目c3的共有词。

语义描述信息与候选类目的类目名称的目标共有词,不包含于该语义描述信息与该候选类目的类目名称的各共有词中除自身以外的共有词中。与前文对第七分词的限定类似,若共有词d中包含共有词c中的全部内容,则共有词c包含于共有词d中,若共有词d中仅包含共有词c中的部分内容,而不包含共有词c中的全部内容,则共有词c不包含于共有词d中(共有词c和共有词d是互不相同的任意两个共有词,“c”和“d”的描述仅为作出命名上的区分)。

举例说明,语义描述信息与候选类目的类目名称的各共有词分别为:“手机”、“手”、“机”。对于这3个共有词,由于“手”仅包含“手机”中的部分内容,“手”包含于“手机”中,“手”不是目标共有词。由于“机”也仅包含“手机”中的部分内容,“机”也包含于“手机”,“机”不是目标共有词。只有“手机”不包含于除自身以外的任何共有词中(既不包含于“手”中,也不包含于“机”中),因此从这3个共有词中确定出的目标共有词是“手机”。

在本实施例中,针对每一个语义描述信息,计算机设备分别从该语义描述信息与每一个候选类目的类目名称的共有词中,确定出该语义描述信息与每一个候选类目的类目名称的目标共有词。

承接前述示例,计算机设备从语义描述信息sd1与候选类目c1的共有词中,确定出语义描述信息sd1与候选类目c1的目标共有词、从语义描述信息sd1与候选类目c2的共有词中,确定出语义描述信息sd1与候选类目c2的目标共有词、从语义描述信息sd1与候选类目c3的共有词中,确定出语义描述信息sd1与候选类目c3的目标共有词。

计算机设备分别从语义描述信息sd2与候选类目c1、候选类目c2以及候选类目c3的共有词中,确定出语义描述信息sd2分别与候选类目c1、候选类目c2以及候选类目c3的目标共有词。

计算机设备分别从语义描述信息sd3与候选类目c1、候选类目c2以及候选类目c3的共有词中,确定出语义描述信息sd3分别与候选类目c1、候选类目c2以及候选类目c3的目标共有词。

第三比例,是语义描述信息与候选类目的类目名称的目标共有词的总词长占该候选类目的类目名称的总词长的比例。比如,候选类目的目标名称是“手机app-游戏-moba”,假设语义描述信息与候选类目的类目名称的目标共有词是“手机”、“游戏”及“moba”,则该语义描述信息与该候选类目的类目名称的目标共有词的总词长是8(“手机”是2,“游戏”是2,“moba”是4,总计是8),该候选类目的类目名称的总词长是11(由于是计算总词长,3个“-”连接符不计入内,“手机app游戏moba”的总长度是11),因此第三比例是

在本实施例中,针对每一个语义描述信息,计算机设备分别确定该语义描述信息与每一个候选类目的类目名称的目标共有词的总词长占每一个候选类目的类目名称的总词长的第三比例。

承接前述示例,计算机设备确定语义描述信息sd1与候选类目c1的目标共有词的总词长占候选类目c1的类目名称的总词长的第三比例、确定语义描述信息sd1与候选类目c2的目标共有词的总词长占候选类目c1的类目名称的总词长的第三比例、确定语义描述信息sd1与候选类目c3的目标共有词的总词长占候选类目c1的类目名称的总词长的第三比例。

计算机设备确定语义描述信息sd2分别与候选类目c1、候选类目c2以及候选类目c3的目标共有词的总词长分别占候选类目c1、候选类目c2以及候选类目c3的类目名称的总词长的第三比例。

计算机设备确定语义描述信息sd3分别与候选类目c1、候选类目c2以及候选类目c3的目标共有词的总词长分别占候选类目c1、候选类目c2以及候选类目c3的类目名称的总词长的第三比例。

语义描述信息与候选类目的类目名称的目标共有词在该语义描述信息中的第一词频,是该目标共有词在该语义描述信息中出现的次数。比如,语义描述信息是“《王者荣耀》是由腾讯游戏开发并运行的一款运营在android、ios平台上的moba类手机游戏”,该语义描述信息与候选类目的类目名称的目标共有词分别是:“手机”、“游戏”及“moba”,则“手机”、“游戏”以及“moba”这3个目标共有词在该语义描述信息中的第一词频均是1。

与前文对关键词的逆文档频率的限定类似,语义描述信息与候选类目的类目名称的目标共有词的第一逆文档频率可以是:

在一个实施例中,目标语料库可以是网络搜索服务对应的语料库。据此,目标语料库的所有对象中包含该目标共有词的对象的数目,可以是调用网络搜索服务对目标共有词进行搜索得到的所有搜索结果的总数目。目标语料库中的所有对象的数目可以设为预定数值,比如设为:1+100000000。

在本实施例中,针对每一个语义描述信息,计算机设备分别根据该语义描述信息与每一个候选类目的类目名称的目标共有词的总词长占每一个候选类目的类目名称的总词长的第三比例,该语义描述信息分别与每一个候选类目的类目名称的目标共有词在该语义描述信息中的第一词频、以及该语义描述信息分别与每一个候选类目的类目名称的目标共有词的第一逆文档频率,确定该语义描述信息分别与每一个候选类目的类目名称的第三相关度。

在一个实施例中,针对任一语义描述信息和任一候选类目,该语义描述信息与该候选类目的第三相关度可以为:其中,n表示该语义描述信息与该候选类目的类目名称的目标共有词的总数目,n是等于或大于1的整数;rb表示该语义描述信息与该候选类目的类目名称的n个目标共有词的总词长占该候选类目的类目名称的总词长的第三比例;tf1i表示n个目标共有词中第i个目标共有词在该语义描述信息中的第一词频;idf1i表示n个目标共有词中第i个目标共有词的第一逆文档频率。

在另一个实施例中,针对任一语义描述信息和任一候选类目,该语义描述信息与该候选类目的第三相关度也可以为:其中,li表示n个目标共有词中第i个目标共有词的词长。

需要说明的是,计算得到的语义描述信息与候选类目的第三相关度的数值大于1时,可以将其设置为1。

在一个实施例中,确定语义描述信息与类目名称的共有词之后,可以采用集合的方式存储确定出的各共有词,即形成共有词集合,确定语义描述信息与类目名称的目标共有词之后,可以采用集合的方式存储确定出的各目标共有词,即形成目标共有词集合。

在一个实施例中,对于包含大写格式的英文字符的语义描述信息和类目名称,可以在确定该语义描述信息与该类目名称的共有词之前,将大写格式的英文字符转化为小写格式,以统一数据格式。

在一个实施例中,文本类目的确定方法还可以包括如下步骤:根据各语义描述信息、以及各候选类目的预定类目关联词与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度。据此,根据各第三相关度,确定各关键词分别与各候选类目的第一相关度的步骤,可以包括如下步骤:根据各第三相关度和各第四相关度,确定各关键词分别与各候选类目的第一相关度。

候选类目的预定类目关联词,是由人工确定的、与该候选类目具有相关关系的词语。候选类目的预定类目关联词与该候选类目的相关系数,用于表征该预定类目关联词与该候选类目之间的相关情况。其中,候选类目的预定类目关联词、以及候选类目的预定类目关联词与该候选类目的相关系数,具体可以由人工根据实际业务中积累的经验预先确定。

相关系数的取值范围是[-1,+1],候选类目的预定类目关联词与该候选类目的相关系数是正数时,表示该预定类目关联词与该候选类目正相关,且相关系数越大表示正相关的程度越高,相关系数越小表示正相关的程度越低。候选类目的预定类目关联词与该候选类目的相关系数是负数时,表示该预定类目关联词与该候选类目负相关,且相关系数越大表示负相关的程度越低,相关系数越小表示负相关的程度越高。

语义描述信息与候选类目的第四相关度,根据该语义描述信息、以及该候选类目的预定类目关联词与该候选类目的相关系数确定,是可以用于衡量该语义描述信息与该候选类目之间的匹配程度的度量值。第四相关度的取值范围可以是[0,+1],第四相关度越大,表明根据该语义描述信息、以及该候选类目的预定类目关联词与该候选类目的相关系数而言,该语义描述信息与该候选类目之间的匹配程度越高,反之第四相关度越小,表明根据该语义描述信息、以及该候选类目的预定类目关联词与该候选类目的相关系数而言,该关键词与该候选类目之间的匹配程度越低。

根据前文描述,针对每一个关键词,计算机设备可以根据该关键词对应的语义描述信息及各候选类目的类目描述信息,确定该关键词分别与各候选类目的第一相关度。在本实施例中,候选类目的类目描述信息可以包括该候选类目的预定类目关联词及该预定类目关联词与相应候选类目的预定相关系数,针对每一个关键词,计算机设备根据该关键词对应的语义描述信息、各候选类目的预定类目关联词、各候选类目的预定类目关联词与各自对应的候选类目的相关系数,确定该关键词对应的语义描述信息分别与各候选类目的第四相关度。进而,根据该关键词对应的语义描述信息分别与各候选类目的第三相关度、以及该关键词对应的语义描述信息分别与各候选类目的第四相关度,确定该关键词分别与各候选类目的第一相关度。

举例说明,待处理文本lt1的关键词分别为关键词kw1、关键词kw2及关键词kw3,关键词kw1对应语义描述信息sd1、关键词kw2对应语义描述信息sd2、关键词kw3对应语义描述信息sd3,候选类目分别为候选类目c1、候选类目c2及候选类目c3。

据此,如图9所示,计算机设备根据语义描述信息sd1和候选类目c1的类目名称,确定语义描述信息sd1与候选类目c1的第三相关度,根据语义描述信息sd1和候选类目c1的预定类目关联词、该预定类目关联词与该候选类目c1的相关系数,确定语义描述信息sd1与候选类目c1的第四相关度,进而根据语义描述信息sd1与候选类目c1的第三相关度及语义描述信息sd1与候选类目c1的第四相关度,共同确定关键词kw1与候选类目c1的第一相关度。

计算机设备根据语义描述信息sd1和候选类目c2的类目名称,确定语义描述信息sd1与候选类目c2的第三相关度,根据语义描述信息sd1和候选类目c2的预定类目关联词、该预定类目关联词与该候选类目c2的相关系数,确定语义描述信息sd1与候选类目c2的第四相关度,进而根据语义描述信息sd1与候选类目c2的第三相关度及语义描述信息sd1与候选类目c2的第四相关度,共同确定关键词kw1与候选类目c2的第一相关度。

计算机设备根据语义描述信息sd1和候选类目c3的类目名称,确定语义描述信息sd1与候选类目c3的第三相关度,根据语义描述信息sd1和候选类目c3的预定类目关联词、该预定类目关联词与该候选类目c3的相关系数,确定语义描述信息sd1与候选类目c3的第四相关度,进而根据语义描述信息sd1与候选类目c3的第三相关度及语义描述信息sd1与候选类目c3的第四相关度,共同确定关键词kw1与候选类目c3的第一相关度。

以此类推,计算机设备确定出关键词kw2分别与候选类目c1、候选类目c2及候选类目c3的第一相关度。并且,确定出关键词kw3分别与候选类目c1、候选类目c2及候选类目c3的第一相关度。

具体地,针对任一关键词和任一候选类目,可以根据该关键词对应的语义描述信息与该候选类目的第三相关度、以及该关键词对应的语义描述信息与该候选类目的第四相关度进行普通求和,得到该关键词与该候选类目的第一相关度。比如,对语义描述信息sd1与候选类目c1的第三相关度和语义描述信息sd1与候选类目c1的第四相关度进行普通求和,即可得到关键词kw1与候选类目c1的第一相关度。

或者,可以分别为第三相关度和第四相关度设置权重,根据该关键词对应的语义描述信息与该候选类目的第三相关度、第三相关度对应的权重、该关键词对应的语义描述信息与该候选类目的第四相关度、以及第四相关度对应的权重进行加权求和,得到该关键词与该候选类目的第一相关度。比如,将语义描述信息sd1与候选类目c1的第三相关度、第三相关度对应的权重、语义描述信息sd1与候选类目c1的第四相关度、第四相关度对应的权重进行加权求和,即可得到关键词kw1与候选类目c1的第一相关度。

具体实施时,可以预先构建关联知识库,关联知识库中包括若干条人工确定的关联知识。在此情况下,计算机设备可以根据关联知识库,得到各候选类目的预定类目关联词与相应候选类目的预定相关系数,再根据各语义描述信息、以及各候选类目的预定类目关联词与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度。

在一个实施例中,关联知识的数据格式可以为“候选类目的类目标识(比如类目id),候选类目的类目名称,该候选类目的预定类目关联词,该预定类目关联词与该候选类目的相关系数”。

以下对三条示例的关联知识进行说明:

1,手机app-游戏-moba,王者荣耀,0.8

1,手机app-游戏-moba,排位,0.2

1,手机app-游戏-moba,英雄联盟,-0.9

其中,“王者荣耀”属于“手机app-游戏-moba”中的一种,因此“王者荣耀”与“手机app-游戏-moba”这一候选类目正相关的程度非常高,人工可以将两者的相关系数设为0.8。“排位”只与“手机app-游戏-moba”弱相关,因此人工可以将两者的相关系数设为0.2。“英雄联盟”虽然与“游戏-moba”相关,但并不是“手机app”,因此“英雄联盟”是“手机app-游戏-moba”这一候选类目的潜在混淆词,与该候选类目负相关的程度非常高,人工可以将两者的相关系数设为-0.9。

在其他实施例中,也可以仅根据各语义描述信息分别与各候选类目的第四相关度,确定各关键词分别与各候选类目的第一相关度,而不考虑各语义描述信息分别与各候选类目的第三相关度。

需要说明的是,通过将由人工确定的预定类目关联词及预定类目关联词与相应候选类目的预定相关系数,作为确定关键词与候选类目的第一相关度的考虑因素,允许人工对自动标注过程进行干预,使得相关业务人员可以根据在真实业务场景中积累的经验改进类目标注结果的质量,实现了工业级人工可控及人工易优化。

此外,在实际应用场景中,前文描述的自动标注系统还可以提供关联知识录入服务。关联知识录入界面如图10所示,用户可以点击控件1001,再在关联知识输入框1002中输入用户确定的关联知识,进而点击控件1003完成相应关联知识的人工录入。此外,用户还可以点击控件1004对已录入的相应关联知识进行修改或删除。

在一个实施例中,根据各语义描述信息、以及各候选类目的预定类目关联词、各候选类目的预定类目关联词与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度的步骤,可以包括如下步骤:根据各候选类目的预定类目关联词分别在各语义描述信息中的第二词频、各候选类目的预定类目关联词的第二逆文档频率、以及各候选类目的预定类目关联词分别与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度。

候选类目的预定类目关联词在语义描述信息中的第二词频,是该预定类目关联词在该语义描述信息中出现的次数。比如类目关联词是“王者荣耀”,语义描述信息是“《王者荣耀》是由腾讯游戏开发并运行的一款运营在android、ios平台上的moba类手机游戏”,该预定类目关联词在该语义描述信息中的第二词频是1。

与前文对关键词的逆文档频率的描述类似,候选类目的预定类目关联词的第二逆文档频率可以是:

在一个实施例中,目标语料库可以是网络搜索服务对应的语料库。据此,目标语料库的所有对象中包含该预定类目关联词的对象的数目,可以是通过网络搜索服务对预定类目关联词进行搜索得到的所有搜索结果的总数目,目标语料库中的所有对象的数目可以设为预定数值,比如设为:1+100000000。

在本实施例中,针对每一个语义描述信息,计算机设备分别根据每一个候选类目的预定类目关联词分别在该语义描述信息中的第二词频,每一个候选类目的预定类目关联词的第二逆文档频率、以及每一个候选类目的预定类目关联词分别与各自对应的候选类目的相关系数,确定该语义描述信息分别与每一个候选类目的类目名称的第四相关度。

在一个实施例中,针对任一语义描述信息和任一候选类目,该语义描述信息与该候选类目的第四相关度可以是:其中,m表示该候选类目的预定类目关联词的总数目,m是等于或大于1的整数;tf2j表示m个类目关联词中第j个类目关联词在该语义描述信息中的第二词频;idf2j表示m个类目关联词中第j个类目关联词的第二逆文档频率;coej表示m个类目关联词中第j个类目关联词与该候选类目的相关系数。

在另一个实施例中,针对任一语义描述信息和任一候选类目,该语义描述信息与该候选类目的第四相关度也可以是:表示m个类目关联词中第j个类目关联词的词长。

需要说明的是,计算得到的语义描述信息与候选类目的第四相关度的数值大于1时,可以将其设置为1。

针对根据待处理文本的各关键词对应的网络描述信息确定各关键词对应的文本描述信息,且根据各语义描述信息分别与各候选类目的第三相关度(根据各语义描述信息和各候选类目的类目名称确定)和各语义描述信息分别与各候选类目的第四相关度(根据各语义描述信息、以及各候选类目的预定类目关联词与相应候选类目的预定相关系数确定)中的至少一种,确定待处理文本分别与各候选类目的第二相关度,进而根据待处理文本分别与各候选类目的第二相关度。存在一个基本假设:通过网络搜索服务对从文本提取的关键词进行搜索,若得到的各搜索结果中频繁出现某个候选类目的名称或类目关联词,则该文本是与该候选类目紧密相关的。关于该基本假设的具体分析如下:网络搜索服务的目的是提供与搜索输入信息最相关的内容和描述,比如“哈士奇”这一关键词和候选类目“宠物-狗”是紧密相关的,且通过网络搜索服务对“哈士奇”进行搜索,得到的各搜索结果中频繁出现“宠物”和“狗”这两个关键词,因此该基本假设在实际应用中是成立的。

在一个实施例中,文本类目的确定方法还可以包括如下步骤:获取各候选类目的优先级系数。据此,根据各第二相关度,从各候选类目中确定待处理文本所属的类目的步骤,即步骤s210,可以包括如下步骤:根据各第二相关度和各候选类目的优先级系数,确定待处理文本分别与各候选类目的第五相关度;根据各第五相关度,从各候选类目中确定待处理文本所属的类目。

候选类目的优先级系数,可以由人工确定,其用于表征相关人员在实际业务中确定的该候选类目的优先程度。

在本实施例中,针对每一个候选类目,计算机设备根据待处理文本与该候选类目的第二相关度和该候选类目的优先级系数,确定该候选类目的第五相关度。具体地,可以将待处理文本与该候选类目的第二相关度乘以该候选类目的优先级系数,得到该候选类目的第五相关度。

此外,输出待处理文本对应的类目标注结果时,该类目标注结果中的该待处理文本与其所属的类目的相关度,可以是该待处理文本与其所属的类目的第五相关度本身。

需要说明的是,通过各候选类目的优先级系数修正待处理文本分别与各候选类目的第二相关度,得到待处理文本分别与各候选类目的第五相关度,进而根据各第五相关度从各候选类目中确定待处理文本所属的类目,能够灵活地处理需要优先考虑的候选类目。

此外,在实际应用场景中,前文描述的自动标注系统还可以提供类目优先级信息录入服务。类目优先级信息录入界面如图11所示,用户可以点击控件1101,再在类目优先级信息输入框1102中输入用户确定的类目优先级信息(如类目id、类目名称及优先级系数),进而点击1103控件完成相应类目优先级信息的人工录入。此外,用户还可以点击控件1104对已录入的相应类目优先级信息进行修改或删除。

在一个实施例中,如图12所示,提供了一种文本类目的确定方法。该方法可以由计算机设备执行,具体可以包括如下步骤s1202至s1224。

s1202,提取待处理文本的关键词,并确定各关键词的权重。

s1204,分别在本地信息库中查找各关键词对应的候选关键词;本地信息库记录候选关键词与候选搜索信息之间的匹配关系,候选搜索信息是通过网络搜索服务对相应候选关键词进行搜索得到。

s1206,在查找到与关键词对应的候选关键词时,根据查找到的候选关键词所匹配的候选搜索信息,得到该关键词对应的网络搜索信息。

s1208,在未查找到与关键词对应的候选关键词时,调用网络搜索服务对该关键词进行搜索,得到与该关键词对应的网络搜索信息。

s1210,分别对与各关键词分别对应的网络搜索信息进行数据清洗,得到与各关键词分别对应的各语义描述信息。

s1212,根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的第三相关度。

s1214,根据各语义描述信息、以及各候选类目的预定类目关联词与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度;其中,候选类目的预定类目关联词、以及候选类目的预定类目关联词与该候选类目的相关系数由人工确定。

s1216,根据各第三相关度和各第四相关度,确定各关键词分别与各候选类目的第一相关度。

s1218,根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度。

s1220,获取各候选类目的优先级系数,根据各第二相关度和各候选类目的优先级系数,确定待处理文本分别与各候选类目的第五相关度。

s1222,根据各第五相关度,从各候选类目中确定待处理文本所属的类目。

s1224,输出该待处理文本对应的类目标注结果,待处理文本对应的类目标注结果包括该待处理文本、该待处理文本所属的类目、以及该待处理文本与该待处理文本所属的类目的第五相关度。

需要说明的是,本实施例中对各技术特征的具体限定,可以与前文中对相应技术特征的限定相同,此处不加赘述。

在合理条件下应当理解,虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

此外,以下对采用本申请实施例提供的文本类目的确定方法的自动标注系统的表现进行举例说明:将自动标注系统应用于将新闻标题标注到一个包含800个候选类目的类目体系,且各候选类目均包含4个层级,一级类目标注准确率是91.5%,二级类目标注准确率是83.1%,三级类目标注准确率是78.4%,四级类目标注准确率是74.1%。其中,标注准确率(accuracy)=正确标注为对应候选类目的文本/总文本数量。

此外,该自动标注系统在标注过程中不需要耗费任何人力标注训练样本,而若采用传统方式,则需要人工标注800万个(800个候选类目,每个候选类目标注1万个)训练样本,从而需要大量的人力和物力,且人工标注大量训练样本的质量也难以保障,亦即传统方式对包含多个候选类目的复杂类目体系的标注,不具有实际可用性。

在一个实施例中,如图13所示,提供了一种文本类目的确定装置1300。该装置1300可以包括如下模块1302至1310。

关键词处理模块1302,用于提取待处理文本的关键词,并确定各关键词的权重;

语义描述信息获取模块1304,用于获取与各关键词分别对应的语义描述信息;

第一相关度确定模块1306,用于根据各语义描述信息,确定各关键词分别与各候选类目的第一相关度;

第二相关度确定模块1308,用于根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度;

文本类目确定模块1310,用于根据各第二相关度,从各候选类目中确定待处理文本所属的类目。

上述文本类目的确定装置,提取待处理文本的关键词,并得到各关键词的权重,然后获取与各关键词分别对应的语义描述信息,再根据各语义描述信息,确定各关键词分别与候选类目的第一相关度,然后根据各关键词的权重及各第一相关度,确定待处理文本分别与各候选类目的第二相关度,进而根据各第二相关度,从各候选类目中确定待处理文本所属的类目。如此,可以在不具有任何所属类目已知的文本的情况下,由计算机设备全程自动地确定任何文本所属的类目,从而省掉了人工标注类目的环节,节省了人力成本,并且清除了确定待处理文本所属的类目的质量对人工标注的质量的依赖性。此外,从获取待处理文本到确定待处理文本所属的类目的过程中,中间逻辑对于人而言是可以理解的,因此使得将人工积累的业务知识引入确定待处理文本所属的类目的过程中成为可能。

在一个实施例中,关键词处理模块1302可以包括如下单元:第一分词获取单元,用于对待处理文本进行分词处理,得到待处理文本的多个第一分词;第二分词获取单元,用于从各第一分词中剔除属于目标过滤词库的第一分词,得到一个或多个第二分词;第二分词包括剔除后剩下的第一分词;关键词获取单元,用于根据各第二分词,得到待处理文本的关键词;其中,目标过滤词库包括与目标数据源相对应的过滤词库,目标数据源包括待处理文本所属的数据源。

在一个实施例中,文本类目的确定装置1300还可以包括如下模块:第三分词获取模块,用于对属于目标数据源的各文本进行分词处理,得到多个第三分词;第一比例确定模块,用于分别确定各第三分词对应的第一比例;第三分词对应的第一比例包括:目标数据源中包含该第三分词的文本数占该目标数据源文本总数的比例;目标过滤词库构建模块,用于根据第一比例超过第一比例阈值的第三分词,构建目标过滤词库。

在一个实施例中,文本类目的确定装置1300还可以包括第一比例阈值确定模块,用于根据当前比例阈值,从各第三分词中确定第四分词;第四分词包括第一比例等于或大于当前比例阈值的第三分词;确定与属于目标数据源的各文本分别对应的剩余词数;文本对应的剩余词数是从该文本的各第三分词中剔除第四分词后剩下的第三分词的数目;确定剩余词数等于或大于词数阈值的文本数占属于目标数据源的文本总数的第二比例;在第二比例未超过第二比例阈值时,将当前比例阈值确定为第一比例阈值;在第二比例超过第二比例阈值时,根据下调数值更新当前比例阈值,并返回根据当前比例阈值,从各第三分词中确定第四分词的步骤。

在一个实施例中,关键词获取单元可以包括如下子单元:第五分词获取子单元,用于根据各第二分词进行排列组合,得到第五分词;各第五分词包含连续相邻的至少两个第二分词;第六分词获取子单元,用于从各第五分词中,确定第六分词;第六分词包括属于已有词条的第五分词;第七分词获取子单元,用于从各第六分词中,确定第七分词;第七分词不包含于各第六分词中除自身以外的第六分词中;关键词获取子单元,用于根据第七分词,得到待处理文本的关键词。

在一个实施例中,语义描述信息获取模块1304可以包括如下单元:网络搜索信息获取单元,用于获取与各关键词分别对应的网络搜索信息;关键词对应的网络搜索信息是通过网络搜索服务对该关键词进行搜索得到;语义描述信息获取单元,用于分别根据各关键词对应的网络搜索信息,得到与各关键词分别对应的各语义描述信息。

在一个实施例中,网络搜索信息获取单元可以包括如下子单元:候选关键词查找子单元,用于分别在本地信息库中查找各关键词对应的候选关键词;本地信息库记录候选关键词与候选搜索信息之间的匹配关系,候选搜索信息是通过网络搜索服务对相应候选关键词进行搜索得到;网络搜索信息读取子单元,用于在查找到与关键词对应的候选关键词时,根据查找到的候选关键词所匹配的候选搜索信息,得到该关键词对应的网络搜索信息;网络搜索信息搜索子单元,用于在未查找到与关键词对应的候选关键词时,调用网络搜索服务对该关键词进行搜索,得到与该关键词对应的网络搜索信息。

在一个实施例中,文本类目的确定装置1300还可以包括如下模块:优先级系数获取模块,用于获取各候选类目的优先级系数。据此,文本类目确定模块1310可以包括如下单元:第五相关度确定单元,用于根据各第二相关度和各候选类目的优先级系数,确定待处理文本分别与各候选类目的第五相关度;文本类目确定单元,用于根据各第五相关度,从各候选类目中确定待处理文本所属的类目。

在一个实施例中,第一相关度确定模块1306可以包括如下单元:第三相关度确定单元,用于根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的第三相关度;第一相关度确定单元,用于根据各第三相关度,确定各关键词分别与各候选类目的第一相关度。

在一个实施例中,第三相关度确定单元可以包括如下子单元:共有词确定子单元,用于根据各语义描述信息和各候选类目的类目名称,确定各语义描述信息分别与各候选类目的类目名称的共有词;目标共有词确定子单元,用于从各语义描述信息分别与各候选类目的类目名称的共有词中,确定各语义描述信息分别与各候选类目的类目名称的目标共有词;第三比例确定子单元,用于确定各语义描述信息分别与各候选类目的类目名称的目标共有词的总词长占各候选类目的类目名称的总词长的第三比例;第三相关度确定子单元,用于根据各第三比例、各语义描述信息分别与各候选类目的类目名称的目标共有词在相应语义描述信息中的第一词频、以及各语义描述信息分别与各候选类目的类目名称的目标共有词的第一逆文档频率,确定各语义描述信息分别与各候选类目的类目名称的第三相关度;其中,语义描述信息与候选类目的类目名称的目标共有词,不包含于该语义描述信息与该候选类目的类目名称的各共有词中除自身以外的共有词中。

在一个实施例中,文本类目的确定装置1300还可以包括如下模块:第四相关度确定模块,用于根据各语义描述信息、各候选类目的预定类目关联词、以及各候选类目的预定类目关联词与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度。据此,第一相关度确定单元用于根据各第三相关度和各第四相关度,确定各关键词分别与各候选类目的第一相关度;其中,候选类目的预定类目关联词、以及候选类目的预定类目关联词与该候选类目的相关系数由人工确定。

在一个实施例中,第四相关度确定模块,用于根据各候选类目的预定类目关联词分别在各语义描述信息中的第二词频、各候选类目的预定类目关联词的第二逆文档频率、以及各候选类目的预定类目关联词分别与相应候选类目的预定相关系数,确定各语义描述信息分别与各候选类目的第四相关度。

需要说明的是,关于文本类目的确定装置1300的具体限定,可以参见上文中对于文本类目的确定方法的限定,在此不再赘述。上述文本类目的确定装置1300中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的文本类目的确定方法的步骤。

具体地,该计算机设备可以是图1中的服务器120。如图14所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统及计算机程序,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任一实施例提供的文本类目的确定方法。

或者,该计算机设备可以是图1中的终端110。如图15所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现本申请任一实施例提供的文本类目的确定方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行本申请任一实施例提供的文本类目的确定方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图14和图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请各实施例提供的文本类目的确定装置1300可以实现为一种计算机程序的形式,计算机程序可在如图14或图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本类目的确定装置1300的各个程序模块,比如,图13所示的关键词处理模块1302、语义描述信息获取模块1304、第一相关度确定模块1306等等。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频的文本类目的确定方法中的步骤。比如,图14或图15所示的计算机设备可以通过如图13所示的文本类目的确定装置1300中的关键词处理模块1302执行步骤s202、通过语义描述信息获取模块1304执行步骤s204等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

据此,在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的文本类目的确定方法的步骤。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1