对文本内容进行筛选的方法及装置的制造方法

文档序号：8528149阅读：520来源：国知局

对文本内容进行筛选的方法及装置的制造方法
【技术领域】
[0001]本发明涉及文本信息处理技术，尤其涉及对文本内容进行筛选的方法及装置。
【背景技术】
[0002]通过网络查询目标文本内容时，常存在多个候选文本内容，需要从中筛选出优质的文本内容。所述文本内容例如为小说文本、关于某指定主体的在线文本等；下面以在线阅读小说文本为例进行具体说明。
[0003]网络文学最早在互联网上兴起，是一种流行的pc端文字形式。随着网络文学的快速发展，越来越多的网络小说网站涌现。同一本小说往往在很多网站出现，但是各个网站对小说文本的编排质量、杂质程度都不尽相同。实际应用中，常需要对小说文本进行筛选，从中找出优质的小说文本。目前的文本内容筛选方式主要包括以下两种:
[0004]方式一、
[0005]大部分阅读类产品不对各小说网站的小说内容进行聚合，读者需要分别去各个第三方小说网站上查找网络小说并阅读。
[0006]该方式存在以下缺陷:由于第三方小说网站数量庞大，网速、更新速度、内容质量等参差不齐，读者需要耗费大量时间进行人为搜索和甄别，以筛选出优质的网络小说，阅读效率低下。而且往往一本网络小说在甲网站上可以顺利阅读，但另一本网络小说只能去乙网站阅读，造成读者需要记住大量小说网站。
[0007]方式二、
[0008]部分阅读类产品对各小说网站的小说内容做了简单的内容聚合，为部分目标小说内容提供了相关的小说网站，读者可点击链接，便可访问相应小说网站；这样，读者不需要分开去各个网站上查找小说，只需要从单一入口就可以看到一本书在各个网站上的情况。
[0009]该方式存在以下缺陷:这种方案减少了读者的查找时间，但查找后仍需要人为进行筛选，这仍需花费较多的时间；并且，对于一本小说的众多章节还是可能出现某些章节在不同的网站上质量不一致的情况，在阅读一本书的时候可能要进行网站之间的频繁切换，破坏阅读体验的连贯性。
[0010]综上，对于存在多个候选文本内容的情形，需要人为参与进行校验，以筛选出优质的文本内容，操作不便，且效率低。

【发明内容】

[0011]本发明提供了一种对文本内容进行筛选的方法，该方法能够实现自动筛选出优质的文本内容。
[0012]本发明提供了一种对文本内容进行筛选的装置，该装置能够实现自动筛选出优质的文本内容。
[0013]一种对文本内容进行筛选的方法，该方法包括:
[0014]获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；
[0015]获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；
[0016]计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
[0017]一种对文本内容进行筛选的装置，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；
[0018]所述候选文本处理单元，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量，发送给所述相似运算单元；
[0019]所述标准文本处理单元，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量，发送给所述相似运算单元；
[0020]所述相似运算单元，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
[0021]从上述方案可以看出，本发明中，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。采用本发明方案，将自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，以确定出优质的文本内容；从而，实现自动筛选出优质的文本内容。这样，无需读者参与进行人为校验，简化了操作，节省了筛选时间，提高了筛选效率。
【附图说明】
[0022]图1为本发明对文本内容进行筛选的方法示意性流程图；
[0023]图2为本发明对文本内容进行筛选的方法流程图实例；
[0024]图3为本发明对文本内容进行筛选的装置结构示意图。
【具体实施方式】
[0025]为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明进一步详细说明。
[0026]本发明中，自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，将相似性高的确定为优质的文本内容；从而，实现对文本内容的自动筛选。参见图1，为本发明对文本内容进行筛选的方法示意性流程图，其包括以下步骤:
[0027]步骤101，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量。
[0028]具体地，可以从不同网站获取候选文本内容。权重体现了某个单词在候选文本内容中的重要性。对每个候选文本内容进行分词并确定各单词在相应候选文本内容中的权重，可采用现有的分词算法实现，所述分词算法例如TF-1DF算法。TF-1DF算法是一种统计方法，用以评价某一词对语料库中一个文件的重要程度；采用TF-1DF算法，可以对每个候选文本内容进行分词，并计算出各单词的权重，采用TF-1DF算法计算单词的权重为已有技术，这里不多赘述；而后，可选取权重最高的设定个数的单词，构成一个文本特征向量；所述设定个数根据需要设置，例如为100或500。
[0029]步骤102，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量。
[0030]针对某一阅读对象，包括标准文本内容和候选文本内容,标准文本内容为已经公布的正版文本内容，无需进行校验，可直接阅读；候选文本内容为未进行校验筛选的文本内容。
[0031 ] 以文本内容为小说内容进行具体说明，标准文本内容为已经公布的可免费阅读的正版章节，假设只有前面十章节为正版章节；当前需要进行校验筛选的是第11章节的文本内容，多个网站都发布了免费的第11章节文本内容，这里，候选文本内容也就是从各网站获取的第11章节的文本内容，可以将前面十章正版章节都作为标准文本内容，也可以选择前面部分正版章节作为标准文本内容。
[0032]步骤103，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
[0033]计算两个特征向量之间的距离，可采用现有算法实现，例如余弦相似公式，余弦相似公式为一种根据向量内机计算文本相似程度的算法。
[0034]如果推荐源中有一个候选文本内容，则结束流程，得到质量最优的文本内容；如果推荐源中包含至少两个候选文本内容，可以从中选取一个作为质量最优的文本内容。之后，便可根据请求为用户提供筛选后的文本内容，具体地:
[0035]接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；
[0036]将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容外的其他各候选文本内容的链接地址。
[0037]这样，用户便可直接读取质量最优的文本内容，根据实际需要，用户还可点击页面的其他候选文本内容的链接地址，以读取其他候选文本内容。
[0038]进一步地，步骤103之后，该方法还可以包括:
[0039]对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张红林;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：基于规则和统计模型的中文地址复合分词技术的制作方法
上一篇：一种段落排版显示方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。