对文本内容进行筛选的方法及装置的制造方法_3

文档序号：8528149阅读：来源：国知局

一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中，向所述评分运算单元发送启动指令；
[0082]所述评分运算单元,接收启动指令,确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。
[0083]较佳地，该装置还包括最优文本确定单元，所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，向所述最优文本确定单元发送启动指令；
[0084]所述最优文本确定单元，接收启动指令，确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。
[0085]较佳地，该装置还包括文本推荐单元，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。如果推荐源中只包含一个候选文本内容，则直接将其作为最优文本内容；如果推荐源中包含至少两个候选文本内容，可以从中任意选取一个作为最优文本内容；确定最优文本内容之后，将其他的候选文本内容的链接地址包含在请求页面中，供用户需要时点击。
[0086]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。
【主权项】
1.一种对文本内容进行筛选的方法，其特征在于，该方法包括: 获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
2.如权利要求1所述的方法，其特征在于，所述剔除相应的候选文本内容，作为候选源之后，该方法还包括: 对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。
3.如权要求I所述的方法，其特征在于，所述剔除相应的候选文本内容，作为候选源之后，该方法还包括: 对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中；确定第一设定维度，根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。
4.如权利要求3所述的方法，其特征在于，所述从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，该方法还包括: 确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。
5.如权利要求4所述的方法，其特征在于，所述对每个候选文本内容数据进行分词包括:采用TF-1DF算法，对每个候选文本内容数据进行分词；所述计算第一文本特征向量与第二文本特征向量之间的距离包括采用余弦相似公式，计算第一文本特征向量与第二文本特征向量之间的距离；所述对推荐源中的文本内容进行相似性分类包括:采用K-means聚类运算算法，对推荐源中的文本内容进行相似性分类；所述维度评分算法包括朴素贝叶斯评分算法或决策树算法。
6.如权利要求5所述的方法，其特征在于，所述将推荐源中的其他候选文本内容添加到候选源中之后，该方法还包括: 接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。
7.一种对文本内容进行筛选的装置，其特征在于，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；所述候选文本处理单元，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量，发送给所述相似运算单元；所述标准文本处理单元，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量，发送给所述相似运算单元；所述相似运算单元，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
8.如权利要求7所述的装置，其特征在于，该装置还包括分类运算单元，所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。
9.如权利要求7所述的装置，其特征在于，该装置还包括分类运算单元和评分运算单元；所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中，向所述评分运算单元发送启动指令；所述评分运算单元，接收启动指令，确定第一设定维度，根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。
10.如权利要求9所述的装置，其特征在于，该装置还包括最优文本确定单元，所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，向所述最优文本确定单元发送启动指令；所述最优文本确定单元，接收启动指令，确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。
11.如权利要求10所述的装置，其特征在于，该装置还包括文本推荐单元，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。
【专利摘要】本发明公开了对文本内容进行筛选的方法及装置，其中，该方法包括：获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。本发明方案能够实现自动筛选出优质的文本内容。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104850537
【申请号】CN201410053002
【发明人】张红林
【申请人】腾讯科技（深圳）有限公司
【公开日】2015年8月19日
【申请日】2014年2月17日

完整全部详细技术资料下载

当前第3页1 2 3