对文本内容进行筛选的方法及装置的制造方法_2

文档序号：8528149阅读：来源：国知局

数量，表示为第一数量和第二数量，判断确定第一数量和第二数量之差是否大于数目设定值，如果是，则从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中；否则，不进行剔除。
[0040]相似性分类可采用现有算法实现,例如K-means聚类运算算法,K_means聚类运算算法是一种无监督的自动聚类算法。
[0041]进一步地，上述相似性分类处理之后，该方法还可以包括:
[0042]确定第一设定维度，根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；
[0043]从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。
[0044]所述第一设定维度包含至少一个维度，例如文字长度、标点个数、英文字符个数等维度；确定第一设定维度后，便可根据维度评分算法计算出推荐源中各候选文本内容针对第一设定维度的评分值。
[0045]维度评分算法可采用现有算法实现，例如朴素贝叶斯评分算法或决策树算法等，朴素贝叶斯算法是基于贝叶斯公式和人工标注样本进行分类的一种机器学习算法。
[0046]进一步地，上述进行维度评分算法运算之后，该方法还可以包括:
[0047]确定第二设定维度；
[0048]针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。
[0049]所述第二设定维度包含至少一个维度，例如文字长度、网站排名等维度；确定第二设定维度后，便可针对第二设定维度，选取推荐源中最优的候选文本内容。
[0050]选取推荐源中最优的候选文本内容之后，便可根据请求为用户提供筛选后的文本内容，具体地:
[0051]接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；
[0052]将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。
[0053]采用本发明方案，将自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，以确定出优质的文本内容；从而,实现自动筛选出优质的文本内容。这样,无需读者参与进行人为校验，简化了操作，节省了筛选时间，提高了筛选效率。
[0054]下面通过图2的流程，对本发明进行文本内容筛选的方法进行实例说明，本实例中，文本内容具体为小说内容，该流程包括以下步骤:
[0055]步骤201，获取来自不同数据源的至少两个候选文本内容，采用TF-1DF算法对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量。
[0056]本实例中，假设只有小说的前面十章节为已经公布的可免费阅读的正版章节，前十章的内容即标准文本内容，可以从正版网站获取；当前需要进行校验的是第11章节的文本内容，多个网站都进行了免费公布，但各网站对编排质量、参杂程度都不尽相同，需要从各网站获取第11章节的文本内容，作为候选文本内容，进行筛选。
[0057]本实例中，对各网站第11章节的文本内容进行分词,选取权重最高的500个单词，构成第一文本特征向量。
[0058]步骤202，获取与候选文本内容关联的标准文本内容，采用TF-1DF算法对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量。
[0059]本实例中，对正版的前10章节的文本内容进行分词，选取权重最高的500个单词，构成第二文本特征向量，作为相应小说的文本特征向量。
[0060]步骤203，采用余弦相似公式，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
[0061]距离值表示了相似度，值越大，越相似；所述距离设定值例如为0.8。
[0062]步骤204，采用K-means聚类运算算法，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。
[0063]如果两个分类的数量差距太大，说明其中一个分类的错误较多，将数量少的分类筛选掉，剩下的另一分类投入下一层算法处理。
[0064]步骤205，确定第一设定维度，采用朴素贝叶斯评分算法，计算推荐源中各候选文本内容针对第一设定维度的评分值，按照评分值将候选文本内容分为好中差三档。
[0065]本实例中，所述第一设定维度包含文字长度、标点个数和英文字符个数，采用朴素贝叶斯评分算法便可计算出各候选文本内容针对第一设定维度的评分值，评分结果可分为好中差二档。
[0066]步骤206，从推荐源中剔除评分结果为差的候选文本内容，将剔除的候选文本内容添加到候选源中。
[0067]步骤207，确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。
[0068]采用本步骤，可以对推荐源中的候选文本内容进行进一步筛选。确定第二设定维度后，通过简单的比较，便可针对第二设定维度选取推荐源中最优的候选文本内容。
[0069]本实例中，所述第二设定维度例如为网站排名，相应地，所述针对第二设定维度，选取推荐源中最优的候选文本内容具体包括:将推荐源中网站排名在第一位的作为最优的候选文本内容。再如，第二设定维度为文字长度和网站排名，相应地，所述针对第二设定维度，选取推荐源中最优的候选文本内容具体包括:首先对所有候选文本内容的文字长度求平均值，将各候选文本内容与平均值相减，将相减值与网站排名相乘，将得到的乘积进行比较，将乘积最小的值作为最优的候选文本内容。推荐源中，可保存具体的文本内容；候选源中，为了节省空间，可采用链接地址方式进行保存，无需保存具体的文本内容
[0070]步骤208，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源。
[0071]当用户需要读取第11章的内容时，点击浏览器显示的关于第11章的入口，向服务器发送关于第11章的读取请求；服务器接收读取请求中，获取第11章的推荐源和候选源。
[0072]步骤209，将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。
[0073]采用本发明方案，装置自动智能选择进行多重算法校验，从众多候选章节里选出一个评分最高的作为默认章节，并在请求时反馈给浏览器展示给读者，减少读者的甄别时间。
[0074]参见图3，为本发明对文本内容进行筛选的装置，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；
[0075]所述候选文本处理单元，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量，发送给所述相似运算单元；
[0076]所述标准文本处理单元，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量，发送给所述相似运算单元；
[0077]所述相似运算单元，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。
[0078]较佳地，该装置还包括分类运算单元，所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；
[0079]所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。
[0080]较佳地，该装置还包括分类运算单元和评分运算单元；所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；
[0081]所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第

完整全部详细技术资料下载

当前第2页1 2 3