检查网站中链接的方法和装置与流程

文档序号：14870622发布日期：2018-07-06 23:07阅读：265来源：国知局

技术简介：
本专利针对人工检查网站错链效率低、准确率差的问题，提出基于实体数据自动比对的解决方案。通过爬虫获取页面及链接信息，利用自然语言技术提取标题与内容的实体数据，再将链接目标页面实体与原链接实体进行比对，根据匹配度判断链接是否有效，实现自动化、智能化的错链检测。
关键词：网站链接检测,实体数据比对

本发明涉及网站测试领域，具体而言，涉及一种检查网站中链接的方法和装置。

背景技术：

随着互联网技术的发展，网站已成为人们从互联网上获取信息的主要工具，因而，网站质量的好坏，直接关系到用户的体验。在网站质量检测中，一项重要的指标是网站内存在的错误链接的数量，该指标会直接影响用户在网站中的体验。假设用户打开某一网站，看到如图1(a)所示的一个网页，该页面的左侧显示了一列链接标题，用户可以通过点击该列中任意一个链接标题，跳转至与该链接标题对应的一个网页。实际操作过程中，如果用户点击该列中一个名为“筑梦、追命、圆梦：天宫二号成功接续梦幻之旅”的链接标题后，跳转的网页却是如图1(b)所示的介绍的是各地群众欢度中秋节的新闻内容，这种情况下，用户会认为这个网站的链接存在欺骗点击的行为，严重的情况下，还会导致该网站的用户流失。由此，对于网站内存在的错误链接的检查，显得十分重要。

目前，对于网站内存在的错误链接的检查，现有技术主要依赖于人工进行，通过人工点击网页上的每个链接标题，来查看每个链接标题与实际打开的页面内容是否一致，来判断该链接标题是否为错误链接。其缺点是人工检查具有很大的局限性，目前的网站通常包含很多网页，需要耗费极大的人工成本，效率低下；另外，人工检查对人的主观依赖比较严重，各种因素的干扰都可能影响判断结果，准度不高。

针对上述现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种检查网站中链接的方法和装置，以至少解决现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的技术问题。

根据本发明实施例的一个方面，提供了一种检查网站中链接的方法，包括：获取待检查网站的第一页面及第一页面中的链接对象，其中，链接对象用于跳转至第二页面；提取链接对象所包含的第一数据集与第二页面所包含的第二数据集；将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果；根据比对结果确定链接对象是否为错误链接。

进一步地，将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果，包括：查找第一数据集与第二数据集中相同的数据元素；统计相同的数据元素的数量；计算相同的数据元素的数量与第一数据集中包含的数据元素数量的比值。

进一步地，根据比对结果确定链接对象是否为错误链接，包括：如果比值大于等于预设阈值，则确定链接对象为正常链接；如果比值小于预设阈值，则确定链接对象为错误链接。

进一步地，获取待检查网站的第一页面及第一页面中的链接对象，包括：通过爬虫的方式对待检查网站进行爬取，得到待检查网站的第一页面及第一页面中的链接对象。

进一步地，获取链接对象所包含的第一数据集与第二页面所包含的第二数据集，包括：提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串；将第一文本字符串和第二文本字符串进行分词处理，得到第三数据集和第四数据集；根据预设算法模型，提取第三数据集中第一目标数据元素放入第一数据集，并提取第四数据集中的第二目标数据元素放入第二数据集。

进一步地，在提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串之前，方法还包括：基于文本密度提取算法，提取第二页面的页面内容，该步骤包括：获取第二页面的文档树；提取文档树中各个标签节点内的文本字符，并统计文档树中各个标签节点的文本字符数；计算各个标签节点的文本密度，其中，文本密度为各个标签节点的文本字符数占文档树的总文本字符数的比例；提取文本字符密度最大的标签节点的文本内容，作为第二页面的页面内容。

根据本发明实施例的另一方面，还提供了一种检查网站中链接的装置，包括：获取模块，用于获取待检查网站的第一页面及第一页面中的链接对象，其中，链接对象用于跳转至第二页面；提取模块，用于提取链接对象所包含的第一数据集与第二页面所包含的第二数据集；比对模块，用于将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果；确定模块，用于根据比对结果确定链接对象是否为错误链接。

进一步地，比对模块包括：查找模块，用于查找第一数据集与第二数据集中相同的数据元素；统计模块，用于统计相同的数据元素的数量；第一计算模块，用于计算相同的数据元素的数量与第一数据集中包含的数据元素数量的比值。

进一步地，第一确定模块包括：第二确定模块，用于如果比值大于等于预设阈值，则确定链接对象为正常链接；第三确定模块，用于如果比值小于预设阈值，则确定链接对象为错误链接。

进一步地，第一获取模块包括：第三获取模块，用于通过爬虫的方式对待检查网站进行爬取，得到待检查网站的第一页面及第一页面中的链接对象。

进一步地，第二获取模块包括：第一提取模块，用于提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串；第一处理模块，用于将第一文本字符串和第二文本字符串进行分词处理，得到第三数据集和第四数据集；第二提取模块，用于根据预设算法模型，提取第三数据集中第一目标数据元素放入第一数据集，并提取第四数据集中的第二目标数据元素放入第二数据集。

进一步地，装置还包括：第三提取模块，用于基于文本密度提取算法，提取第二页面的页面内容；其中，第三提取模块包括：第四获取模块，用于获取第二页面的文档树；第二处理模块，用于提取文档树中各个标签节点内的文本字符，并统计文档树中各个标签节点的文本字符数；第二计算模块，用于计算各个标签节点的文本密度，其中，文本密度为各个标签节点的文本字符数占文档树的总文本字符数的比例；第四提取模块，用于提取文本字符密度最大的标签节点的文本内容，作为第二页面的页面内容。

在本发明实施例中，通过获取待检查网站的第一页面及第一页面中的链接对象，其中，链接对象用于跳转至第二页面；提取链接对象所包含的第一数据集与第二页面所包含的第二数据集；将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果；根据比对结果确定链接对象是否为错误链接，达到了通过比较待检查网站所有的页面与其所属的链接标题中所描述的事物是否一致来检查网站中存在的错误链接的目的，从而实现了提高网站中链接检查的效率和准确度的技术效果，进而解决了现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1(a)是根据现有技术的一种网站页面示意图；

图1(b)是根据现有技术的一种网站页面示意图；

图2是根据本发明实施例的一种检查网站中链接的方法流程图；

图3是根据本发明实施例的一种可选的检查网站中链接的方法流程图；

图4是根据本发明实施例的一种可选的检查网站中链接的方法流程图；

图5是根据本发明实施例的一种可选的检查网站中链接的方法流程图；

图6是根据本发明实施例的一种可选的检查网站中链接的方法流程图；

图7是根据本发明实施例的一种可选的检查网站中链接的方法流程图；以及

图8是根据本发明实施例的一种检查网站中链接的装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

错链：全称为错误链接，主要指网站内链接标题指向的实际页面内容与该链接标题不相符的情况，称这样的链接为错链。本申请实施例中错链与断链不同，断链是指无法访问的链接或访问时中断的链接，而错链为链接标题与其指向的页面描述内容不一致的链接。

实施例1

根据本发明实施例，提供了一种检查网站中链接的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种检查网站中链接的方法流程图，如图2所示，该方法包括如下步骤：

步骤s202，获取待检查网站的第一页面及第一页面中的链接对象，其中，链接对象用于跳转至第二页面。

具体地，在上述步骤中，第一页面可以为待检查网站所包含的多个页面中任意一个或多个页面；上述链接对象可以为第一页面上显示的内嵌了链接地址的一段文字或一个图片，点击该文字或图片，可以跳转至待检查网站的其他网页，即第二页面。对网站中存在的错误链接进行检查，需要首先获取待检测网站所包含的所有页面以及该页面上包含的所有链接对象。

一种可选的实施例中，以图1(a)和图1(b)所示的网页为例，图1(a)所示的网页可以为上述第一页面，该页面中包含6个链接对象，分别是链接标题：“中秋假期次日全国铁路预计发送旅客780万”、“预热跟着总理去美洲：三国之行，那些看点值得期待”、“筑梦、追梦、圆梦：天宫二号成功接续梦幻之旅”、“中国空间站未来可在轨运行十余年”、“共赏一轮月同念家国情——各地群众欢度中秋节”、“让城乡环境更加整洁美丽”，每个链接标题都指向一个页面，即上述第二页面。用户通过点击第一页面中的任意一个链接标题，都可以进入相应的第二页面，例如，点击“共赏一轮月同念家国情——各地群众欢度中秋节”的链接标题，进入的第二页面为图1(b)所示的页面。

此处需要说明的是，一个成型的网站，通常包含多个网页，每个网页上通常会包含一个或多个链接对象，用于指向一个链接目标，该链接目标可以是一个页面，也可以是相同页面上的其他位置。在对网站内存在的错误链接检查的过程中，需要检查网站所包含的所有页面上的链接对象是否为错误链接。

步骤s204，获取链接对象所包含的第一数据集与第二页面所包含的第二数据集。

具体地，在上述步骤中，以链接对象为一段文字为例，上述第一数据集可以为从第一页面中的某个链接标题中提取出的实体集，可以是一个或几个词，能够代表该链接标题的含义；上述第二数据集可以为从该链接标题指向的第二页面中提取出的实体集，也可是一个或几个词，可以用于表征第二页面所包含的信息。

一种可选的实施例中，仍以图1(a)和图1(b)所示的网页为例，从第一页面的链接标题“筑梦、追梦、圆梦：天宫二号成功接续梦幻之旅”中可以提取到“天宫二号”等实体，则该链接标题所包含的第一数据集为“天宫二号”；从第一页面的链接标题“共赏一轮月同念家国情——各地群众欢度中秋节”中可以提取到“月”、“中秋节”等实体，则该链接标题所包含的第一数据集为“月、中秋节”；从图1(b)所示的第二页面中页面内容中可以提取到“月”、“中秋节”、“大学”、“校徽月饼”等实体，则第二页面所包含的第二数据集为“月、中秋节、大学、校徽月饼……”。

此处需要说明的是，由于链接对象可以是文字或图片，因而，第一数据集和第二数据集中包含的实体类型可以不局限于文字、也可以图片等其他形式。

步骤s206，将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果。

具体地，在上述步骤中，数据元素可以为上述第一数据集和第二数据集中包含的实体；在提取到第一页面中某个链接对象所包含的第一数据集与该链接对象指向的第二页面所包含的第二数据集后，将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到相应的比对结果。

此处需要说明的是，从页面中提取的主要实体的数量一般要远远多于从链接标题中提取的主要实体的数量，因而，一种可选的实施例中，上述比对结果可以是第二数据集中是否包含了第一数据集中全部的数据元素。

步骤s208，根据比对结果确定链接对象是否为错误链接。

具体地，在上述步骤中，在将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对后，一种可选的实施方案中，可以通过查看从第二页面提取的第二数据集中是否包含了从链接标题中提取的第一数据集中全部的数据元素来确定该链接标题是否为错误链接。如果从第二页面提取的第二数据集中包含了从链接标题中提取的第一数据集中全部的数据元素，即，从第二页面的页面内容提取的实体集合中包含链接标题提取的实体，则确定该链接标题为正常链接；如果从第二页面提取的第二数据集中不包含从链接标题中提取的第一数据集中的数据元素，即，从第二页面的页面内容提取的实体集合中不包含链接标题提取的实体，则确定该链接标题为错误链接。

一种可选的实施例中，仍以图1(a)和图1(b)所示的网页为例，从图1(b)所示的第二页面所包含的第二数据集为“月、中秋节、大学、校徽月饼……”，该数据集包含了从第一页面的链接标题“共赏一轮月同念家国情——各地群众欢度中秋节”中提取到的第一数据集“月、中秋节”；该数据集不包含第一页面的链接标题“筑梦、追梦、圆梦：天宫二号成功接续梦幻之旅”中提取到的第一数据集“天宫二号”；因此，如果链接标题“共赏一轮月同念家国情——各地群众欢度中秋节”指向的图1(b)所示的第二页面，则该链接标题与指向的页面描述的是同一个事物，可以说明该链接标题为正常链接；如果链接标题“筑梦、追梦、圆梦：天宫二号成功接续梦幻之旅”指向的图1(b)所示的第二页面，则该链接标题与其指向的页面描述的不是同一个事物，说明该链接标题为错误链接。

由上可知，在本申请上述实施例中，通过获取待检查网站所有的页面内容与其所属的链接标题，并对页面内容与其所属的链接标题进行实体提取，在得到页面内容与其所属的链接标题的主要实体对象后，比对页面内容与其所属的链接标题中的主要实体对象，根据比对结果确定该链接标题是否错误链接，需要说明的是，由于从页面内容中提取的主要实体数量一般多余链接标题中提取的主要实体数量，一种可选的实施例中，可以查看页面内容提取的实体集合中是否包含了其所属链接标题提取的实体来确定该页面所属的链接标题是否为错误链接。通过上述实施例公开的方案，达到了通过比较待检查网站所有的页面与其所属的链接标题中所描述的事物是否一致来检查网站中存在的错误链接的目的，从而实现了提高网站中链接检查的效率和准确度的技术效果，进而解决了现有技术采用人工方式检查网站中存在的错误链接造成效率低、准确度不高的技术问题。

在一种可选的实施例中，如图3所示，将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果，可以包括如下步骤：

步骤s302，查找第一数据集与第二数据集中相同的数据元素；

步骤s304，统计相同的数据元素的数量；

步骤s306，计算相同的数据元素的数量与第一数据集中包含的数据元素数量的比值。

具体地，在上述实施例中，从第一页面中的某个链接标题中提取出第一数据集，并从该链接标题指向的第二页面中提取出第二数据集后，可以将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，找出第一数据集与第二数据集中相同的数据元素，即，链接标题与其指向的第二页面所包含的相同的实体，并统计相同实体的数量，一种可选的实施例中，可以计算相同实体的数量与第一数据集中包含的实体数量的比值。

在一种可选的实施例中，如图4所示，根据比对结果确定链接对象是否为错误链接，包括：

步骤s402，如果比值大于等于预设阈值，则确定链接对象为正常链接。

步骤s404，如果比值小于预设阈值，则确定链接对象为错误链接。

具体地，在上述实施例中，在计算得到相同实体的数量与第一数据集中包含的实体数量的比值后，判断该比值与预设阈值的大小来确定链接对象是否为错误链接；如果该比值大于等于预设阈值，则确定该链接标题与其指向的页面所描述的事物一致，该链接标题为正常链接；如果该比值小于预设阈值，则确定该链接标题与其指向的页面所描述的事物不一致，该链接标题为错误链接。

一种可选的实施例中，上述预设阈值可以为大于0.5～1中任意一个值。

通过上述实施例，可以实现机器判断链接标题与其指向的网页是否一致，避免了人工判断的主观因素影响，使判断条件更加标准化。

在一种可选的实施例中，如图5所示，步骤s202中获取待检查网站的第一页面及第一页面中的链接对象，可以包括：

步骤s502，通过爬虫的方式对待检查网站进行爬取，得到待检查网站的第一页面及第一页面中的链接对象。

具体地，在上述实施例中，利用爬取手段来获取待检查网站的所有页面及所有页面上的链接对象。

需要说明的是，在爬取过程中需要标注每个页面的来源标题，即该页面所属的链接标题，通过点击该链接标题，可以跳转至该页面。

通过上述实施例，由于爬虫进行的是整个网站内容的爬取，因此检查的覆盖面将比人工更加全面。

在一种可选的实施例中，如图6所示，获取链接对象所包含的第一数据集与第二页面所包含的第二数据集，包括：

步骤s602，提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串；

步骤s604，将第一文本字符串和第二文本字符串进行分词处理，得到第三数据集和第四数据集；

步骤s606，根据预设算法模型，提取第三数据集中第一目标数据元素放入第一数据集，并提取第四数据集中的第二目标数据元素放入第二数据集。

具体地，在上述实施例中，通过使用自然语言分析的技术，对页面内容和链接标题分别进行实体提取，获取到链接标题和页面内容的主要实体对象，具体地，首先获取链接对象所包含的文本字符串和第二页面所包含的文本字符串，第一文本字符串和第二文本字符串进行分词处理，得到包含了链接标题中所有词语的第三数据集和包含了第二页面中所有词语的第四数据集，并根据预设的提取算法模型，提取链接标题的实体对象放入第一数据集，以及第二页面的实体对象放入第二数据集，这些实体对象可以表征链接标题的包含的语义信息和第二页面所包含的语义信息。

一种可选的实施例中，可以利用自然语言分析技术来提取第三数据集中第一目标数据元素放入第一数据集，以及第四数据集中的第二目标数据元素放入第二数据集。上述预设算法模型包括但不限于以下几种：knn算法，朴素贝叶斯算法、决策树算法、神经网络法、线性最小二乘法、k-means算法、余弦相似度等算法。

通过自然语言分析技术，可以更加智能化地获取到页面内容和链接标题中所包含的信息，从而可以确定页面内容描述的事物是否与其所属的链接标题所描述的事物一致，提高了检查的效率和准确度。

在一种可选的实施例中，如图7所示，在提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串之前，上述方法还可以包括：

步骤s702，基于文本密度提取算法，提取第二页面的页面内容，该步骤包括：

步骤s7021，获取第二页面的文档树；

步骤s7023，提取文档树中各个标签节点内的文本字符，并统计文档树中各个标签节点的文本字符数；

步骤s7025，计算各个标签节点的文本密度，其中，文本密度为各个标签节点的文本字符数占文档树的总文本字符数的比例；

步骤s7027，提取文本字符密度最大的标签节点的文本内容，作为第二页面的页面内容。

具体地，在上述实施例中，在提取网页所包含的实体对象之前，首先要获取该页面的页面内容，一种可选的实施方案中，可以利用文本密度提取算法来实现页面内容的提取，利用网页的html内容建立符合w3c组织发布的dom(documentobjectmodel)标准的树形结构；然后遍历网页的dom树的各个标签节点，利用中文标点和链接信息定位正文所在标签，对此标签内容进行二次抽取，提取出准确的正文内容；在提取出每个标签节点内的文本内容后，统计每个标签节点内包含的文本字符数，并计算每个标签节点内的文本密度，其中，文本字符密度最大的标签节点内的文本内容，最可能是该页面的正文内容，因而，将文本字符密度最大的标签节点内的文本内容作为第二页面的页面内容。

需要说明的是，web网页的上数据大部分都是以html的形式出现的，html文档由标记和元素组成，大多数html标记是成对出现的，分别用作开始标记和结束标记，例如，网页显示内容的标题通常由〈title〉〈/title〉标记，而网页的主题内容则主要有若干个〈p〉〈/p〉来标记。因而，在信息提取的过程中，可以利用html文档编写的特点，提取〈title〉〈/title〉和〈p〉〈/p〉标记符及其中间的内容。

一种可选的实施例中，以图1(b)所示的页面为例，只有从正文部分的文本内容中提取的实体元素才能用于表征第二页面的信息，而网页导航栏、链接标签等部分的文本内容只会对提取结果造成干扰，因而，基于上述实施例，在获取到第二页面中多个标签的文本内容后，将文本密度最大的标签内的文本内容作为第二页面的页面内容，可以更加准确的获取到用于表征第二页面含义的实体元素。

通过上述实施例，可以实现提取用于表征页面语义信息的文本内容，而舍去一些不相关的文本内容，提高了准确率。

作为一种优选的实施例，本申请上述实施例公开的方案可以通过网站内容爬取模块、标题及内容实体提取模块、实体比较模块三个模块来实现，其中，网站内容爬取模块负责获取待检查网站内所有的页面内容及其所属的链接标题；标题及内容实体提取模块负责将网站内容爬取模块中爬取到的链接标题和页面内容进行分析处理，使用自然语言分析的技术，对页面内容和链接标题分别进行实体提取，获取到链接标题和页面内容的主要实体对象；实体比较模块对比链接标题和页面内容的实体对象，从而最终确定该链接是否为错链。

通过上述实施例公开的方案，从爬取到解析再到实体比较的整个错链判断流程，通过总结模拟人工检查逻辑，实现了通过程序快速进行网站内的错误链接的检查，极大的减少了人工检查成本；各个模块所使用的技术有一定的伸缩性，随着技术进步每个模块都具有良好的替代方案。

实施例2

根据本发明实施例，还提供了一种检查网站中链接的装置实施例。本发明实施例1中的检查网站中链接的方法可以在本发明实施例2的装置中执行。

图8是根据本发明实施例的一种检查网站中链接的装置示意图，如图8所示，该装置包括：第一获取模块801、第二获取模块803、比对模块805和第一确定模块807。

其中，第一获取模块801，用于获取待检查网站的第一页面及第一页面中的链接对象，其中，链接对象用于跳转至第二页面；第二获取模块803，用于提取链接对象所包含的第一数据集与第二页面所包含的第二数据集；比对模块805，用于将第一数据集中包含的数据元素与第二数据集中包含的数据元素进行比对，得到比对结果；第一确定模块807，用于根据比对结果确定链接对象是否为错误链接。

在一种可选的实施例中，上述比对模块805包括：查找模块，用于查找第一数据集与第二数据集中相同的数据元素；统计模块，用于统计相同的数据元素的数量；第一计算模块，用于计算相同的数据元素的数量与第一数据集中包含的数据元素数量的比值。

在一种可选的实施例中，上述第一确定模块807包括：第二确定模块，用于如果比值大于等于预设阈值，则确定链接对象为正常链接。第三确定模块，用于如果比值小于预设阈值，则确定链接对象为错误链接。

在一种可选的实施例中，上述第一获取模块801包括：第三获取模块，用于通过爬虫的方式对待检查网站进行爬取，得到待检查网站的第一页面及第一页面中的链接对象。

在一种可选的实施例中，上述第二获取模块803包括：第一提取模块，用于提取链接对象所包含的第一文本字符串和第二页面所包含的第二文本字符串；第一处理模块，用于将第一文本字符串和第二文本字符串进行分词处理，得到第三数据集和第四数据集；第二提取模块，用于根据预设算法模型，提取第三数据集中第一目标数据元素放入第一数据集，并提取第四数据集中的第二目标数据元素放入第二数据集。

在一种可选的实施例中，上述装置还包括：第三提取模块，用于基于文本密度提取算法，提取第二页面的页面内容；其中，第三提取模块包括：第四获取模块，用于获取第二页面的文档树；第二处理模块，用于提取文档树中各个标签节点内的文本字符，并统计文档树中各个标签节点的文本字符数；第二计算模块，用于计算各个标签节点的文本密度，其中，文本密度为各个标签节点的文本字符数占文档树的总文本字符数的比例；第四提取模块，用于提取文本字符密度最大的标签节点的文本内容，作为第二页面的页面内容。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘峰
技术所有人：北京国双科技有限公司
我是此专利的发明人

上一篇：一种燃气灶的制作方法
下一篇：一种用于月饼表面颜色处理的蛋黄溶液制作方法与流程