基于人工智能的信息挖掘方法和装置与流程

文档序号：19652269发布日期：2020-01-10 15:46阅读：来源：国知局

技术特征：

1.一种基于人工智能的信息挖掘方法，其特征在于，所述方法包括：

获取目标网页的源代码；

根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；

将所确定出的代码块包括的元素的内容确定为候选信息；

基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息；

其中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

根据所述代码块包括的最小粒度的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，其中，所述代码块包括的最小粒度的元素的相似度包括：最小粒度的元素的内容的长度的标准差以及所述内容的构成成分的相似度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；

根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；

根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；

将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；

若计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

5.根据权利要求1所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

获取根据所述源代码构建的文档对象模型；

采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

6.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及

所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

将满足所述筛选条件组的候选信息确定为结果信息。

7.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；

查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；

若查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

8.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

获取预先建立的语料库；

基于所述语料库计算所述候选信息跨词语切分的边界的次数；

若计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。

9.一种基于人工智能的信息挖掘装置，其特征在于，所述装置包括：

源代码获取单元，配置用于获取目标网页的源代码；

代码块确定单元，配置用于根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；

候选信息确定单元，配置用于将所确定出的代码块包括的元素的内容确定为候选信息；

结果信息筛选单元，配置用于基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息；

10.根据权利要求9所述的装置，其特征在于，所述代码块确定单元包括：

去除子单元，配置用于去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；

划分子单元，配置用于根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；

确定子单元，配置用于根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

11.根据权利要求9或10所述的装置，其特征在于，所述代码块确定单元包括：

检测子单元，配置用于检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；

确定子单元，配置用于将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

12.根据权利要求9或10所述的装置，其特征在于，所述代码块确定单元包括：

标准差和相似度计算子单元，配置用于计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；

确定子单元，配置用于若标准差和相似度计算子单元计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

13.根据权利要求9所述的装置，其特征在于，所述代码块确定单元包括：

文档对象模型获取子单元，配置用于获取根据所述源代码构建的文档对象模型；

确定子单元，配置用于采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

14.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及

所述结果信息筛选单元进一步配置用于：

将满足所述筛选条件组的候选信息确定为结果信息。

15.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述结果信息筛选单元包括：

搜索信息和点击信息集合获取子单元，配置用于获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；

查询子单元，配置用于查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；

确定子单元，配置用于若查询子单元查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

16.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述结果信息筛选单元包括：

语料库获取子单元，配置用于预先建立的语料库；

次数计算子单元，配置用于基于所述语料库计算所述候选信息跨词语切分的边界的次数；

确定子单元，配置用于若次数计算子单元计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。

完整全部详细技术资料下载

当前第2页1 2 3