一种站内信息的筛选方法和装置的制作方法

文档序号：6370851阅读：225来源：国知局

专利名称：一种站内信息的筛选方法和装置的制作方法
技术领域：
本发明涉及互联网信息服务技术领域，尤其涉及一种站内信息的筛选方法和装置。
背景技术：
搜索、类目导航是帮助人们在以信息发布为主要功能网站快速定位所需信息的重要手段。然而由于这种网站每天发布的信息量很大，即便通过关键词搜索或通过细分类目导航，最后找到的相关信息仍然很多，让人难以快速进行选择和决策。而且通过关键词或者细分类目导航查找站内信息时，会调取所有与所述关键词或者细分类目相关的站内信息，这样使网页客户端与网站服务器之间交互的接口压力大增，来自客户端的访问量过多时对服务器的系统性能造成影响，严重时会导致服务器通信拥塞甚至瘫痪。本发明通过文本挖掘的技术手段，提供一种同类商品匹配度的识别算法，帮助人们自动找到最相似的同类商品，并通过同类商品的对比导购，帮助用户快速的进行购买决策。

发明内容
本发明的目的在于提出一种站内信息的筛选方法和装置，能够筛选到更精确的相关站内信息，降低了网页客户端与网站服务器之间交互的接口压力。为达此目的，本发明采用以下技术方案一种站内信息的筛选方法，包括以下步骤A、根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中；B、对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性；C、根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内信息；D、对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息；E、生成同类匹配站内信息表并显示表中站内信息的差异属性。步骤B中，将各个属性字段中出现次数大于第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。步骤B中确定类别属性和差异属性后，计算各属性的权重。步骤C中，根据各个类别属性的权重，利用加权的文本相似匹配算法得到站内信息之间的匹配度。步骤E中，所述同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。一种站内信息的筛选装置，包括信息解析模块，属性分析模块，同类匹配模块，差错过滤模块和差异显示模块，所述信息解析模块，属性分析模块，同类匹配模块，差错过滤模块和差异显示模块依次连接，其中，信息解析模块，用于根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中；属性分析模块，用于对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性；同类匹配模块，用于根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内信息；差错过滤模块，用于对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息；差异显示模块，用于生成同类匹配站内信息表并显示表中站内信息的差异属性。所述属性分析模块，将各个属性字段中出现次数大于等于第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于等于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。所述属性分析模块，还用于计算各个类别属性与差异属性的权重。所述同类匹配模块根据各个类别属性的权重，利用加权的文本相似匹配算法得到站内信息之间的匹配度。所述差异显示模块生成的同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。采用本发明的技术方案，通过文本挖掘的技术手段，提供一种同类站内信息匹配度的识别算法，能够筛选到更精确的相关站内信息，降低了网页客户端与网站服务器之间交互的接口压力，而且方便用户对查询到的相关站内信息进行对比。

图I是本发明具体实施方式
提供的站内信息筛选方法的流程示意图。图2是本发明具体实施方式
提供的站内信息筛选装置的结构示意图。图3是以电商网站为例应用本发明具体实施方式
提供的站内信息筛选方法时的流程示意图。
具体实施例方式本发明的技术方案适用于以向公众提供信息发布平台和渠道为主要功能的网站，如电子商务、同城信息等大型综合信息发布平台网站，以及地产、旅游、招聘、征婚等等具有主题信息发布功能的网站，通过文本挖掘的技术手段，提供一种同类站内信息匹配度的识别算法，能够筛选到更精确的相关站内信息，降低了网页客户端与网站服务器之间交互的接口压力。
下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。图I是本发明具体实施方式
提供的站内信息筛选方法的流程示意图。如图I所示，该方法包括步骤S101，根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中。所述特征标识是指信息的名称或关键词、种类以及其他对要筛选出的信息具有标识作用的参考信息。系统根据输入的特征标识通过同类信息导入功能接口程序获取具有所述特征标识的全部站内信息。利用常用的文本分词技术，通过分词对各个信息的标题名称及内容描述进行关键词解析，得到关于每个信息的各类属性描述的关键词，同一属性有多个关键词时用短号连接。如果网站中原有的信息描述已经结构化时，即所述具有描述作用的关键词与所述属性之间的映射关系已经存在，则将解析出的关键词填写到以属性字段为列名的信息结构·化存储数据库的表格中即可。当网站中原有的信息描述没有结构化时，需要先建立关键词与属性字段的映射字典，然后对解析出的关键词对应结构化存储到数据表的各属性列中。步骤S102，对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性。将各个属性字段中出现次数超过第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。对结构化存储的信息关键词进行分析，得到各列属性中出现频次较高的关键词，将各个属性字段中出现次数大于等于第一预设阈值的关键词作为该属性的高频关键词，并对各高频关键词出现在不同信息中的次数进行统计。对于某一属性字段，如果列表记录中高频关键词在不同行(即不同信息)中出现的次数/总行数(即总信息数)大于等于第二预设阈值，则把此属性作为类别属性，类别属性用于确定信息是否是同类，只有同类信息才会显示出来进行对比；其它的属性作为差异属性，用于在锁定了同类信息后，对比同类信息中的关键差异。在识别了各属性的类别后，还需要识别各属性的权重，权重的识别一方面可以根据高频词出现的次数比例，一方面可以根据各属性在用户搜索时或者进行过滤排序时输入或者点击行为的次数，并对两类数据进行标准化处理和加权求和综合考虑。各属性的权重值通过如下公式计算属性权重值=1+高频词出现比例+标准化的点击次数*2步骤S103，根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内信息。匹配度的计算只需要考虑类别属性，可通过计算以上列表矩阵的两个信息的类别属性的文本相似度来得到。用矢量A表示信息I对各个类别属性的向量，矢量B表示信息2对各个类别属性的向量，那么信息I与信息2的匹配度可以用下面的文本矢量的夹角余弦相似性公式计算
Si wi7f7rlfy|A, B) 二 cos(/i, B)=
I '' ' A B若考虑属性的权重，只需要对A、B矢量的各维度，分别乘上各自对应的属性的权重值，然后套用上述公式进行计算即可。匹配度的计算还可以通过更简单的算法来实现，比如计算各A类属性中出现相同词的次数，并综合加权求和。设定匹配度阈值，如果某个信息与当前访问的站内信息之间的匹配度大于等于这个阈值，则两个信息是匹配相似的同类信息。如果某个信息与当前访问的站内信息之间的匹配度小于等于这个阈值，则说明这个信息与当前访问的站内信息的差异很大，不属于同类信息，没必要出现在后续的信息差异对比中，因此将这个信息过滤掉。通过匹配过滤，把需要进行对比选择的信息聚焦在少量范围内，极大地帮助用户提升了决策效率，并且减少客户端网页与服务器交互的接口压力，对系统性能也有很大提升。步骤S104，对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息。在确定了同类的匹配信息后，为防止一些信息的不准确或不完整被误归为同类信息，通过防差错过滤对一些预设属性进行判定，过滤掉已匹配信息中的异常项，保证匹配的结果更为可靠。步骤S105，生成同类匹配站内信息表并显示表中站内信息的差异属性。所述同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。相应的，本发明具体实施方式
提供了一种站内信息筛选装置，如图2所示，该装置包括信息解析模块201，属性分析模块202，同类匹配模块203，差错过滤模块204和差异显示模块205，所述信息解析模块201，属性分析模块202，同类匹配模块203，差错过滤模块204和差异显示模块205依次连接，其中，信息解析模块201，用于根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中；属性分析模块202，用于对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性；同类匹配模块203，用于根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内f目息;差错过滤模块204，用于对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息；差异显示模块205，用于生成同类匹配站内信息表并显示表中站内信息的差异属性。所述属性分析模块201，将各个属性字段中出现次数超过第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。所述属性分析模块，还用于计算各个类别属性与差异属性的权重。所述同类匹配模块203根据各个类别属性的权重，利用加权的文本相似匹配算法得到站内信息之间的匹配度。所述差异显示模块205生成的同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。下面以电商网站为例，进一步说明本发明具体实施方式
提供的站内信息筛选方法和装置，对电商网站站内信息筛选的流程如图3所示步骤S301，如输入“连衣裙”类目的关键词或ID号，通过信息解析模块的同类目商品信息导入功能接口程序获取该类目下的全部商品的信息。步骤S302，利用文本分词功能，通过分词对各商品标题及内容描述进行关键词解析，得到每件商品各类属性描述的关键词，同一属性有多个关键词时用短号连接。步骤S303，当网站中原有的商品信息描述已经结构化时，可将解析出的关键词填写到以属性字段为列名的信息结构化存储数据库的表格中。比如包括以下属性字段标题，品牌，款式，面料，袖长，领型，腰型，花边，风格，季节，图案，颜色，销量，信用，价格，其它，等。当网站中原来的商品描述信息没有结构化时，需要先建立关键词与属性字段的映射字典，然后对解析出的关键词对应结构化存储到数据表的各属性列中。步骤S304，通过对结构化存储的商品信息关键词进行分析，得到各列属性中出现频次较高的关键词，并对各高频关键词出现在不同商品的次数进行统计。对于某一属性字段，如果列表记录中高频关键词在不同行(即不同商品)中出现的次数/总行数(即总商品数)>某一阈值，则把此属性作为类别属性，类别属性用于确定商品是否是同类，只有同类的商品才会展现出来进行对比；其它的属性作为差异属性，用于在锁定了同类商品后，对比同类商品中关键差异。在识别了各属性的类别后，还需要识别各属性的权重，权重的识别一方面可以根据高频词出现的次数比例，一方面可以根据各属性在用户搜索时进行过滤排序时点击行为的次数，并对两类数据进行标准化处理和加权求和综合考虑。说明示例
权利要求
1.一种站内信息的筛选方法，其特征在于，包括以下步骤 A、根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中； B、对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性； C、根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内信息； D、对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息； E、生成同类匹配站内信息表并显示表中站内信息的差异属性。
2.根据权利要求I所述的站内信息的筛选方法，其特征在于，步骤B中，将各个属性字段中出现次数大于第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。
3.根据权利要求I或2所述的站内信息的筛选方法，其特征在于，步骤B中确定类别属性和差异属性后，计算各属性的权重。
4.根据权利要求I所述的站内信息的筛选方法，其特征在于，步骤C中，根据各个类别属性的权重，利用加权的文本相似匹配算法得到站内信息之间的匹配度。
5.根据权利要求I所述的站内信息的筛选方法，其特征在于，步骤E中，所述同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。
6.一种站内信息的筛选装置，其特征在于，包括信息解析模块，属性分析模块，同类匹配模块，差错过滤模块和差异显示模块，所述信息解析模块，属性分析模块，同类匹配模块，差错过滤模块和差异显示模块依次连接，其中，信息解析模块，用于根据输入的特征标识获取具备所述特征标识的站内信息，从获取的站内信息中解析出关键词并填写到结构化存储表格的属性字段中；属性分析模块，用于对所述结构化存储表格各个属性字段中的关键词进行词频分析，确定类别属性和差异属性；同类匹配模块，用于根据类别属性计算所述获取的站内信息中当前被访问的站内信息与其他站内信息之间的匹配度，筛选出匹配度高于预设匹配度阈值的同类匹配站内信息；差错过滤模块，用于对所述同类匹配站内信息中的预设属性进行判定，过滤掉所述预设属性异常的同类匹配站内信息；差异显示模块，用于生成同类匹配站内信息表并显示表中站内信息的差异属性。
7.根据权利要求6所述的站内信息的筛选装置，其特征在于，所述属性分析模块，将各个属性字段中出现次数大于等于第一预设阈值的关键词作为该属性的高频关键词，将所述高频关键词出现比例大于等于第二预设阈值的属性确定为类别属性，所述类别属性之外的其他属性为差异属性。
8.根据权利要求5或6所述的站内信息的筛选装置，其特征在于，所述属性分析模块，还用于计算各个类别属性与差异属性的权重。
9.根据权利要求6所述的站内信息的筛选装置，其特征在于，所述同类匹配模块根据各个类别属性的权重，利用加权的文本相似匹配算法得到站内信息之间的匹配度。
10.根据权利要求6所述的站内信息的筛选装置，其特征在于，所述差异显示模块生成的同类匹配站内信息表中的站内信息根据与当前被访问的站内信息的匹配度从大到小排列，表中的任一站内信息被访问时，同时显不表中其他站内信息的差异属性。
全文摘要
本发明公开了一种站内信息的筛选方法和装置，通过文本挖掘的技术手段，筛选出站内信息之间类别属性和差异属性，利用同类站内信息匹配度的识别算法，将具有较高匹配度的同类站内信息筛选出来，通过差异属性对同类站内信息进行对比。本发明能够筛选到更精确的相关站内信息，降低了网页客户端与网站服务器之间交互的接口压力，而且方便用户对查询到的相关站内信息进行对比。
文档编号G06F17/30GK102722567SQ20121017984
公开日2012年10月10日申请日期2012年5月30日优先权日2012年5月30日
发明者何勇, 张旭, 杨志雄, 苏宁军申请人:杭州遥指科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏宁军;杨志雄;张旭;何勇
技术所有人：杭州遥指科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。