一种从众多网络标签里生成折射词的方法

文档序号:6607171阅读:152来源:国知局
专利名称:一种从众多网络标签里生成折射词的方法
技术领域
本发明要求保护的技术方案所属的技术领域是互联网的数据挖掘、数据检索和数据显示。
背景技术
目前,许多网络文章,如博客和新闻,往往被作者或者编辑者附加一些标签。网友通过一个标签找到许多包含该标签的标签串,但是,这些标签串呈现为散乱的分布形式,网友需要对这些散乱的众多标签进行人工识别,这耗费了网友的精力;并且,在标签串非常多的情况下,网友很难从这些散乱的标签里总结出关联性最强的标签。本发明可以从这些散乱的标签里生成有用的折射词。

发明内容
本发明所要解决的技术问题是提供一种从众多网络标签里生成折射词的方法。本发明解决该技术问题所采用的技术方案是由计算机处理,把一篇网络文章里附加的2-N个标签作为一个标签串,标签串里有多少个标签就生成多少个衍生串,每个标签均有一次机会成为对应衍生串的领头词;把大量衍生串以相同的领头词为前提,添加到一个或者多个总串里,相同的跟随词累计频度,并且,同一个总串里的各个跟随词依据频度排序,从而得到一个或者多个总串。由计算机处理,当用户使用搜索引擎时,每输入一个字符,则使用当前已经输入的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N个跟随词。由计算机处理,当执行网页的搜索时,同时,使用标签的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N个跟随词。由计算机处理,把不同的总串分别生成动态网页或者静态网页,在网页里包含总串的领头词和N个跟随词。在本申请的描述里,多处使用N这个英文字母。N代表大于2的一个具体数字。不同地方使用的N,不一定是相同的数字。大多网友都有体会,搜索资料时,往往耗费大量的时间和精力,也不一定能够找到有用的资料。本发明让网友更加方便地找到所需的资料,减轻劳动强度,争取更多的休闲时间,并且有利于身心健康。“折射词”的含义在同一个“总串”里,各个“跟随词”相对“领头词”来说,也叫做折射词;频度越高的“跟随词”与“领头词”之间的折射关系越大。另外,在文章里标出的链接词,也是一种标签形式。使用这种链接词生成“标签串”,进而生成“衍生串”和“总串”也在本申请的保护范围之内。“标签串”体现的是同一个网友的行为。“总串”创造性地综合了多个网友的行为。


图1是本发明的流程图。
具体实施例方式下面对照附图举例说明本发明的优选方案。网友的标签可以是一个字、一个词、几个用空格间隔的词语或者任意字符串。下面对“标签串”进行详细的介绍。计算机从众多网络文章里采集标签,把同一篇文章里的2-N个不同的“标签”,作为一个“标签串”对待。下面介绍把“标签串”加工成为“衍生串”的方案。一个“标签串”包含2-N个“标签”,其中的任何两个“标签” 一般均不相同(相同也可以,但是,从科学的角度来说,不严谨)。一个“标签串”包含多少个“标签”,就需要拆分为多少个“衍生串”。比如包含6个标签,就需要拆分为6个“衍生串”。比如使用“ I,,作为各个标签之间的分割标识。从第一篇文章里提取出来的标签串如下Microsoft SQL Server微软| C# |关系数据库| SQL注入攻击从第二篇文章里提取出来的标签串如下C#|.NET Framework 安德斯 海尔斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向对象语言从第三篇文章里提取出来的标签串如下微软I比尔·盖茨I家用电脑I全球富豪排名按照上方第一个“标签串”为例,介绍把“标签串”进化成为“衍生串”的方案。我们知道该标签串里的这5个标签,仅仅是作者或者编辑者逐个书写的,这5个标签之间没有其它实际意义上的排序。这5个标签在标签串里的地位是相同的。所以,需要“衍生”出 5个“衍生串”。每个标签均有机会成为其中一个“衍生串”的“领头词”。所以说,在衍生串里,“领头词”与“跟随词”之间的地位是不同的。正因为“标签串”里的5个标签的地位相同,所以,需要“衍生”出5个“衍生串”,让每一个“标签”都担当一次“衍生串”的“领头词”。 如下Microsoft SQL Server微软| C# |关系数据库| SQL注入攻击微软I Microsoft SQL Server | C# |关系数据库| SQL注入攻击C# I Microsoft SQL Server微软|关系数据库| SQL注入攻击关系数据库!Microsoft SQL Server微软|C#|SQL注入攻击SQL注入攻击!Microsoft SQL Server微软| C# |关系数据库在上方的5行(段落)中,第一行(段落)与“标签串”里的词和排序完全一样。 不同的是,现在把原来“标签串”里的第一个标签当作了“领头词”对待,从而成为了一个“衍生串”。既然“标签串”里的每一个标签的地位相等,那么,也需要让每一个标签都有一次成为“领头词”的机会,所以,需要“衍生”出5个“衍生串”,如上方的5行(段落)“衍生串”。上方5行(段落)衍生串里,每行(段落)的第一个标签均是“所在行(即衍生串)” 的领头词。每行(段落)的其它4个的词被视为“所在行(即衍生串),,的“跟随词”。同理,把第二个“标签串”加工成为“衍生串”。如下C#|.NET Framework 安德斯 海尔斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向对象语言. NET Framework | C# 安德斯 海尔斯伯格(Anders Hejlsberg) Visual Studio. NET|Microsoft SQL Server 面向对象语言安德斯·海尔斯伯格(AndersHejlsberg) .NET Framework | C# | Visual Studio. NET|Microsoft SQL Server 面向对象语言Visual Studio. NET |. NET Framework 安德斯·海尔斯伯格(Anders Hejlsberg) C#|Microsoft SQL Server 面向对象语言Microsoft SQL Server |. NET Framework!安德斯·海尔斯伯格(Anders Hejlsberg) | Visual Studio. NET | C# 面向对象语言面向对象语言I.NET Framework安德斯·海尔斯伯格(Anders Hejlsberg) I Visual Studio. NET|Microsoft SQL Server|C#同理,把第三个“标签串”加工成为“衍生串”。如下微软I比尔·盖茨I家用电脑I全球富豪排名比尔·盖茨I微软I家用电脑I全球富豪排名家用电脑I微软I比尔·盖茨I全球富豪排名全球富豪排名I微软I比尔·盖茨I家用电脑到目前为止,每个“标签串”均被加工成为了多个“衍生串”。一个“标签串”包含多少个“标签”,这个“标签串”就会被加工成为多少个“衍生串”。每一行(段落)代表一个“衍生串”。每个“衍生串”都有一个“领头词”,第一个“词”就是“领头词”。在“衍生串” 里,“领头词”的地位高于“跟随词”的地位。但是,每个“衍生串”里的各个“跟随词”之间仍然没有地位之分。在同一个“衍生串”里,各个“跟随词”的地位是相等的,位置是可以互换的。但是, “领头词”的位置不能与“跟随词”的位置互换。这一点与“标签串”不同。在“标签串”里, 没有“领头词”,所以,“标签串,,里的任何“词,,之间的位置都是可以互换的。在上方的各组衍生串里,第一行(段落)的“衍生串”与原始的“标签串”从形式上看完全相同,但是,“衍生串”的第一个标签(作为领头词)的位置不能变动;也就是说, 除了(领头词)之外,“衍生串”里的其它“跟随词”之间不区分先后,没有顺序,可以互换位置。在上方的各组衍生串里,第二行(段落)的“衍生串”把原始“标签串”里的第二个标签排在最前面,作为领头词;“衍生串”里的其它“跟随词”之间不区分先后,没有顺序, 可以互换位置。依此类推。下面介绍把“衍生串”添加到“总串”的具体方案。把各个“衍生串”逐一添加到与之相同“领头词”的“总串”里。各个“衍生串”在计算机里添加到“总串”里。日后,根据各个新的“衍生串”不断地更新“总串”。
在所有的“总串”里,如果没有查找到相同“领头词”的“总串”,那么,该“衍生串” 作为一个整体,就会成为一个全新的“总串”,被保存在计算机上。在之前的所有“总串”里,如果查找到相同“领头词”的“总串”,那么,把“衍生串” 里的所有“跟随词”逐个添加到“总串”里。与“总串”里的“跟随词”相同的“跟随词”,为 “总串”的对应“跟随词”增加一个频度。“总串”里没有的“跟随词”当即新增到“总串”里。 频度高的“跟随词”排序在前,但是,无论“跟随词”的频度再高,也必须排在“领头词”的后“频度”的含义相当于“次数”。“衍生串”里的“领头词”不能添加为“总串”的“跟随词”,也不能成为“总串”里的第二个“领头词”,因为一个“总串,,只能有一个“领头词”。在计算机上,把“衍生串”添加到相同“领头词”的“总串”里时,与“总串”里的“跟随词”相比较,相同的“跟随词”增加1频度,而不是把相同的“跟随词”重复地添加到“总串”里。新的“跟随词”,添加到“总串”里之后成为“总串”里频度为1的新的“跟随词”。在前面的介绍里,涉及到了 “标签串”、“衍生串”和“总串”。下面总结一下它们的不同特点。“标签串”里没有“领头词”,并且各个“标签”之间没有地位之分。“衍生串”高级了一步,有领头词,但是,各个“跟随词”之间仍然没有地位之分。“总串”里的各个“跟随词”需要根据频度排序。同一个“总串”里的各个“跟随词” 之间有地位之分,频度高的“跟随词”排在前面。但是,在同一个“总串”里,某个“跟随词” 的频度无论再高,也只能排在“领头词”的后面。频度最高的“跟随词”排在“领头词”之后的第一个位置。凡是有“领头词”的串,每个串里只能有一个“领头词”。有“领头词”的串添加到另一种有“领头词”的串里的前提是,这两个串的“领头词”相同。一种串的“领头词”不能成为另一种串里的“跟随词”。一种串的“领头词,,添加到另一种串的“领头词”时,相当于为另一个串的“领头词”增加一个频度。当然,也可以不增加“领头词”频度,因为增加“领头词”的频度,意义不大(其主要意义在于反映该串的活跃度)。添加后的“跟随词”,当即从“衍生串”里删除。因为是把“衍生串”里的“跟随词” 逐一添加到“总串”的“跟随词”里,所以,在(衍生串)里也是逐一删除掉已经添加到“总串”的“跟随词”。最后,删除衍生串里的领头词,该衍生串的任务算作结束,“衍生串”的整串(含该串的所有数据)被自动删除掉。依据这种方案,与“领头词”关联性强的“跟随词”,会逐渐地排序在前面。由计算机处理,当用户使用搜索引擎时,每输入一个字符,则使用当前已经输入的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N个跟随词。由计算机处理,当执行网页的搜索时,同时,使用标签的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N个跟随词。由计算机处理,把不同的总串分别生成动态网页或者静态网页,在网页里包含总串的领头词和N个跟随词。
6
本发明中提到的计算机是具备cpu功能的任何固定或者移动设备,可以是服务器计算机、可以是客户端计算机、也可以是相互协作的客户端计算机和服务器计算机。相互协作是指通过内网或者公网等互联网进行协作。计算机包括个人电脑、移动设备、台式机电脑、笔记本电脑、移动电话等等。把“总串,,的数据提取出来,放在家用电脑的客户端,或者,放在手机里,在断开互联网或者连接互联网的情况下,从而供用户检索和显示数据,也在本发明的保护范围之内。本申请的实施例仅仅用于解释本发明,而不用于限定本发明。本发明中的实施例均为示例性的非限制性实施例。本领域的技术人员可以在本发明的精神下,并在权利要求书的范围内进行多种改变、修改或者替换。然而,这些改变、修改或者替换均应在本发明的保护范围之内。根据具体实施例的不同,本发明可以体现出本申请中所阐述的全部或部分之技术效果。
权利要求
1.一种从众多网络标签里生成折射词的方法,其特征是由计算机处理,把一篇网络文章里附加的2-N个标签作为一个标签串,标签串里有多少个标签就生成多少个衍生串, 每个标签均有一次机会成为对应衍生串的领头词;把大量衍生串以相同的领头词为前提, 添加到一个或者多个总串里,相同的跟随词累计频度,并且,同一个总串里的各个跟随词依据频度排序,从而得到一个或者多个总串。
2.根据权利要求1所述的一种从众多网络标签里生成折射词的方法,其特征是由计算机处理,当用户使用搜索引擎时,每输入一个字符,则使用当前已经输入的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N个跟随词。
3.根据权利要求1所述的一种从众多网络标签里生成折射词的方法,其特征是由计算机处理,当执行网页的搜索时,同时,使用标签的全部字符或者部分字符在各个总串的领头词里检索,检索到相同的领头词时,返回一次检索结果,为用户显示一个对应总串里的N 个跟随词。
4.根据权利要求1所述的一种从众多网络标签里生成折射词的方法,其特征是由计算机处理,把不同的总串分别生成动态网页或者静态网页,在网页里包含总串的领头词和N 个跟随词。
全文摘要
一种从众多网络标签里生成折射词的方法。所属的技术领域是互联网的数据挖掘、数据检索和数据显示。许多网络文章,如博客和新闻,往往被作者或者编辑者附加一些标签。网友通过一个标签找到许多包含该标签的标签串,但是,这些标签串呈现为散乱的分布形式,网友需要对这些散乱的众多标签进行人工识别,这耗费了网友的精力;并且,在标签串非常多的情况下,网友很难从这些散乱的标签里总结出关联性最强的标签。本发明可以从这些散乱的标签里生成有用的折射词。
文档编号G06F17/30GK102346742SQ201010244308
公开日2012年2月8日 申请日期2010年8月4日 优先权日2010年8月4日
发明者张占平 申请人:张占平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1