互联网信息中重名人物的处理方法及系统的制作方法

文档序号：6581756阅读：197来源：国知局

专利名称：互联网信息中重名人物的处理方法及系统的制作方法
技术领域：
本发明涉及一种网络数据处理技术领域，更具体地说，涉及一种互联网信息中重名人物的处理方法及系统。
背景技术：
关系搜索(Relationship karch)是指通过搜索引擎关键字组合搜索并返回页面数结果，对页面结果进行比较分析而获得特定对象间关系的一种搜索方法。关系搜索的数据来源包括各种互联网信息，例如新闻、博客或者论坛数据等，其中，基于新闻数据的关系搜索比较精确。基于姓名及特定关键词的组合搜索可以挖掘人与人之间关系或人与事件的关系。然而，互联网数据中存在大量的重名人物，例如，名叫“孙悦”的知名人物中有两个，一个是体育篮球明星，男性；而另一个是娱乐歌手，女性。互联网信息中的重名人物会使得根据互联网信息进行关系搜索得到的结果不准确，因此需要区分互联网信息中的重名人物。

发明内容
基于此，有必要提供一种互联网信息中重名人物的处理方法，能准确区分互联网新闻数据中的重名人物。此外，还有必要提供一种互联网信息中重名人物的处理系统，能准确区分互联网新闻数据中的重名人物。所述互联网信息中重名人物的处理方法包括获取互联网历史信息，提取互联网历史信息中的类别信息；根据类别信息构造类别信息层次树；根据类别信息层次树对互联网信息中的重名人物进行处理。构造类别信息层次树的步骤具体可以是对类别信息进行预处理，得到类别信息串集合；根据类别信息串集合初始化类别信息层次树；计算类别信息层次树中的类别作为各根类别的子类的概率。该计算类别信息层次树中的类别作为各根类别的子类的概率的步骤具体可以是: 计算类别信息层次树中的任意上下两层类别父子关系的概率；递归任一类别到根类别的路径，得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值，计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中概率乘值的总和。另外，该方法还科包括获取重名人物列表，重名人物列表中记录了重名人物的姓名及区分层次、信息类别和区分信息。而根据类别信息层次树对重名人物进行处理的步骤具体可以是A.获取待处理人物的姓名，查找所述重名人物列表中是否存在所述待处理人物的姓名，若是，则进入步骤 B，否则结束；B.获取所述待处理人物所在互联网信息的类别信息，判断所述类别信息是否存在，若是，则进入步骤C，否则进入步骤D ；C.根据所述类别信息层次树获取所述类别信息中各类别作为根类别的子类的概率，取所述概率最大的根类别对应的互联网信息作为输出结果；D.检索待处理人物所在互联网信息中的区分信息，根据所述区分信息输出相应的互联网信息。步骤D中根据区分信息输出对应的新闻数据的步骤可包括当检索到互联网信息中有区分信息时，根据重名人物列表，获取所述检索到的区分信息所在的类别，将该类别对应的互联网信息作为输出结果。所述互联网信息中重名人物的处理系统包括数据库，用于存储互联网历史信息；类别信息提取单元，获取数据库中存储的互联网历史信息，提取互联网历史信息中的类别信息；类别信息层次树构造单元，根据类别信息构造类别信息层次树；重名人物处理单元，根据类别信息层次树对互联网信息中的重名人物进行处理。该类别信息层次树构造单元可包括预处理模块，用于对类别信息进行预处理，得到类别信息串集合；类别信息层次树初始化模块，根据类别信息串集合初始化类别信息层次树；概率计算模块，计算类别信息层次树中的类别作为各根类别的子类的概率。该概率计算模块进一步计算类别信息层次树中的任意上下两层类别父子关系的概率，并递归任一类别到根类别的路径，得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值，计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中概率乘值的总和。该系统还可包括重名人物列表获取单元，用于获取重名人物列表，重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。该重名人物处理单元进一步获取待处理人物的姓名，从重名人物列表中查找到待处理人物的姓名时，获取待处理人物所在互联网信息的类别信息，并根据类别信息层次树获取类别信息中的每一个类别作为根类别的子类的概率，取概率最大的根类别对应的互联网信息作为输出结果。该重名人物处理单元还可用于检索互联网信息中待处理人物的区分信息，根据重名人物列表，获取检索到的区分信息所在的类别，将该类别对应的互联网信息作为输出结果。上述互联网新闻中重名人物的处理方法及系统，通过提取互联网历史信息中的类别信息，根据该类别信息构造类别信息层次树，该类别信息层次树中描述了互联网历史信息中的类别之间的父子关系以及类别之间是父子关系的概率，当待处理人物的姓名在重名人物列表中存在时，根据该类别信息层次树输出概率最大的根类别对应的互联网信息，所输出的互联网信息将会更准确。因此上述方法及系统，能准确区分出互联网数据中的重名人物，使得基于该互联网数据进行关系搜索输出的搜索结果更准确。

图1是一个实施例中互联网信息中重名人物的处理方法的流程图；图2是一个实施例中构造类别信息层次树的方法流程图；图3是一个实施例中初始化得到的类别信息层次树的示意图；图4是一个实施例中类别信息层次树的示意图；图5是一个实施例中根据类别信息层次树处理重名人物的方法流程图；图6是一个实施例中互联网信息中重名人物的处理系统的结构示意图；图7是一个实施例中类别信息层次树构造单元的结构示意图。
具体实施例方式图1示出了一个实施例中互联网信息中重名人物的处理方法流程，具体过程如下在步骤SlO中，获取互联网历史信息，提取所述互联网历史信息中的类别信息。互联网历史信息即当前从互联网上获取的信息，包括各种新闻、博客或论坛数据等。类别信息描述了互联网信息所属类别。在一个实施方式中，从互联网的数据库上获取历史新闻数据，新闻的类别信息可通过搜索引擎在抓取新闻数据时，根据新闻的入口地址以及页面上的导航信息进行分析得到的。在一个实施例中，类别信息可由类别标签和特殊分隔符号组成，例如“财经股票市场大盘”、“娱乐音乐音乐新闻”等。在类别信息中，特殊分隔符号之后的类别标签是分隔符前的类别标签的子类，如上例中，“股票市场”是“财经”的子类，而 “音乐新闻”是“音乐”的子类。应当说明的是，上述类别信息仅是一个实施例，其形式并不受此限制。在步骤S20中，根据类别信息构造类别信息层次树。该类别信息层次树能形象的表示出各类别之间的父子关系，并可对各类别之间是父子关系的概率进行统计。图2示出了一个实施例中构造类别信息层次树的方法流程，具体过程如下在步骤S200中，对类别信息进行预处理，得到类别信息串集合。在一个实施方式中，预处理的过程包括去掉不合格的字符串等。经过预处理后，则能得到规范的类别信息串集合，该类别信息串集合中包括了从所有互联网信息中所得到的类别信息。该类别信息形如“A:B”或“A:B:C”等，例如“体育国际篮球NBA”，其中，A、B、C等都为类别标签。在步骤S202中，根据所述类别信息串集合初始化类别信息层次树。类别信息层次树是一个能描述类别之间的父子关系的树形结构。在一个实施方式中，根据类别信息串集合中的所有类别信息串以及类别信息串中各类别之间的父子关系初始化得到的类别信息层次树如图3所示，该类别信息层次树能形象表示出互联网信息的类别信息中各类别之间的父子关系。在一个实施例中，从该类别信息层次树中选取出所有的根类别，得到根类别集合，这里的根类别是指不存在其父类的类别，如图3中的类别A和类别G。在步骤S204中，计算所述类别信息层次树中的类别作为各根类别的子类的概率。在一个实施方式中，步骤S204的过程具体为(1)计算类别信息层次树中的任意上下两层类别父子关系的概率，具体过程为首先解析上述类别信息串集合中的类别信息串，对于任意两个类别A和B，统计出B为A的子类的次数为T(A，B)。例如，T(体育，篮球)=4563，表示“篮球”作为“体育”的子类的次数是4563次。然后进行概率归一化，计算得到任意两个类别A和B，类别B作为类别A的子类的概率为[ ‘ ^ΣΗα,Β)
a其中，P(A，B)表示类别B作为类别A的子类的概率，T(A，B)为上述计算得到的类别B作为类别A的子类的次数，，表示类别B作为其它类别的子类的次数之和。如
a
图4所示，上下两层类别父子关系的概率体现在两个类别之间的路径上，例如类别F作为类别A的子类的概率是0. 6，类别F作为类别C的子类的概率是0. 2等。(2)递归任意一类别到根类别的路径，得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值，计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述概率乘值的总和。如图4所示，在一个实施例中，该类别信息层次树中的根类别集合包括类别A和类别G，对于其中的任意一类别，例如类别F，计算类别F为类别A的子类的概率的过程为递归类别F到根类别A的路径，其中包括F-A和F-C-A两条路径，得到这两条路径中上下两层类别父子关系的概率乘值，其中F-A路径中该概率乘值即为0. 6，而F-C-A路径中该概率乘值为0. 2*0. 8 = 0. 16,则计算类别F作为根类别A的子类的概率为上述得到的两个概率乘值的总和(即0. 6+0. 16 = 0. 76)；递归类别F到根类别G 的路径，包括F-H-G路径，该路径中的概率乘值为0. 3*0. 2 = 0. 06,则类别F是根类别G的子类的概率即为0. 06。计算得到的类别信息层次树中各类别作为根类别的子类的概率可用于后续的判断待处理重名人物所属信息类别的过程中。在一个实施方式中，在获取互联网历史信息之前，还需获取重名人物列表。重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。在一个实施例中，重名人物列表中记录的重名人物格式形如“人物姓名#区分层次#信息类别#区分信息1#区分信息2..... ”，其中，区分层次是指能对重名人物进行区分所涉及的信息类别的层次。例如，对新闻数据，重名人物“孙悦”，一个是“体育，，类人物，一个是“娱乐，，类人物，只需区分到具体类别即可，因此重名人物“孙悦”的区分层次是1 ；又例如，重名人物“李静” 有三人，有一人属于体育类，另外两人属于娱乐类，而在娱乐类中，一个是演员，另一个是主持人，则进区分到类别不足以将这几个人物彻底区分，需具体到区分信息才能进行区分，因此重名人物“李静”的区分层次为2。区分信息是指将重名人物进行区分的信息汇总，这些信息可以是经常与人物共同出现在互联网信息中的字眼。例如，体育类新闻中经常出现的 “篮球”、“NBA”等词汇，娱乐类新闻中经常出现的“献唱”等词汇。在一个实施例中，上述两个重名人物在重名人物列表中记录如下“孙悦#1#体育#”、“孙悦#1#娱乐”、“李静#2#体育#”、“李静#2#娱乐#演员#”、“李静#2#娱乐#主持人#主持#，，。应当说明的是，上述重名人物列表所记录的内容仅是一个实施例，但并不限于此。图5示出了一个实施例中根据类别信息层次树处理重名人物的方法流程，具体过程如下在步骤S400中，获取待处理人物的姓名。该待处理人物的姓名可从要处理的互联网信息中获取。例如，获取某一个新闻数据中的待处理人物的姓名等。在步骤S402中，查找重名人物列表，判断所述重名人物列表中是否存在该待处理人物的姓名，若是，则进入步骤S404，否则结束。在步骤S404中，获取待处理人物所在互联网信息的类别信息。如上所示，在一个实施例中，要获取某一新闻数据中的新闻类别信息，则可根据新闻的入口地址以及页面上的导航信息进行分析得到的。在一个实施方式中，类别信息可由类别标签和特殊分隔符号组成。在步骤S406中，判断所述类别信息是否存在，若是，则进入步骤S408，否则进入步骤 S412。在步骤S408中，根据类别信息层次树获取类别信息中各类别为根类别的子类的概率。类别信息层次树可通过前述方法根据互联网历史信息构建得到，对于待处理人物所在互联网信息的类别信息中的各类别，从前述构建的类别信息层次树即可得到各类别为各根类别的子类的概率。在步骤S410中，取所述概率最大的根类别对应的互联网信息作为输出结果。在一个实施例中，对于某一个新闻数据，待处理人物姓名为“李静”，其所在新闻数据的类别信息为“娱乐影视电视剧”，根据类别信息层次树，得到“影视”类别为根类别“娱乐”的子类的概率最大，则将根类别“娱乐”对应的新闻数据作为输出结果。在步骤S412中，检索待处理人物所在互联网信息中的区分信息。当互联网信息的类别信息不存在时(可能由于某种原因缺失)，则可检索该互联网信息中的区分信息，该区分信息为经常与人物共同出现在信息中的字眼。例如，对于新闻数据，体育类新闻中经常出现的“篮球”、“NBA”等词汇，娱乐类新闻中经常出现的“献唱”等词汇。在步骤S414中，判断重名人物列表中是否存在所述区分信息，若是，则进入步骤 S415，否则结束。在步骤S416中，将区分信息所在类别对应的互联网信息作为输出结果。在一个实施例中，当重名人物列表中查找到与上述检索到的区分信息一致的区分信息时，表明该待处理人物根据区分信息可区分，因此可获取重名人物列表中记录的该区分信息对应的信息类别，并将该信息类别对应的互联网信息作为输出结果。例如，当检索到待处理人物“李静” 所在新闻数据中的区分信息为“演员”，而重名人物列表中查找如下记录“李静#2#娱乐# 演员”，则将区分信息“演员”的新闻类别“娱乐”对应的历史新闻数据作为输出结果。图6示出了一个实施例中互联网新闻中重名人物处理的系统，该系统包括数据库 10、类别信息提取单元20、类别信息层次树构造单元30和重名人物处理单元40，其中数据库10用于存储互联网历史信息。类别信息提取单元20与数据库10相连，用于获取数据库10中存储的互联网历史信息，提取所述互联网历史信息中的类别信息。如上所述，在一个实施例中，对于历史新闻数据，其类别信息可在搜索引擎抓取新闻数据时，根据新闻的入口地址以及页面上的导航信息进行分析得到。在一个实施方式中，类别信息可由类别标签和特殊分隔符号组成。类别信息层次树构造单元30与类别信息提取单元20相连，用于根据类别信息构造类别信息层次树。在一个实施方式中，如图7所示，类别信息层次树构造单元30包括预处理模块300、类别信息层次树初始化模块302和概率计算模块304。其中预处理模块300用于对类别信息进行预处理，得到类别信息串集合。预处理模块 300对类别信息进行的预处理包括去掉不合格的字符串等。经过预处理后，能得到规范的信息串集合。该信息串集合中包括了所有互联网历史信息的类别信息。类别信息层次树初始化模块302与预处理模块300相连，用于根据类别信息串集合初始化类别信息层次树。在一个实施例中，根据类别信息串集合中的所有类别信息串以及类别信息串中各类别之间的父子关系初始化得到的类别信息层次树如图3所示，该类别信息层次树能形象表示互联网信息的类别信息中各类别之间的父子关系。类别信息层次树初始化模块302初始化得到类别信息层次树后，进一步从该类别信息层次树中选取中所有的根类别，得到根类别集合。概率计算模块304用于计算类别信息层次树中的类别作为各根类别的子类的概率。具体地，概率计算模块304首先计算类别信息层次树中的任意上下两层类别父子关系的概率，具体的计算过程为首先解析上述类别信息串集合中的类别信息串，对于任意两个类别A和B，统计出B为A的子类的次数为T(A，B)。例如，T(体育，篮球)=4563，表示“篮球”作为“体育”的子类的次数是4563次。然后进行概率归一化，计算得到任意两个类别A 和B，类别B作为类别A的子类的概率为
权利要求
1.一种互联网信息中重名人物的处理方法，其特征在于，所述方法包括获取互联网历史信息，提取所述互联网历史信息中的类别信息；根据所述类别信息构造类别信息层次树；根据所述类别信息层次树对互联网信息中的重名人物进行处理。
2.根据权利要求1所述的互联网信息中重名人物的处理方法，其特征在于，所述构造类别信息层次树的步骤具体是对所述类别信息进行预处理，得到类别信息串集合；根据所述类别信息串集合初始化类别信息层次树；计算所述类别信息层次树中的类别作为各根类别的子类的概率。
3.根据权利要求2所述的互联网信息中重名人物的处理方法，其特征在于，所述计算类别信息层次树中的类别作为各根类别的子类的概率的步骤具体是计算所述类别信息层次树中的任意上下两层类别父子关系的概率；递归任一类别到根类别的路径，得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值，计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述概率乘值的总和。
4.根据权利要求1至3中任意一项所述的互联网信息中重名人物的处理方法，其特征在于，所述方法还包括获取重名人物列表，所述重名人物列表中记录了重名人物的姓名及区分层次、信息类别和区分信息。
5.根据权利要求4所述的互联网信息中重名人物的处理方法，其特征在于，所述根据类别信息层次树对重名人物进行处理的步骤具体是A.获取待处理人物的姓名，查找所述重名人物列表中是否存在所述待处理人物的姓名，若是，则进入步骤B，否则结束；B.获取所述待处理人物所在互联网信息的类别信息，判断所述类别信息是否存在，若是，则进入步骤C，否则进入步骤D ；C.根据所述类别信息层次树获取所述类别信息中各类别作为根类别的子类的概率，取所述概率最大的根类别对应的互联网信息作为输出结果；D.检索待处理人物所在互联网信息中的区分信息，根据所述区分信息输出相应的互联网信息。
6.根据权利要求5所述的互联网信息中重名人物的处理方法，其特征在于，所述步骤D 中根据所述区分信息输出对应的互联网信息的步骤包括当检索到所述互联网信息中有区分信息时，根据重名人物列表，获取所述检索到的区分信息所在的类别，将该类别对应的互联网信息作为输出结果。
7.—种互联网信息中重名人物的处理系统，其特征在于，所述系统包括数据库，用于存储互联网历史信息；类别信息提取单元，获取数据库中存储的互联网历史信息，提取所述互联网历史信息中的类别信息；类别信息层次树构造单元，根据所述类别信息构造类别信息层次树；重名人物处理单元，根据所述类别信息层次树对互联网信息中的重名人物进行处理。
8.根据权利要求7所述的互联网信息中重名人物的处理系统，其特征在于，所述类别信息层次树构造单元包括预处理模块，用于对所述类别信息进行预处理，得到类别信息串集合；类别信息层次树初始化模块，根据所述类别信息串集合初始化类别信息层次树；概率计算模块，计算类别信息层次树中的类别作为各根类别的子类的概率。
9.根据权利要求8所述的互联网信息中重名人物的处理系统，其特征在于，所述概率计算模块进一步计算所述类别信息层次树中的任意上下两层类别父子关系的概率，并递归任一类别到根类别的路径，得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值，计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述概率乘值的总和。
10.根据权利要求7至9中任意一项所述的互联网信息中重名人物的处理系统，其特征在于，所述系统还包括重名人物列表获取单元，用于获取重名人物列表，所述重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。
11.根据权利要求10所述的互联网信息中重名人物的处理系统，其特征在于，所述重名人物处理单元进一步获取待处理人物的姓名，从所述重名人物列表中查找到所述待处理人物的姓名时，获取所述待处理人物所在互联网信息的类别信息，并根据所述类别信息层次树获取所述类别信息中的每一个类别作为根类别的子类的概率，取所述概率最大的根类别对应的互联网信息作为输出结果。
12.根据权利要求10所述的互联网信息中重名人物的处理系统，其特征在于，所述重名人物处理单元还用于检索互联网信息中待处理人物的区分信息，根据重名人物列表，获取所述检索到的区分信息所在的类别，将该类别对应的互联网信息作为输出结果。
全文摘要
本发明提供了一种互联网信息中重名人物的处理方法及系统，所述方法包括获取互联网历史信息，提取所述互联网历史信息中的类别信息；根据所述类别信息构造类别信息层次树；根据所述类别信息层次树对互联网信息中的重名人物进行处理。采用本发明提供的互联网信息中重名人物的处理方法及系统，能准确区分出互联网信息中的重名人物，使得基于该互联网信息进行关系搜索输出的搜索结果更准确。
文档编号G06F17/30GK102063428SQ20091019398
公开日2011年5月18日申请日期2009年11月17日优先权日2009年11月17日
发明者李务斌, 贾自艳申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李务斌;贾自艳
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种待机图形界面的设置方法及电子设备的制作方法
上一篇：一种基于web的数学公式编辑系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。