一种目录映射关系挖掘方法和装置与流程

文档序号:12008328阅读:194来源:国知局
一种目录映射关系挖掘方法和装置与流程
本发明涉及信息处理技术,尤其涉及一种目录映射关系挖掘方法和装置。

背景技术:
对于词条系统(如百科词条、搜搜词条)而言,通常将词条分类下的目录分为标准目录和用户目录。其中,标准目录由人工(如产品经理)制定,位于各个分类词条下,如人物分类词条中的人物介绍、人物经历和人物获奖记录等内容对应的标准目录;用户目录则是由用户自主创建的目录,这些自主创建的目录可能与人工制定的标准目录相同,也可能不相同但含义相似。例如,标准目录为“人物简介”,而用户创建的目录可能按照标准目录予以建立,为“人物简介”,也可能存在较大的随意性,为“人物资料”。由于现有的词条系统中所有的词条基本上都是由用户创建,而用户创建的词条通常存在目录名称不规范、目录逻辑混乱、层级关系不合理、目录下的内容详略不当、弱(不)相关内容表述等问题。例如,在百科词条中,用户添加的目录大部分具有表述口语化、名称不规范或目录层级设置不合理等特点。因此,希望可以提出一种用于解决上述问题的目录映射关系挖掘方法和装置。

技术实现要素:
本发明的目的是提供一种目录映射关系挖掘方法和装置,可以有效解决词条系统中通常存在的目录名称不规范、目录逻辑混乱、层级关系不合理等问题。根据本发明的一个方面,提供了一种目录映射关系挖掘方法,该方法 包括以下步骤:以词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;采用赋权投票的方式确定用户目录名称最终映射的标准目录。根据本发明的另一个方面,还提供了一种目录映射关系挖掘装置,包括:映射数据建立模块,用于将词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;目录和内容映射模块,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;最终映射目录确定模块,采用赋权投票的方式确定用户目录名称最终映射的标准目录。与现有技术相比,本发明具有以下优点:1)通过目录映射关系挖掘,帮助提高词条系统整体可读性,可信性及全面性;2)通过挖掘目录关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图;图2为根据本发明一个优选实施例的基于目录内容映射初步挖掘用户目录与标准目录的映射关系的方法流程图;图3为根据本发明一个优选实施例的采用TF/IDF算法进行标准目录 关键词抽取的流程图;图4为根据本发明一个优选实施例的目录映射关系挖掘装置的示意性框图。具体实施方式下面结合附图对本发明作进一步详细描述。根据本发明的一个方面,提供了一种目录映射关系挖掘的方法。请参考图1,图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图。如图1所示,本发明所提供的方法包括以下步骤:步骤S101,以词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典。具体地,词条系统包括多个单分类下的全量词条,例如,百科词条系统中包括如娱乐人物和动漫人物等分类下的全量词条,而单个词条又包括多个目录名称及目录名称下内容。以娱乐人物这个单分类为例,其包含的目录名称及目录名称下内容有:人物简介、演艺经历、主要作品和荣誉纪录等目录名称及目录名称下内容。如背景技术所述,词条分类下的目录分为标准目录和用户目录,而标注数据是针对标准目录和用户目录之间的映射关系而予以建立的,形式上表现为“用户目录-标准目录”映射对。通常而言,标注数据由人工予以标注,并且,每个百科词条分类下有100个左右的标注数据,例如:歌手个人信息-人物简介。其中,同义词表是由同义词集合的数据表,其不针对具体词条分类,通常以同义词对的形式描述,如:说明-描述,介绍-简介。本实施例的目的在于挖掘词条分类下所有用户目录与标准目录的映射关系,因此以词条系统中单分类下全量词条作为待映射的词条,并以标注数据、同义词表作为映射词典,通过后续复杂的计算确定各词条分类下用户目录在映射词典中具体对应的标准目录。如前所述,用户目录包括标准目录与非标准目录,在本实施例中,主 要针对用户创建的非标准目录进行处理。步骤S102,分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录。具体地,用户目录名称映射及目录内容映射具体包括:分别基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容,计算用户目录名称最终映射的标准目录名称。进一步地,在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。进一步地,所述预处理包括:对用户目录名称进行分词,并根据词性过滤其中无意义的词,如标点符号、连词、感叹词等。经拼接,将预处理结果替换原始目录名称。例如,用户目录名称为“1.关于人物的介绍”,分词后,得到:1/./关于/人物/的/介绍,经过词性过滤,进一步得到:人物/介绍,将过滤后的结果“人物”和“介绍”予以拼接,得到“人物介绍”,因此,以目录名称“人物介绍”替换原始目录名称“1.关于人物的介绍”,并最终以目录名称“人物介绍”计算目录名称相似度。在本实施例中,采用最长公共子序列(LCS)算法作为计算用户目录名称与标准目录名称的相似度的基础算法。其中,最长公共子序列是指任意两字符串的所有公共子序列中长度最大的子序列。例如,给定两个字符串“abac”和“caba”,则两个字符串的最长公共子序列为“aba”。本实施例中,并不对最长公共子序列的求解算法予以限定,可以采用如动态规划算法和后缀树算法在内的多种算法。进一步地,对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。例如:病理病因和病因病理两个词,虽然“病理”和“病因”的位置进行了前后变换,但是变换前后的语义不发生改变。基于上述情况,在LCS算法的基础上做正反两次LCS计算。若通过正反两次LCS计算,得到的结果在原输入位置不重合,则调整两目录间LCS长度至2倍的原LCS长度。具体而言,对于“病理病因”和“病因病理”两个词,首次通过LCS算法计算,得到最长公共子序列“病理”,长度为4个字节;再次通过LCS算法 计算经顺序倒置的“病因病理”和“病理病因”两个词的最长公共子序列,得到“病因”一词,长度也为4个字节。由于两次计算得到的最长公共子序列“病理”和“病因”在原输入位置不重合(在“病理病因”中,病理输入位置为1-4字节,病因输入位置为5-8字节,前后不重合),因此,判断“病理病因”与“病因病理”的最长公共子序列长度为8字节。由于目录名称相似度的计算可泛化为短文本间相似度的计算,而两目录名称的相似度与目录间相同内容长度成正比,与不相同内容长度成反比。在基础算法LCS的基础上,分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;方式二,基于标注数据间接计算用户目录与标准目录名称相似度:SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);其中,标注目录名称指的是标注数据中对应的用户目录,例如,标注数据“人物资料-人物简介”中所对应的“人物资料”。优选地,采用如上两种方式计算用户目录名称与标准目录名称相似度后,根据相似度排名,分别取每个方式得到的排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。例如:标注数据中有:“人物信息-人物简介”,用户目录名称为“个人信息”,标准目录名称为“人物简介”,标注目录为“人物信息”,则在计算用户目录“个人信息”与标准目录相似度时,通过上述方式一,直接计算“个人信息”与“人物简介”的名称相似度,并通过上述方式二,基于标注目录“人物信息”间接计算“个人信息”与“人物简介”的名称相似度,在此例中,通过直接计算得到相似度结果为2*2/(8+8)=0.25,通过间接计算得到相似度结果为6*2/(8*2)=0.75。进一步地,设定相似度阈值,比较上述两种方式分别得到的相似度值 和所述阈值。若得到的相似度值小于所述阈值,则将所述用户目录名称中的分词内容替换为所述同义词表中对应的同义词,例如替换人物介绍中的“介绍”分词为“简介”,进而将“个人介绍”替换为“个人简介”,并计算所述替换后的用户目录与标准目录的相似度值,并将该相似度值替换原得到的相似度值;若所得到的相似度值大于或等于所述阈值,则维持所得到的相似度值。进一步地,基于目录内容映射,计算用户目录名称初步映射的标准目录名称的过程,具体请参考图2,如图2所示,包括:步骤S201,从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;步骤S202,以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;步骤S203,基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。具体地,针对步骤S201而言,所述关键词的抽取采用的是TF/IDF(TermFrequency-InverseDocumentFrequency,文档-反文档频率)算法,具体包括:将同名标准目录名称及与之对应的标注目录名称及其下的内容作为一个目录集,以所述标准目录名称作为目录集名,并将百科分类下所有标准目录名对应的目录集组成总的文件集。例如,将人物分类下所有人物简介目录及标注中的人物资料目录以及内容组成一个目录集。更细一步地,例如,词条“刘德华”中有“人物简介”目录名称,对应目录名称下内容为abc,词条“许嵩”中也有“人物简介”目录名称,对应目录名称下内容为efg,则将目录名称“人物简介”及目录名称下内容abc/efg组成一个目录集,并将“人物简介”作为此目录集名。其中,采用的是TF/IDF算法进行关键词抽取,具体请参考图3,如图3所示,该抽取过程包括:S301,抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;S302,设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。优选地,目录集的关键词抽取以目录数大于3的百科词条为数据集,并适当过滤目录与目录下的内容不一致的情形,减少杂质。据统计,许多词条只有1个目录,且命名为简介,但目录下的内容既包括个人信息,也包括个人经历、荣誉等,对于这种情况,应避免使用此类目录作为关键词抽取数据,以尽量保证目录名称与目录名称下的内容相对应。后续过程中,采用分词和词性标注的方式对内容进行处理,并通过停用词过滤、词性筛选、分词频次筛选得到每个目录集中的关键词及总的关键词。具体地,针对步骤S202而言,所述关键词权重向量也采用的是TF/IDF算法,具体包括:用户目录与标准目录具有相同的关键词集合,利用TF/IDF分别计算所有用户目录及标准目录关键词的权重,组成用户目录及标准目录关键词权重向量,例如,标准目录A的关键词向量A=(x1,x2,x3…xn),其中xn为第n个关键词在标准目录A中的权重,维数即为关键词的个数,是由TF/IDF阈值限定后确定的,阈值越高,关键词个数越少,维数越低,反之亦然。以娱乐人物分类为例,所有词条下的人物简介目录及内容组成一个目录集,人物简介为目录集名,首先计算人物简介下的关键词向量,比如(身高,年龄),再计算所有标准目录的最终关键词,如人物简介及荣誉记录目录总关键词为(身高,年龄,获得,奖),后计算所有用户目录中(身高,年龄,获得,奖)关键词向量的权重。其中,所述权重的具体计算公式如下:Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);例如,娱乐人物分类下目录总数为50000,词条包含人物简介目录的总次数为300,人物简介目录集下的内容的总词数及身高词数分别为10000和500,身高出现在200个不同词条的目录内容中,但仅出现在150个名 称为人物简介的目录下;则身高在人物简介目录集下的权重为:w=(500/10000)*In(50000/200)*sqrt(150/300)=0.19;其中,sqrt(关键字在目录集中出现的目录数/此目录集总目录数)为TF/IDF的调权因子,其可以保证关键词的两种特性:1)保证关键词在目录集中出现的目录次数越大,其代表性越强(最好的情况是一个目录集中所有的同名目录下的内容都包含此关键字);2)保证关键字在不同目录集下权重区分性变大。具体地,针对步骤S203而言,最终计算所述标准目录关键词权重向量和用户目录关键词权重向量的相似度,例如,计算用户目录中标准目录名称“人物简介”及非标准目录名称“个人信息”的关键词向量间相似度。具体计算公式如下:其中,A为标准目录名称关键词权重向量,B为非标准目录名称关键词权重向量。优选地,根据最终计算得到所述标准目录关键词权重向量和用户目录关键词权重向量的相似度排名,如上文,取排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。步骤S103,采用赋权投票的方式确定用户目录名称最终映射的标准目录。具体地,通过步骤S102中的分别基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容,得到用户目录名称初步对应的标准目录名称后,根据具体应用的不同,采用不同的赋权投票方式。其中,具体应用包括以下情况:根据百科词条质量分布,若用户目录与目录下的内容不太一致,则赋权时,设定目录内容映射权重高,目录名称映射权重低;若用户目录与目录内容质量均很差,则在投票时,只认为目录名称映射及目录内容映射的最高相似度映射结果相同时,才确定为最终映射的标准目录,否则为保证准确率认为此目录不与任何标准目录映射。其中,所述赋权,指根据目录名称与目录名称下内容的重要性的比较 结果,分别对所述计算用户目录名称与标准目录的相似度结果及用户目录名称下内容与标准目录下内容的相似度结果进行比例赋值。例如,假定目录名称重要性高于目录名称下的内容,则可以对目录名称映射得到的结果乘以1,对目录内容映射得到的结果乘以0.8。其中,所述投票,指从初步得到的相似标准目录中确定最终的相似标准目录。例如,通过用户目录名称映射,得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录c和d相对应,则通过投票得到的最终映射的标准目录为a、b、c和d中最相似的一个;又如,通过用户目录名称映射,仍然得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录a和c相对应,则通过投票得到最终映射的标准目录为a。更具体地,根据用户目录名称及目录名称下内容的整体质量,确定投票的方式。若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。其中,保准确的投票方式是指通过用户目录名称映射及目录内容映射得到相同的映射结果时,才认为该相同的映射结果为最终映射的标准目录,例如,对于用户目录名称“人物介绍”和标准目录名称“人物简介”,用户目录名称映射及目录内容映射均认为两目录名称相似时,才认为此结果为最终结果,否则认为“人物介绍”目录不与标准目录最终映射。而扩大召回的投票方式是指通过用户目录名称映射及目录内容映射得到映射结果不存在相同,则取相似度较高且高于所设定的阈值的初步映射标准目录为最终映射标准目录。与现有技术相比,本发明所提供的目录映射关系挖掘方法可以带来如下技术效果:在本实施例中,选取了百科6个重点监控分类作为数据源,因各个分类下目录的规范性不一致,因此技术效果也存在区别,如下述表格所示:其中,表格中的算法的召回率=算法召回的目录出现频次/分类目录出现总频次;由上图可知,通过上述投票方式,可以实现同类型目录的自动对应。而且,本方法通过构建目录映射体系,并通过目录名称相似度及目录下的内容相似度两个维度上的计算,有效对整体目录映射关系进行挖掘。根据本发明的另一个方面,还提供了一种目录映射关系挖掘装置,请参考图4,图4为根据本发明一个优选实施例的目录映射关系挖掘装置的示意性框图。如图所示,该装置包括:映射数据建立模块401,用于将词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;目录和内容映射模块402,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;最终映射目录确定模块403,采用赋权投票的方式确定用户目录名称最终映射的标准目录。下文将对上述各模块的具体工作过程进行详述。具体地,映射数据建立模块用于建立词条系统的基本映射词条及进行映射关系计算的映射词典。其中,词条系统包括多个单分类下的全量词条,例如,百科词条系统中包括如娱乐人物和动漫人物等分类下的全量词条,而单个词条又包括多个目录名称及目录名称下内容。以娱乐人物这个单分类为例,其包含的目录名称及目录名称下内容有:人物简介、演艺经历、主要作品和荣誉纪录等目录名称及目录名称下内容。如背景技术所述,词条分类下的目录分为标准目录和用户目录,而标注数据是针对标准目录和用户目录之间的映射关系而予以建立的,形式上表现为“用户目录-标准目录”映射对。通常而言,标注数据由人工予以标注,并且,每个百科词条分类下有100个左右的标注数据,例如:歌手个人信 息-人物简介。其中,同义词表是由同义词集合的数据表,其不针对具体词条分类,通常以同义词对的形式描述,如:说明-描述,介绍-简介。本实施例的目的在于挖掘词条分类下所有用户目录与标准目录的映射关系,因此以词条系统中单分类下全量词条作为待映射的词条,并以标注数据、同义词表作为映射词典,通过后续复杂的计算确定各词条分类下用户目录在映射词典中具体对应的标准目录。如前所述,用户目录包括标准目录与非标准目录,在本实施例中,主要针对用户创建的非标准目录进行处理。其中,目录和内容映射模块,主要基于用户目录名称与标准目录,以及用户目录名称下内容与标准目录名称下内容两方面,计算用户目录名称最终映射的标准目录名称。进一步地,该装置还包括预处理模块,用于在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。其中,所述预处理模块的处理过程包括:对用户目录名称进行分词,并根据词性过滤其中无意义的词,如标点符号、连词、感叹词等。经拼接,将预处理结果替换原始目录名称。例如,用户目录名称为“1.关于人物的介绍”,分词后,得到:1/./关于/人物/的/介绍,经过词性过滤,进一步得到:人物/介绍,将过滤后的结果“人物”和“介绍”予以拼接,得到“人物介绍”,因此,以目录名称“人物介绍”替换原始目录名称“1.关于人物的介绍”,并最终以目录名称“人物介绍”计算目录名称相似度。在本实施例中,采用最长公共子序列(LCS)算法作为计算用户目录名称与标准目录名称的相似度的基础算法。其中,最长公共子序列是指任意两字符串的所有公共子序列中长度最大的子序列。例如,给定两个字符串“abac”和“caba”,则两个字符串的最长公共子序列为“aba”。本实施例中,并不对最长公共子序列的求解算法予以限定,可以采用如动态规划算法和后缀树算法在内的多种算法。进一步地,对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。例如: 病理病因和病因病理两个词,虽然“病理”和“病因”的位置进行了前后变换,但是变换前后的语义不发生改变。基于上述情况,在LCS算法的基础上做正反两次LCS计算。若通过正反两次LCS计算,得到的结果在原输入位置不重合,则调整两目录间LCS长度至2倍的原LCS长度。具体而言,对于“病理病因”和“病因病理”两个词,首次通过LCS算法计算,得到最长公共子序列“病理”,长度为4个字节;再次通过LCS算法计算经顺序倒置的“病因病理”和“病理病因”两个词的最长公共子序列,得到“病因”一词,长度也为4个字节。由于两次计算得到的最长公共子序列“病理”和“病因”在原输入位置不重合(在“病理病因”中,病理输入位置为1-4字节,病因输入位置为5-8字节,前后不重合),因此,判断“病理病因”与“病因病理”的最长公共子序列长度为8字节。由于目录名称相似度的计算可泛化为短文本间相似度的计算,而两目录名称的相似度与目录间相同内容长度成正比,与不相同内容长度成反比。在基础算法LCS的基础上,分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;方式二,基于标注数据间接计算用户目录与标准目录名称相似度:SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);其中,标注目录名称指的是标注数据中对应的用户目录,例如,标注数据“人物资料-人物简介”中所对应的“人物资料”。优选地,采用如上两种方式计算用户目录名称与标准目录名称相似度后,根据相似度排名,分别取每个方式得到的排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。例如:标注数据中有:“人物信息-人物简介”,用户目录名称为“个人信息”,标准目录 名称为“人物简介”,标注目录为“人物信息”,则在计算用户目录“个人信息”与标准目录相似度时,通过上述方式一,直接计算“个人信息”与“人物简介”的名称相似度,并通过上述方式二,基于标注目录“人物信息”间接计算“个人信息”与“人物简介”的名称相似度,在此例中,通过直接计算得到相似度结果为2*2/(8+8)=0.25,通过间接计算得到相似度结果为6*2/(8*2)=0.75。进一步地,设定相似度阈值,比较上述两种方式分别得到的相似度值和所述阈值。若得到的相似度值小于所述阈值,则将所述用户目录名称中的分词内容替换为所述同义词表中对应的同义词,例如替换人物介绍中的“介绍”分词为“简介”,进而将“个人介绍”替换为“个人简介”,并计算所述替换后的用户目录与标准目录的相似度值,并将该相似度值替换原得到的相似度值;若所得到的相似度值大于或等于所述阈值,则维持所得到的相似度值。进一步地,基于目录内容映射,计算用户目录名称初步映射的标准目录名称,具体包括:i)从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;ii)以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;iii)基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。具体地,针对步骤i)而言,所述关键词的抽取采用的是TF/IDF(TermFrequency-InverseDocumentFrequency,文档-反文档频率)算法,具体包括:将同名标准目录名称及与之对应的标注目录名称及其下的内容作为一个目录集,以所述标准目录名称作为目录集名,并将百科分类下所有标准目录名对应的目录集组成总的文件集。例如,将人物分类下所有人物简介目录及标注中的人物资料目录以及内容组成一个目录集。更细一步地,例如,词条“刘德华”中有“人物简介”目录名称,对应目录名称下内容为abc,词条“许嵩”中也有“人物简介”目录名称,对应目录名称下内容为efg,则将目录名称“人物简介”及目录名称下内容abc/efg组成一个目录集,并将“人 物简介”作为此目录集名。其中,采用的是TF/IDF算法进行关键词抽取,具体包括:a)抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;b)设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。优选地,目录集的关键词抽取以目录数大于3的百科词条为数据集,并适当过滤目录与目录下的内容不一致的情形,减少杂质。据统计,许多词条只有1个目录,且命名为简介,但目录下的内容既包括个人信息,也包括个人经历、荣誉等,对于这种情况,应避免使用此类目录作为关键词抽取数据,以尽量保证目录名称与目录名称下的内容相对应。后续过程中,采用分词和词性标注的方式对内容进行处理,并通过停用词过滤、词性筛选、分词频次筛选得到每个目录集中的关键词及总的关键词。具体地,针对步骤ii)而言,所述关键词权重向量也采用的是TF/IDF算法,具体包括:用户目录与标准目录具有相同的关键词集合,利用TF/IDF分别计算所有用户目录及标准目录关键词的权重,组成用户目录及标准目录关键词权重向量,例如,标准目录A的关键词向量A=(x1,x2,x3…xn),其中xn为第n个关键词在标准目录A中的权重,维数即为关键词的个数,是由TF/IDF阈值限定后确定的,阈值越高,关键词个数越少,维数越低,反之亦然。以娱乐人物分类为例,所有词条下的人物简介目录及内容组成一个目录集,人物简介为目录集名,首先计算人物简介下的关键词向量,比如(身高,年龄),再计算所有标准目录的最终关键词,如人物简介及荣誉记录目录总关键词为(身高,年龄,获得,奖),后计算所有用户目录中(身高,年龄,获得,奖)关键词向量的权重。其中,所述权重的具体计算公式如下:Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目 录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);例如,娱乐人物分类下目录总数为50000,词条包含人物简介目录的总次数为300,人物简介目录集下的内容的总词数及身高词数分别为10000和500,身高出现在200个不同词条的目录内容中,但仅出现在150个名称为人物简介的目录下;则身高在人物简介目录集下的权重为:w=(500/10000)*In(50000/200)*sqrt(150/300)=0.19;其中,sqrt(关键字在目录集中出现的目录数/此目录集总目录数)为TF/IDF的调权因子,其可以保证关键词的两种特性:1)保证关键词在目录集中出现的目录次数越大,其代表性越强(最好的情况是一个目录集中所有的同名目录下的内容都包含此关键字);2)保证关键字在不同目录集下权重区分性变大。具体地,针对步骤iii)而言,最终计算所述标准目录关键词权重向量和用户目录关键词权重向量的相似度,例如,计算用户目录中标准目录名称“人物简介”及非标准目录名称“个人信息”的关键词向量间相似度。具体计算公式如下:其中,A为标准目录名称关键词权重向量,B为非标准目录名称关键词权重向量。优选地,根据最终计算得到所述标准目录关键词权重向量和用户目录关键词权重向量的相似度排名,如上文,取排名前两位的最大相似度的标准目录名称,作为用户目录名称初步对应的标准目录名称。进一步地,由最终映射目录确定模块根据具体应用的不同,采用不同的赋权投票方式确定用户目录名称最终映射的标准目录。其中,具体应用包括以下情况:根据百科词条质量分布,若用户目录与目录下的内容不太一致,则赋权时,设定目录内容映射权重高,目录名称映射权重低;若用户目录与目录内容质量均很差,则在投票时,只认为目录名称映射及目录内容映射的最高相似度映射结果相同时,才确定为最终映射的标准目录, 否则为保证准确率认为此目录不与任何标准目录映射。其中,所述赋权,指根据目录名称与目录名称下内容的重要性的比较结果,分别对所述计算用户目录名称与标准目录的相似度结果及用户目录名称下内容与标准目录下内容的相似度结果进行比例赋值。例如,假定目录名称重要性高于目录名称下的内容,则可以对目录名称映射得到的结果乘以1,对目录内容映射得到的结果乘以0.8。其中,所述投票,指从初步得到的相似标准目录中确定最终的相似标准目录。例如,通过用户目录名称映射,得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录c和d相对应,则通过投票得到的最终映射的标准目录为a、b、c和d中最相似的一个;又如,通过用户目录名称映射,仍然得到用户目录名称x与标准目录a和b相对应,通过用户目录内容映射,得到用户目录名称x与标准目录a和c相对应,则通过投票得到最终映射的标准目录为a。更具体地,根据用户目录名称及目录名称下内容的整体质量,确定投票的方式。若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。其中,保准确的投票方式是指通过用户目录名称映射及目录内容映射得到相同的映射结果时,才认为该相同的映射结果为最终映射的标准目录,例如,对于用户目录名称“人物介绍”和标准目录名称“人物简介”,用户目录名称映射及目录内容映射均认为两目录名称相似时,才认为此结果为最终结果,否则认为“人物介绍”目录不与标准目录最终映射。而扩大召回的投票方式是指通过用户目录名称映射及目录内容映射得到映射结果不存在相同,则取相似度较高且高于所设定的阈值的初步映射标准目录为最终映射标准目录。本发明所提供的目录映射关系挖掘装置具有以下优点:通过挖掘目录关联关系,识别并修改词条分类下与标准目录映射的其它目录表述,有效提升词条整体质量。以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1