一种网页信息相关地域的识别方法

文档序号:6492035阅读:173来源:国知局
一种网页信息相关地域的识别方法
【专利摘要】本发明公开了一种网页信息相关地域的识别方法。本方法为:1)建立一区域信息本体,2)提取所爬取的网页信息的元数据信息以及正文内容,并对提取的信息标题和正文内容进行分词;3)对词语中表示处所的地名代词进行解析,判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;4)对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语;5)基于区域信息本体对相对位置区域信息进行解析,得到准确的地名词语;6)基于区域信息本体,对解析后的网页信息进行判断处理,将网页信息归入匹配成功的区域。本发明大大提高了网页信息相关区域识别的准确度。
【专利说明】一种网页信息相关地域的识别方法
【技术领域】
[0001]本发明属于信息【技术领域】,尤其涉及一种对网页中信息相关联的地域进行判断确定的方法,主要应用于互联网信息监控、信息预警、移动搜索等领域中。
【背景技术】
[0002]近年来,食品安全事件诸如瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了极大关注。为进行基于事件的风险预警,这就需要提前发现这些事件的信息。
[0003]随着Internet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交互形成了一个和现实社会有一定的对应、关联关系的虚拟社会。它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
[0004]为利用互联网上的信息进行食品安全事件的风险预警,需要经过一定的过程得到事件相关的信息。其中,获取互联网信息中事件的相关区域是一个非常重要的工作-以此为基础可以确定事件的发生区域-这是食品安全事件预警的基础,这就需要对互联网网页信息中的内容等进行提取、分析以确定食品安全事件信息相关联的区域。
[0005]一般而言,确定网页信息相关联的区域(地理位置),传统的做法需要经过地名识另IJ、消歧、地理区域确定三个环节。其中地名识别的主要作用在于识别出网页信息中所包含的所有地名,为完成地名的识别,一般采用基于地名词典的方法或者自然语言处理中词性标注后命名实体识别的方法;消歧(分辨)的主要作用在于为一个可能存在多种解释的地名确定一个准确的地理位置,为分辨其准确的地理位置,通常采用的方法是建立、计算衡量其流行度的指标数值确定;地理区域确定的主要作用在于确定网页信息所覆盖(关联)的地理区域。尽管采用这些方法在一定程度上能够识别网页信息相关的地理区域,但由于以下情况:不同层次范围内地名的相同、同一个名词可能意味着不同含义(比如地名或人名)、信息描述中往往存在相对位置的叙述方法(比如北京的南方)、信息中存在很多指代的说法、同一信息中可能涉及到多个不同的地名(尤其是不同类别的地名)、以及信息中缩写和非标准语言等情况的存在,同时也由于当前自然语言处理工作的准确度相对较低,使得网页信息的相关地域识别准确度往往比较低。

【发明内容】

[0006]为解决上述的问题,本发明的目的在于提供一种采取特定步骤对网页信息的内容进行分析,从而确定网页信息相关地理区域的方法,从食品安全事件预警的需求出发,这里所指地理区域主要指国家、省级的区域,其他类别的区域可采用类似的方法进行粒度伸缩。方法中借鉴智能系统思路,形成的步骤如下所述。
[0007]1、建立区域信息本体
[0008]为满足食品安全事件信息要素提取的需要,主要按照规范的行政区划建立区域信息本体;同时,针对本体中的每个实例,分别建立了电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度的附加表。
[0009]2、网页信息预处理
[0010]对选定的信息源,采用互联网信息爬取系统对信息源中的网页信息进行爬取,提取其标题、来源、作者、发布时间、网站所在地等元数据及正文内容信息并进行保存;之后对网页信息标题、正文内容,采用分词器对其进行分词,并对可能不是地名的词语予以排除。
[0011]3、地名代词解析
[0012]对网页标题信息、正文信息中可能存在一些诸如本省、本市等无法直接表明确切地理位置的代词词语进行解析。过程中根据地名代词前2L个词语内(不超出整个句子)是否存在合理的地理名词分别采用判断模型进行识别判断(如果指代关系不成立,也将据提取的信息来源等确定地名代词)、或者根据元数据提取过程中得到的信息来源等确定地名代词。
[0013]4、非标准词解析
[0014]对网页信息标题、正文信息中可能存在的一些采用非标准语言形式的地名词语诸如中文文本中出现beijing、bj等进行解析。过程中主要基于预先建立的标准词语和非标准词语对照表通过检索后进行替换的方式完成解析。
[0015]5、相对位置解析
[0016]对网页标题、正文信息中可能存在的一些使用了相对位置表达方式的地名词语诸如中国西南部省份等进行解析。过程中主要基于步骤I中建立的区域信息本体实例及其附加表,对这些相对位置区域信息进行查询和解析,得到准确的地名词语。
[0017]6、地域确定
[0018]对网页信息进行了预处理和相关解析后即可进行信息相关区域的确定工作,此过程中主要包括两个步骤:分别采用模式匹配、机器学习判断模型进行信息相关区域的判断。
[0019]7、本体维护
[0020]在网页信息相关区域的判断过程中,构建的区域信息本体对判断准确率有着重要的影响。从持续提高方法效率的角度出发,定期对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
[0021]本发明为保证网页信息相关区域判断识别的准确、高效,建立了区域信息本体,建立过程中主要按照规范的行政区划进行,同时,针对每个实例,分别建立了电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度的附加表。
[0022]本发明为了提高网页信息相关区域识别判断的准确度,首先对网页信息进行预处理后对可能是地名的相关词语进行相关解析以得到明确的词语,之后通过模式匹配和判断模型判断等方式判断信息是否可归入目标区域,由此确定网页信息相关区域。
[0023]本发明为了进行地名代词解析、相对位置解析等后续的工作,对爬取的网页信息进行了网页标题、信息来源等元数据提取和保存,之后对标题、正文信息进行分词,并将可能不是地名的词语进行了排除。[0024]本发明为了提高网页信息相关区域判断确定的准确度,对于预处理过后的网页信息进行了地名代词解析、相对位置解析、非标准词语解析等处理,从而解决了地名代词、相对位置、非标准地名词语等所带来的网页信息相关区域判断准确度低的问题。
[0025]本发明为了提高网页信息相关区域判断确定的准确度,过程中对网页标题信息、正文信息中的代词词语诸如本省、本市等无法直接表明确切地理位置的词语进行解析。解析过程中根据地名代词前2L个词语内是否存在合理的地理名词分别采用判断模型进行识别判断、或者根据信息来源元数据等确定地名代词。
[0026]本发明为了提高网页信息相关区域判断确定的准确度,过程中对网页信息标题、正文信息中的一些采用非标准语言形式的地名词语诸如中文文本中出现beijing、bj等进行解析。解析过程中主要基于建立的标准词语和非标准词语对照表通过检索后进行替换的方式完成解析
[0027]本发明为了提高网页信息相关区域判断确定的准确度,对网页标题、正文信息中的一些使用了相对位置表达方式的地名词语诸如中国西南部省份等进行解析。过程中主要基于事先建立的区域信息本体实例及其附加表对相对位置词语进行查询和解析。
[0028]本发明在网页信息相关区域判断确定过程中,依次采用了针对标题信息的模式匹配方法、针对正文信息的模式匹配方法、基于机器学习的判断模型进行判断的方法进行信息相关区域的判断。其中,在基于机器学习判断模型进行判断的方法中,通过集成的区域判断模型进行信息相关区域判断,避免了同名、同词异义(比如通常词作为地名)等所带来的区域判断不准确问题。
[0029]与现有技术相比,本发明的优点:
[0030]本发明对爬取得到的互联网信息采取预处理、代词解析、相对位置解析、非标准词解析等处理工作后,采取了结合模式匹配和基于机器学习判断模型的方法进行信息相关区域的判断识别。方法中解决了非标准地名词语、地名代词、相对位置等带来的网页信息相关区域判断准确度低的问题;也避免了同名、同词异义(包括通常词作为地名等)所带来的区域判断不准确问题,从而提高了网页信息相关区域识别的准确度。由于目标区域可以设定多个,所以也解决了网页信息相关区域的多指向问题;通过对特定层次的目标区域进行设定和建立判断模型等,即可实现网页信息在不同层次区域上的判断确定,从而实现了区域判断的粒度伸缩。这为保证食品安全事件信息发现、预警的准确、全面奠定了基础。
【专利附图】

【附图说明】
[0031]图1 一种网页信息相关地域的识别方法流程图;
[0032]图2区域信息本体附加表示意图;
[0033]图3网页信息相关区域判断方法示意图;
[0034]图4基于机器学习模型的网页信息相关区域判断方法示意图。
【具体实施方式】
[0035]本发明的【具体实施方式】如图1所示。下面详细叙述各步骤。
[0036]1、建立区域信息本体
[0037]考虑到食品安全事件的特点以及后期事件信息提取、追踪等分析的需要,在食品安全事件区域信息本体的构建过程中,主要按照规范的行政区划进行。比如区域总体上可分为五个类别,分别是亚细亚洲、欧罗巴洲、阿非利加洲、亚美利加洲、大洋洲;对每个类别可以再次进行细分,比如亚细亚洲可分为东亚、西亚、南亚、北亚、中亚、东南亚六个类别;以此类推,直至分类到不能再分为止,即为一个最底层的元素(即实例)。另外,针对本体中的每个实例,分别建立了电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑)、邻近域(东、南、西、北等方向的相邻同级域)、所在方位(相对上一级而言,比如中部、南部等)六个纬度的附加表(如图2所示),以备后续信息处理过程中使用。
[0038]2、网页信息预处理
[0039]对所选的信息源,采用互联网信息爬取系统(比如基于有限范围爬取技术的爬取系统)对信息源中的网页信息进行爬取。对爬取的网页信息,提取其标题、来源、作者、发布时间、网站所在地等元数据信息并保存,同时提取网页信息的正文内容进行保存。
[0040]对提取的网页信息标题、正文内容,采用分词器对其进行基于统计和词典(包括依据步骤I建立的本体形成地名词典)的分词(并记录词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置等特征参数),之后采用基于词表(词表事先整理形成并定期更新,其中包括同时可作为人名和地名的词语、有其他特定含义但同时也可能是地名的词语等;比如吴忠-宁夏回族自治区的一个市,同时可为人名;方正-黑龙江省的一个县,同时可为方正公司;但注意包含了特定后缀的词语比如吴忠市则不予排除)的匹配方法对可能不是地名的词语予以排除。
[0041]3、地名代词解析
[0042]经过分词的网页标题信息、正文信息中可能存在一些表示处所的代词,比如本省、本市、该省等。由于这些代词字面本身无法直接表明确切地理位置,因此需要对其进行解析。
[0043](I)为进行地名代词的解析,首先建立代词解析的滑动窗口,滑动窗口长度L事先确定(比如通过分析地名代词和其先行词之间的词数分布状况后确定)。
[0044](2)之后选择地名代词前L个词语内是否存在合理的地理名词(比如本省对应的辽宁等,基于事先建立的规则判断),如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤(3)。
[0045](3)如果L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则选择地名代词前2L个词语内(不超出整个句子,比如用句号标识)是否存在合理的地理名词,如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤⑷。
[0046](4)如果2L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
[0047]判断模型的建立方法:收集整理包含地名代词等的网页信息形成样本集合,并对样本集合信息中每一地名代词和其之前2L(L长度同步骤(I))个词语内的地理名词(不超出句子范围)之间的指代关系进行标注,作为类别变量;对样本集合信息中每一地名代词和其之前2L(L长度同步骤(I))个词语内的地理名词(不超出句子范围)之间的关系提取相关数据,建立信息样本关于此对地名代词和地理名词之间关系的特征向量:包括地理名词后缀(后缀即代表地名或者具有地名特征,比如“新疆维吾尔自治区”中的“自治区”)长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(词数除以文本长度)等;之后选择机器学习方法(比如svm)基于上述的样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型。
[0048]基于判断模型对地名代词和地理名词之间是否存在指代关系进行判断的方法是:首先提取地理名词和地名代词之间关系的相关数据形成特征向量,提取的数据具体包括地理名词后缀长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(均值除以文本长度)等。之后基于上述建立的判断模型进行识别判断,并根据判断结果确定地名代词和地理名词之间的指代关系是否存在。
[0049]4、非标准词解析
[0050]经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了一些非标准的语言形式,如中文文本中出现beijing、bj等。对此,基于建立的标准词语和非标准词语对照表(事先建立并定期更新),通过查询后进行替换的方式对非标准的地名词语形式进行解析。
[0051]5、相对位置解析
[0052]经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了相对位置的表达方式,比如中国西南部省份等。同样的,这些语言表达方式也没有明确的地名名称。为解决此问题,基于步骤I中建立的区域信息本体实例及其附加表,对这些相对位置区域信息进行查询和解析,得到准确的地名词语(比如对中国西南部省份,结合建立的区域信息本体,首先查找到中国所属的省份名称,并对每个所属的省份查询其所在方位纬度的附加表,将所有所在方位为西南的省份提取出来,据此替代中国西南部省份,完成解析)。
[0053]6、地域确定
[0054]对网页信息进行了预处理和相关解析后即可进行信息相关联区域的确定工作,此过程中主要包括两个步骤:分别采用模式匹配、机器学习判断模型进行信息相关区域的判断(如图3所示)。
[0055]区域确定的目标在于识别信息相关区域,为食品安全事件信息的发现提供区域基础。综合考虑准确性、计算量和可操作性等问题,此过程中首先采取了模式匹配的方法进行。这里面需要考虑两个问题:信息范围、匹配规则。关于匹配规则,基于建立的区域信息本体,过程中主要考虑部分本体实例名称、属性等,具体的通过组合这些本体实例的名称、属性等采取模式匹配的方法进行判断;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果对信息的标题采用上述的模式匹配方法处理后,信息可以被归入当前所选的区域(比如北京),则针对此区域的模式匹配处理完毕;否则对该信息的内容采用上述的模式匹配方法针对此区域进行二次模式匹配处理。此过程中遵循宁缺勿滥的原则,尽可能保证识别判断结果的准确度。
[0056]如果经过上述的模式匹配过程,此信息无法归入某一区域,则采用基于机器学习方法建立的区域判断模型进行第三次判断确定。事先建立区域判断模型的过程为:基于整理(同步骤2-5)、标注(是否和某区域相关联)过的网页信息样本集合(事先建立并定期更新),将信息样本的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起:将这些词语按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个特征向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数)。之后,采用机器学习方法(支持向量机等)对每一目标区域建立基于上述五个特征向量的区域判断模型(5个,基于更新的样本集合定期更新模型)。对信息进行第三次判断确定的过程为:将经过步骤2-5处理、解析后但无法归入到某一区域的信息的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起:按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数),并分别对这五个向量采用前述建立的五个区域判断模型进行检测判断,并对检测判断的结果进行加权计算(权数按照网页信息中每个类别中词语频数之和除以五个类别中词语频数之和的方法确定),如果加权计算结果大于事先设定的阈值,则此信息即可归入此区域;否贝U,则此信息不能归入此区域(如图4所示)。
[0057]7、本体维护
[0058]在网页信息相关区域的判断过程中,构建的区域信息本体对判断准确率有着重要的影响。因此,考虑到互联网信息、区域所属关系等的变化特点,从持续提高方法效率的角度出发,需要定期对信息相关区域判断过程、结果进行评估,并对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
[0059]由此,完整的实现了对网页信息相关联区域进行比较完全、准确的判断的全过程。方法中首先对网页信息进行预处理后对可能是地名的相关词语进行相关解析以得到确定的地名词语,之后通过模式匹配和判断模型(事先针对特定目标区域建立)等方式判断信息是否可归入目标区域的方法,确定网页信息的相关区域。方法中解决了非标准地名词语、地名代词、相对位置等带来的网页信息相关区域判断准确度低的问题;也避免了同名、同词异义(比如通常词作为地名)所带来的区域判断不准确问题;由于目标区域可以设定多个,所以也解决了网页信息所属区域的多指向问题;最后,通过对特定层次的目标区域进行设定和建立判断模型等,即可实现网页信息在不同层次区域上的判断确定,从而实现了区域判断的粒度伸缩。总体上,本发明采取多种措施保证了网页信息相关区域判断识别的准确度,从而为后续食品安全事件信息要素的挖掘奠定了基础。
[0060]值得说明的是,本发明不仅可用于食品安全事件区域信息要素的发现,也可用于其它的任何需要对网页信息相关区域进行判断识别的领域中。
【权利要求】
1.一种网页信息相关地域的识别方法,其步骤为: 1)按照行政区划建立一区域信息本体,并对本体中的每个实例分别建立一附加表; 2)提取所爬取的网页信息的元数据信息以及正文内容,并采用分词器对元数据信息中的信息标题和正文内容进行分词; 3)对经过分词所得词语中表示处所的地名代词进行解析,用一判断模型判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词; 4)基于标准词语和非标准词语对照表对经过分词所得词语中非标准地名词语进行解析,将非标准词语替换为标准词语; 5)基于所述区域信息本体实例及其附加表,对经过分词所得词语中的相对位置区域信息进行解析,得到准确的地名词语; 6)基于区域信息本体中的本体实例名称、属性采用模式匹配方法对步骤3)、4)、5)解析后的网页信息进行处理,将网页信息归入匹配成功的区域; 其中,所述判断模型的建立方法为:将包含地名代词的网页信息形成一样本集合,并对样本集合中地名代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立地名代词和其之前的地理名词之间关系的特征向量:然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型; 其中,判断地名代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算地名代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定地名代词和地理名词之间的指代关系是否存在。
2.如权利要求1所述的识别方法,其特征在于所述元数据信息包括:网页的标题、来源、作者、发布时间、网站所在地 ;所述附加表的内容包括:电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度。
3.如权利要求2所述的识别方法,其特征在于步骤2)中采用分词器对提取的信息标题和正文内容进行分词的方法为:采用分词器对提取的信息标题和正文内容进行的分词,并记录分词所得词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置。
4.如权利要求1或2或3所述的识别方法,其特征在于首先建立一可疑地名词表,记录可用作其他名称的地名,然后用所述可疑地名词表对步骤2)分词所得词语进行匹配,滤除匹配的词语;其中,如果匹配的词语具有代表地名的后缀,则保留该词语。
5.如权利要求1所述的识别方法,其特征在于构成所述特征向量的分量包括:地理名词后缀长度、地理名词和地名代词之间的距离、地理名词距离文本开始的相对距离、地名代词距离文本开始的相对距离、地理名词距离句子开始的相对距离、地名代词距离句子开始的相对距离、地理名词距离句子结束的相对距离、地名代词距离句子结束的相对距离。
6.如权利要求2所述的识别方法,其特征在于对经过分词所得词语中表示处所的地名代词进行解析的方法为: 61)建立一代词解析的长度为L的滑动窗口; 62)选择地名代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤 63); 63)选择地名代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤64); 64)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
7.如权利要求6所述的识别方法,其特征在于在步骤62)中,如果地名代词前L个词语内存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词;在步骤64)中,如果地名代词前2L个词语内存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词。
8.如权利要求2所述的识别方法,其特征在于基于区域信息本体中的本体实例名称、属性采用模式匹配方法对步骤3)、4)、5)解析后的网页信息进行处理的方法为:首先基于区域信息本体中的本体实例名称、属性对解析后的网页信息标题进行匹配,如果匹配则将该网页归入所选目标区域;否则对该网页的正文内容进行匹配,如果匹配则将该网页归入目标区域。
9.如权利要求8所述的识别方法,其特征在于如果某一网页无法归入目标区域,则基于事先建立的区域判断模型对该网页进行第三次判断确定:首先将无法归入到目标区域的网页的标题、内容词语综合在一起,然后按照行政地名、电话区号、邮政编码、简称、名胜五个类别进行归类组成五个向量,并分别对这五个向量采用所建目标区域判断模型进行检测判断,并对检测判断的结果进行加权计算,如果加权计算结果大于事先设定的阈值,则该网页归入目标区域;否则,则该网页不能归入目标区域;其中,建立区域判断模型的方法为:建立一网页信息样本集合并对网页进行标注,将网页信息样本的标题、内容词语综合在一起,然后按照行政地名、电话区号、邮政编码、简称、名胜五个类别进行归类组成五个特征向量;然后采用机器学习方法对 所选区域建立基于上述五个特征向量的区域判断模型。
【文档编号】G06F17/30GK103853738SQ201210500929
【公开日】2014年6月11日 申请日期:2012年11月29日 优先权日:2012年11月29日
【发明者】杨风雷, 黎建辉, 崔建业, 李晓东, 周园春, 归文胜, 汪海燕, 杨俊峰 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1