网络文档信息处理方法及装置的制作方法

文档序号:6572887阅读:143来源:国知局
专利名称:网络文档信息处理方法及装置的制作方法
技术领域
本发明涉及网络文档信息处理方法,属于对互联网信息进行釆集、关联及 处理的技术。
背景技术
随着互联网用户的不断增加,以及各类在线互动媒体的蓬勃发展,网络文档,如出现在电子公告栏系统(Bulletin Board System,筒称BBS)、 个人博客中的大量的网民在线言论等,越来越能体现出大众对于各种社会 现象、商业事件等的普遍看法,因此,这类网络文档逐渐受到各类商业机 构的重^L。现有基于随机采样和问巻调查方式的传统市场调研方法不适用于从在 线々某体上挖掘和分析网民意见。同时,现有面向商业的网络文档处理方法 主要有两类, 一类是由人工完成的,即由自然人对文档进行逐一阅读,然 后进行人工分类。这类方法的缺陷为文档阅读工作量巨大,效率低下, 并且容易遗漏大量文档;第二类为基于关键字的匹配分类,即由计算机程 序基于给定的关键字对文档进行查找匹配,并进行分类。此类方法的缺陷 为单纯的关键字作为分类依据会导致分类结果过于粗糙。并且无法反映 不同分类之间的从属或者关联关系。发明内容本发明要解决的问题是在对互联上网络文档信息的处理速度,文档覆盖 率,以及结果准确性当中寻找一个良好的平衡。 为了解决上述问题,本发明的 一个实施例是提供了 一种网络文档信息处理方法,包^r:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判 断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树 是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合, 所述匹配失见则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对 所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标 识进行类别关联,并记录关联结果。本发明的另 一个实施例是提供了 一种网络文档信息处理装置,包括第一才莫块,用于从互联网上采集网络文档,记录网络文档的文档信息;第二4莫块,根据预定义的规则集树,对第一模块所记录的文档信息进行 匹配;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应 的匹配规则的集合,所述匹配规则中包含要进行匹配的主关键字;第三^t块,用于对第二模块匹配到的主关键字进行标识,即对所述主 关键字及其在文档信息中所处的位置进行记录;第四;f莫块,用于在预定的关联区间内,根据由第二模块标识出的主关 键字所属的类别,对标识进行类别关联,并记录关联结杲。通过本发明,获得了网民在网络文档中对社会现象、商业事件等的评价及 普遍看法,由于上述网络文档信息是通过自动对主关键字的标识及类别进行 关耳关而实现的,因此不受检索范围的限制,提高了网络文档信息采集的效率, 并且准确性更高。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。


图1为本发明实施例1中所述的网络文档信息处理方法流禾呈图;图2为本发明实施例1中所述的类别树凄t据的举例图;图3为本发明实施例1中所述的对主关键字进行标识的方法流程图;图4为本发明实施例2中所述的网络文档信息处理装置的结构示意图。
具体实施方式
实施例1匹配规则本实施例提供了一种网络丈档信息处理方法,如图1所示,包括步骤IOI,从互联网上采集网络文档,记录每个网络文档的文档信息。 其中,网络文档是栺保存在互联网服务器上的在线文本,包括BBS讨论 组、个人博客等的文章。文档信息主要包括元信息(meta data),标题 (subject)及正文(content)。其中,元信息包括该篇网络文档的发布者 (poster)、发布日期(date of post)、发布版面(forum)和发布网站(si te)等。 步骤102,根据预定义的规则集树,对所记录的文档信息进行匹配。 其中,规则集(Ruleset)是指一组限定,只有满足此组限定,才能够认 为在文档中发现了一个类别;规则集结点(Ruleset Tree Node)是指一个特 定规则集和特定类别的捆绑;规则集树(Ruleset Tree)是指按照树状数据 结构组合在一起的一 系列匹配规则的集合,通过类别在现实世界中的从属 关系,相应规则集结点组成的一个树状结构。规则集树的每个结点都是一 个由匹配^L则所定义的类别(Category),每一个类别可以有一个专有的类 别编号。其中,类别是指对应于一个现实世界中的一个语义对象,如某个 具体产品,或者某种属性等。类别主要分为三种产品型类别,属性型类 别及评价型类别。例如,"电脑"属于产品型类别,"质量"属于属性型 类别,"好,,属于评价型类别。其中,评价型类别与产品型类别和属性型 类别的不同之处在于,评价型类别不能够单独出现,它必须与具体的产品 型类别或者属性型类别相关联出现时才有实际意义。类别之间的从属关系, 由该类别所对应的结点在规则集树上的位置及上下邻关系反应。规则集树 及其结点所对应的规则集,由富有经验的研究人员建立,目的是利用已有经^^,突^C单纯的关键字而最大程度地定义类别的语义,并建立类别间的从属关系D如图2所示,为一个由于产品型类别构成的规则集树举例示意图。此 处需要说明的是,图中仅显示了该结点所对应的类别,而并未标出该结点 中的具体匹配规则。从图中可以看出,该产品型类别的规则集树是一个为"Apple"的产品品 牌作为根结点;其下有三个产品,移动设备、计算机和随身听作为子结点; 上述子结点之下又具有具体品牌的产品作为其子结点。例如,移动设备中包 括 "iPhone"品牌;计算机中包括"iMac,,及"iBook"品牌;随身听中包 括以"iPod,,及"iPodNano"品牌。子结点的上一级结点称为父结点,最顶 层结点称为根结点,不可以自定义,最底层结点称为叶结点。类似地,属性 型类别及评价型类别也可以根据类别中具体内容的相互关系組成相应的规则 集树。一条匹配规则包含如下元素,其中主关键字是必需的,邻近匹配规则和 里外邻近匹配规则可选。对匹配规则的匹配是指判断文档信息是否满足给定 的规则集。对一个规则集的匹配可以分解为对主关键字的匹配,对邻近规则 的匹配及对例外邻近规则的匹配。只有当三者同时都匹配成功时,才视为该 MJ'j集匹配成功。如果邻近规则或者例外邻近规则为空,则自动视其匹配成 功。以下进4亍具体i兌明1.主关键字(Keyword):主关键字是一个或者几个能够反映文档信息中文 字所属类别的最主要的特征字符串,帮助在文本中发现类别的一个或者几个 特征字符串。对主关键字的匹配是指当在文档信息中查找至少一个主关键字时,则视
为对该主关4t字匹配成功;否则如果一个都没有找到,则视为主关键字匹配 失败。2. 邻近匹配规则(Nearrute):邻近匹配规则指明了主关键字周围查找必 要特征字符串的方法。邻近匹配规则的最筒表达式如"L10R50(a)"。该表达式仅含一个逻辑 单元,是匹配规则的最基础形式。具体地,表达式"L10R50"定义一个限定 区间,表示在主关健字出现处左IO个字符到向右50个字符之间的一段区间, 10和50都可以被其他正整数替代。a表示要查找的特征字符串。进一步地, 邻近匹配规则和例外匹配规则也可以是由 一 系列逻辑单元通过逻辑表达式和 :括号组合而成的复杂形式。譬如:L10R10(a) OR (L5R5 (b) AND NOT L5R5 (c)), 表示该条匹配规则的匹配条件为左10右10个字符的区间内必须出现a字符 串;或者左5右5个字符的区间内不出现b字符串,并且,其左5右5个字 符的区间内不出现c字符串。对邻近匹配规则的匹配,先针对其中每一个逻辑单元进行匹配,基于它 们的逻辑值,再利用逆波兰式或者基于堆栈的通用表达式算法对整个匹配规 则进行求解,确定该匹配规则是否匹配成功。上述算法可以在大学级别基础 数据结构教材中找到。3. 例夕卜4卩近匹配^见则(Exceptional Near Rule):例夕卜邻近匹配规贝'J主关 键字周围查找必须排除的特征字符串的方法。对例外邻近规则的匹配是指用匹配邻近规则的相同方法进行匹配,结果 取反。即如果最终结果为"真",则匹配失败;结果为"假",则匹配成功。步骤103,根据文档信息中所匹配成功的每一个规则集,对其中主关键字 进行标识(Annotate),记录被标识的主关键字及其在文档信息中所处的位置, 也就是将规则集中的主关键字的出现位置记录下来。具体地,根据所匹配成功的规则集在规则集树中所对应的类别,可以 将上述标识分为产品型标识、属性型标识和评价型标识。具体标识步骤 将在后面进行详细说明。步骤103,根据文档信息中所匹配成功的每一个规则集,对其中主关键字 进行标识(Annotate),记录被标识的主关键字及其在文档信息中所处的位置, 也就是将规则集中的主关键字的出现位置记录下来。具体^k,根据所匹配成功的规则集在规则集树中所对应的类别,可以 将上述标识分为产品型标识、属性型标识和评价型标识。具体标识步骤 将在后面进行详细说明。步骤104,当有不同型的类别所对应的规则集在文档中匹配成功后, 根据预定规则,在预定的关联区间内,根据标识出的主关键字所属的类别, 对标识进4亍类别关联(Association),并记录关联结果。其中,关联区间是指以产品型标识为中心, 一定的字符范围区间,或 者是相邻几句话的区间。具体地,在进行类别关联时,将属性型标识关联 到产品型^^示识;将评价型标识关联到属性型标识。如果在一个产品型标识 的关联区间内出现了属性型标识时,则可以认为该属性型标识与该产品型 标识是相关联的。关联区间大小可以根据以往的经验进行设置及调整。采用上述方法进行类别关联是基于语言局部性假设(Local dependencies)原则,即假i殳人们讨i仑某个主体时,谈到的关于该主体的属 于产品型类别的内容,属于属性型类别的内容,属于评价型类别的内容被 分别谈及的时间间隔较短,反映到文本上,即上述三类文字内容在文本中 出现的位置相隔较近。并且,对于汉语文本而言,按照汉语语法,上述三 类文字内容在文本中的出现位置一般会遵循一定的先后顺序,即通常为产 品类内容最先,属性类内容和评价类内容均位于其后。因此,可以根据三 种标识的位置信息来判它们是否彼此相关联。以下举例说明。在举例中,为便于表达,将符号"B-〉A"表示为将标 i口、 B关联至)j才示识A。假设在一个关联区间内,记录到的文档信息的内容为"诺基亚的N70
的软件《艮丰富"。通过步骤103标识出的主关键字为"诺基亚"、"N70"、"软件,,及"丰富"。其中,诺基亚,,和"N70"属于产品型标识;"软件,,属于属性型标识;"丰富"属于评价型标识。通过本步骤进行类别关联后得到的关联结果为"丰富"—〉"软件,,"丰^f牛,,-〉"N70","诺基亚,, "N70" -〉"诺基亚,, 步骤105,根据各个主关键字所属类别在规则集树中的从属关系对上 述关联结杲进行归约(Reduce),以去掉类别间的冗余的联系。在实际情况中,根据文档信息具体内容的不同,在关联结果中可能存 在以下四种类型的关联关系l)一对一型关联关系。即一个标识唯一关联到另一个标识,可表示为 "A -> B";例如2 )多对一型关联关系。即有多个标识关联到一个标识,可表示为"Al, A2, A3. . . -> B,,;3) —对多型关联关系。即有一个标识关联到多个标识,可表示为"B-> Al, A2, A3 ...";4) 多对多型关联关系。即有多个标识关联到多个标识,可表示为"B1, B2, B3…-> Al, A2, A3…"。在上述四种关联关系中,只有一对一型关联关系才能体现出明确的含 义,因此需要将其他三种关联关系均转化为一对一型关联关系,具体解决 方法如下对于多对一型关联关系,可以将其拆分成多个独立的一对一型关联关 系。例如,假设有一个多对一型关联关系为"屏幕","软件,,-〉"诺 基亚,,。可以将其拆分为"屏幕,,-〉"诺基亚"及"软件,,-> "诺基亚" 这两个一对一型关联关系。
对于一对多型关联关系,可以根据这些标识相应的主关键字在规则集 树数据中的从属关系,将其中关联到父结点关键字的关联关系删除。例如,在步骤104所举的例子中,有一个一对多型关联关系为"软件"-> "N70"、 "i若基亚",其中, 一个属性类标识同时关联到两个产品类标识,这两个 产品类标识所对应的类别分别为"N70"和"诺基亚"。在产品类的规 则集树中可以查询得到这两个类别的从属关系为"诺基亚,,是"N70"的 父结点。因此将关联关系"软件"-> "诺基亚"从该一对多型关联关系 中删除。归约后的关联结果为 "丰富"-> "软件" "软件,,-> "N70" "N70" -〉 "i若基亚"对于多对多型关联关系,可以先根据上述方法将其转换为 一对多型关 联关系,然后再转换为一对一型关联关系。经过归约后的关联结果具有了通畅的语义,可以将这些关联结果输入 数据库,并通过电子表格(Excel)、透视表(Pivot Table)或者统计产品及 月良务解决方案(Statistical Product and Service Solutions,筒称SPSS) 等数据处理统计软件生成报表或者图表。通过这种方式,可以获得大量网 民对某些事件的普遍看法,例如在一定时期内,对某种特定产品的特定 属性、正负评价等的讨论量,或者在一段时间内这种讨论量的增长变化。以下对步骤103中所述的对文档信息中的主关键字进行标识的步骤进行 详细"^兑明。如图3所示,包括步骤103A,根据文档信息中的元信息判断该文档信息是否为所需信息, 是则执4亍步骤103B,否则结束对该文档信息的处理过程。由于文档信息中的元信息包括网络文档的发布者、发布日期、发布版面和发布网站等信息,因此根据元信息可以很快地判断出该文档信息是否是所需要的所需信息。例如,当需要收集有关手机行情的信息时,如果判
断出该文档信息是由某毫不相关的网站发布的,则说明该文档信息中记录 的内容不可能与手机行情有关,因此不再对该文档信息执行后续的标识步 骤,从而才是高了信息收集和处理的效率。通常地,通过元信息判断是否对文档信息扭J亍才示识步骤的方法可以^皮称为元规则(Meta rule)。但此处需要说明,如果通过其他方法可以预先得知该文档信息为所需 信息,例如,仅记录某一相关主题的网络文档的文档信息,则本步骤也是 可以省略的。步骤103B,在文档信息中的查找主关键字。其中,主关键字是一个或 者几个能够反映文档信息中文字所属类别的最主要的特征字符串。例如, 可以将某手机型号"N70"作为主关键字。步骤103C,在主关键字前后的预定范围内查找必要特征字符串,若查 找成功则:汰行步骤103D;否则返回步骤301B,继续在该文档信息中查找下 一个主关键字。其中,必要特征字符串是指必然与主关键字在一定范围内同时出现在 文档信息中的字符串,因此可以根据必要特征字符串与主关键字的紧密程 度,预先^:置一个查找范围,若在该预定范围内未查找到必要特征字符串, 则说明该主关键字并不是所需要收集的所需信息,而只是恰巧在字面上与 主关键字相同。例如,假设需要收集有关型号为"L5R5"的诺基亚手机的 相关信息,则当"L5R5"被记录为主关键字后,还需要在其前后各5个字 符区间内查找"诺基亚"或者"Nokia"这两个必要特征字符串,以避免该 主关键字是指其他品牌的手机型号。上述这种在主关键字周围查找必要特 ^正字符串的方法也可以被称为邻近少见则(Near rule)。步骤]03D,在主关键字前后的预定范围内查找例外特征字符串,若未 查找到,则执行步骤103E,对该主关键字及其在文档信息中所处的位置进 4亍记录,乂人而完成对该主关键字的标识;否则返回步骤301B,继续在该丈 档信息中查找下一个主关键字。 其中,例外特征字符串是指必写不会与主关键字在一定范围内同时出 现在文档信息中的字符串。例如,假设所关心的内容为"索尼"牌的电视 机或迷你音响等电子产品,但并不关心"索尼爱立信"牌的手机,则当"索尼"或者"Sony"作为主关键字时,如果在该主关键字左右各10个字符区间 内出现"爱立信"或者"Ericsson"这两个例外特征字符串时,说明该主关 键字不是所需收集的主关键字,因此不对其进行标识。上述这种在主关键 字周围查找例外特征字符串的方法也可以被称为例外邻近规则 (Exceptional near rule)。具体地,完成对某个主关键字的标识后,标识内容中可以包括主关键 字(Keyword)、所应用的规则编号(Rule Id)、主关键字在文档信息中的起点 位置(Start)及终点位置(End)等。只要标识内容不完全相同,则可以认为进 行的是不同标识过程。例如,假设从网络文档中记录到的文档信息为"诺 基亚N70不仅是一款设计出众的智能手机,更可堪称是您家庭的相片博物 馆,,。当需要收集有关"N70"型号的手机时,通过上述标识方法,可以将主 关键词"N70"标识出来。其中,"N70"是产品类标识。用上述同样的步骤, 可以将上述文档信息中的属性类标识,如"设计",及评价类标识,如"出 众"等主关键字标识出来。通过本实施例所述方法,获得了网民在网络文档中对社会现象、商业 事件等的评价及普遍看法,由于上述网络文档信息是通过自动对主关键字 的标识及类别进行关联而实现的,因此不受检索范围的限制,提高了网络 文档信息采集的效率,并且准确性更高。 实施例2本实施例提供了一种网络文档信息处理装置,如图4所示,该网络文档 信息处理装置10包括第一模块ll,第二模块12,第三模块13及第四模 块14,其工作原理如下第一模块11从互联网上采集网络文档,记录每个网络文档的文档信息。
其中,文档信息主要包括元信息,标题及正文。其中,元信息包括该篇网 会备文档的发布者、发布日期、发布版面和发布网站等。第二模块12根据预定义的规则集树,对第一模块11所记录的文档信息 进行匹配;其中,所述规则集树是指按照树状数据结构组合在一起的类别及 相应的匹配MJ'j的集合,所述匹配规则中包含要进行匹配的主关键字;第三模块13对由第二模块12匹配到的文档信息中的主关键字进行标识, 记录被标识的主关键字及其在文档信息中所处的位置。具体标识步骤如图3 及步骤103A至步骤103E所述,此处不再赘述。
第四模块14在预定的关联区间内,根据在第三模块13中标识出的主 关键字所属的类别,对标识进行类别关联,并记录关联结果。其中的关联 区间大小可以根据以往的经验进行设置及调整。
另外,如果第四模块14记录的关联结果中包括多对一型、 一对多型或者 多对多型关联关系,则该网络文档信息处理装置10还可以进一步包括第五 模块15。其工作原理如下第五模块15根据第三模块13所标识的关键字所属类别在预定义的规 则集树中的从属关系,对第四模块14中的关联结杲进行归约。将其中的多 对一型、 一对多型及多对多型关联关系均归约为一对型关联关系,以使关联 结果具有通畅的语义。具体的归约方法可以参考实施例1中的步骤105,此处 不再赘述。通过本实施例所述装置,获得了网民在网络文档中对社会现象、商业 事件等的评价及普遍看法,由于上述网络文档信息是通过自动对主关键字 的标识及类别进行关联而实现的,因此不受检索范围的限制,提高了网络 文档信息采集的效率,并且准确性更高。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤 可以通过禾呈序指令相关的硬件来完成,前述的程序可以存储于一计算机可读 取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述
的存储介质包括R0M、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。 最后所应^兑明的是,以上实施例仅用以说明本发明的技术方案而非限制, 尽管参照4交佳实施例对本发明进行了详细说明,本领域的普通技术人员应当 理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技 术方案的精神和范围。
权利要求
1、一种网络文档信息处理方法,其特征在于包括根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合,所述匹配规则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。
2、 根据权利要求1所述的网络文档信息处理方法,其特征在于所述文档 4言息包4舌网络文档的元信息、标题及正文。
3、 才艮据;f又利要求2所述的网络文档信息处理方法,其特征在于对所述文 档信息进行匹配之前还包括根据所述文档信息中的元信息判断该文档信息是否为所需信息,是则对 规则集树进行匹配;否则结束对该文档信息的处理。
4、 4艮据^又利要求3所述的网络文档信息处理方法,其特征在于对所述文 档信息进行匹配包括根据所述规则集中主关键字对所述文档信息进行匹配; 若匹配成功,则判断所述主关键字是否满足规则集中的邻近匹配规则和/ 或例外邻近匹配规则。
5、 4艮据^又利要求1所述的网络文档信息处理方法,其特征在于所述对标 识进行类别关联包括将属性型标识关联到产品标识;将评价型标识关联到属性型标识。
6、 根据权利要求5所述的网络文档信息处理方法,其特征在于所述记 录关联结杲之后还包括根据各个主关键字所属类别在所述规则集树中的从属关系对所述关联结 果进行归约。
7、 4艮据权利要求6所述的网络文档信息处理方法,其特征在于对所述 关联结杲进行归约包括将所述关联结果中的多对一型关联关系拆分成多个一对一型关联关系。
8、 4艮据权利要求6所述的网络文档信息处理方法,其特征在于对所述 关联结杲进行归约包括根据被标识的所述主关键字在类别树数据中的从属关系,将所述关联结 果中的 一对多型关联关系中关联到父结点关键字的关联关系删除。
9、 根据权利要求6所述的网络文档信息处理方法,其特征在于对所述 关联结果进行归约包括将所述关联结果中的多对多型关联关系拆分成多个一对多型关联关系; 才艮据净皮标识的所述主关键字在类别树数据中的从属关系,将所述一对多 型关联关系中关联到父结点关键字的关联关系删除。
10、 一种网络文档信息处理装置,其特征在于包括第一^f莫块,用于从互联网上采集网络文档,记录网络文档的文档信息; 第二模块,根据预定义的规则集树,对第一模块所记录的文档信息进行 匹配;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应 的匹配规则的集合,所述匹配规则中包含要进行匹配的主关键字;第三4莫块,用于对第二模块匹配到的主关键字进行标识,即对所迷主关 键字及其在文档信息中所处的位置进行记录;第四模块,用于在预定的关联区间内,根据由第二模块标识出的主关键字所属的类別,对标识进行类别关联,并记录关联结果。
11、 根据权利要求10所述的网络文档信息处理装置,其特征在于还包括第五4莫块,用于根据第二模块所标识的关键字的所属类别在第四模块的 类别树数据中的从属关系,对第三模块中的关联结果进行归约。
全文摘要
本发明涉及一种网络文档信息处理方法及装置,其中方法包括根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。通过本发明,由于上述网络文档信息是通过自动对主关键字的标识及类别进行关联而实现的,因此不受检索范围的限制,提高了网络文档信息采集的效率,并且准确性更高。
文档编号G06F17/30GK101158953SQ20071004683
公开日2008年4月9日 申请日期2007年10月8日 优先权日2007年10月8日
发明者余敏玮, 沈佳蓉, 捷 王 申请人:上海聆众商务咨询有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1