一种产品参数获取系统和方法

文档序号:6483956阅读:98来源:国知局
专利名称:一种产品参数获取系统和方法
技术领域
本发明涉及一种产品参数获取系统和方法,尤其是涉及一种面向 领域的产品评论中自动获耳又产品各项参tt的系统和方法。
背景技术
目前,从产品评论中自动获取产品参数已经有了一些研究,主要有两种方法基于词频统计的方法和基于规则的方法。基于词频统计的方法,主要是通过统计评论中各个词或短语出现 的频率,将出现频率较高的名词或名词短语作为备选的产品参数,并 通过一些去噪规则去掉一些噪音。现有的基于词频统计的方法,前才是 假设是出现频率高的才可能是产品参数,但是有些时候评论数据中可 能会存在出现频率很低的产品参数,这样利用基于词频统计的方法就 获取不到这些低频的参数了。而且通过去噪规则处理以后,得到的产 品参数中仍然会存在大量的噪音。基于规则的方法,主要是通过事先手工的设定一些获取规则,然 后将这些获取规则应用到用户提交的产品评论中,获取满足规则的词 或短语,作为产品的参数。基于规则的方法比较简单,最大的缺陷是 这些事先设定的规则不能跨领域使用,不同类的产品需要不同的获耳又 规则。现有的方法存在很大的应用缺陷,不是满足不了跨领域的需求, 就是达不到较高的召回率。发明内容本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出 一种一种产品参数获取系统和方法。在一个方面中,根据本发明的产品参数获取系统包括目标评论 词频统计单元,用于统计目标评"i仑中各个名词或名词词组出现的频率 并排序,并得到一个词表;产品评^r词频统计单元,用于统计词表中 的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;相关度计算单 元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计 结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的 词作为结果表中的产品参数;表达模式抽取单元,用于抽取结果表中 的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品 参数表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这 些表达模式来找到那些隐藏的出现频率不高的产品参数词。在这个方面中,其中利用以下公式来计算词表中每个词的相关度/at w,在这个方面中,其中表达模式抽取单元进一步包括检查模块, 用于对包含结果表中的某个词的每条目标评论句子进行检查;提取模 块,用于提取从该词开始到周围最近的形容词的这部分句子片段以作 为该词在该句子中的表达才莫式。在这个方面中,其中匹配单元进一步包括查找模块,用于在表 达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该 表达模式相匹配的评论;新参数词获取模块,用于在查找到匹配评论 的情况下从匹配的评论中得到新的产品参数词;以及新参数词添加模块,用于在结果表中不存在该新参数词的情况下将该新参数词加入到 结果参数表中。在另一个方面中,根据本发明的产品参数获取方法包括A、统计B、 统计词表中的每个词在不同领域内的产品评论的出现频率并记录, 同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;C、 利用步骤A和B的统计结果来计算词表中每个词的相关度,并且 将相关度大于某个设定值的词作为结果表中的产品参数;D、抽取结果 表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个 产品参数表达模式表;E、通过在目标评论句子中匹配这些表达模式来 找到那些隐藏的出现频率不高的产品参数词。在这个方面中,其中利用以下公式来计算词表中每个词的相关度D04 (吗=在这个方面中,其中步骤D进一步包括对包含结果表中的某个 词的每条目标评论句子进行检查;提取从该词开始到周围最近的形容 词的这部分句子片段以作为该词在该句子中的表达模式。在这个方面中,其中步骤E进一步包括在表达模式表中从出现 频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的 评论;在查找到匹配评论的情况下从匹配的评论中得到新的产品参数 词;以及在结果表中不存在该新参数词的情况下将该新参数词加入到 结果参数表中。通过本发明,可以有效的支持跨领域的产品参数词获取。通过借 助不同领域的产品评论数据,并且能够自动的获取已有产品参数的表达模式,而不需要人为来设定该领域内的表达规则,可以有效的支持 跨领域的产品参数获取,同时又保证了较高的效率。同时,本发明通过限制候选词的相关度提高去噪的效率,使结果更加准确;并且通过 获取已经得到的产品参数的表达模式,用这些模式可以获取更多的隐 藏的产品参数,提高了召回率。


结合随后的附图,从下面的详细说明中可显而易见的得出本发明 的上述及其他目的、特征及优点。在附图中 图1给出了目标评论数据的一个示例; 图2给出了表达模式表的一个示例; 图3给出了根据本发明的产品参数获取方法的流程图; 图4给出了根据本发明的产品参数获取系统的方框图; 图5给出了根据本发明的表达模式抽取单元的详细方框图; 图6给出了根据本发明的匹配单元的详细方框图; 图7给出了能够实施本发明的一个示例环境的示意图。
具体实施方式
为了更全面地理解本发明及其优点,下面结合附图及具体实施例 对本发明做进一步详细地说明。首先,本发明给定的是一系列具体产品的用户评论信息,作为文 本格式存储。图1是目标评论数据的一个实例说明,其中下划线标出的那些词 就是要获取的产品参数词。对于任意给定的一个具体产品名称而言, 该产品名称对应一篇目标评论文本和若干不同领域的产品评论文本。接下来,参考图3,对根据本发明的产品参数获取方法进行说明。如图3所示,根据本发明的产品参数获取方法包括步骤A、 统计目标评-i仑中各个名词或名词词组出现的频率(即词频)并 排序,并得到一个词表。这些名词和名词短语将作为候选的产品参数 进行后面的方法的筛选。通过这个步骤,可以将目标评论中所出现的 高频的产品参数排在前面。在下文中,将词表中的所有词统称为候选 词。B、 对步骤A中得到的词表中的每个词,借助于不同领域内的产品 评论(这里的不同领域的产品评论是事先给定的输入数据)得到其出 现频率并记录,同时查看出现该词的每个中出现形容词的子句数目并 记录。在这里,所谓"评论子句"是指某条完整评论的用标点分隔的 某个句子片段。如图1中可以看出第一句评论"用完感觉不错,好像 有润色效果,味道也很清淡,推荐。",该句中"用完感觉不错","好 像有润色效果"等子句均为一条"评论子句"。C、 利用步骤A和B的统计结果,根据以下公式来得到词表中每 个词的相关度。将相关度大于某个设定值的词作为结果表中的产品参数 p 。 /F呵"//at 1其中Wi是步骤B所得的词表中的词, "是Wi在目标产品评 论中出现的频率, ,是Wi在不同领域产品评论中出现的频率,^是目标产品评论的条数,!f是不同领域产品评论的条数,(,一是目标评 论中在词^周围存在形容词的产品评论的条数,f是当分母为0时的平 滑参数。式中乘号左边的式子表示当前词附在目标产品评论句子和不同领域的产品评论句子中各自出现的比例的比值,乘号右边的式子表 示附在目标评论句子中周围存在形容词的句子所占的比例。这两个比值是本发明给出的关于每个词与产品参数的相关度。该相关度越大, 表明该词越可能是产品参数。D、 抽取结果表中的每个产品参数在目标产品评论中的表达模式, 并将其记录成一个产品参数表达模式表。具体地说,对于产品参数结果表(步骤C产生的结果表)中的某 个词Wi而言,检查包含该词的每条目标评论句子,提取从该词开始到 周围最近的形容词(包括形容词)的这部分句子片段作为该词在该句 子中的表达模式。表达模式是形如"W+XXXXX"或"XXXXX+W"这样 的形式,"W,,表示一个泛指的产品参数词,"XXXXX"是该产品参数词 到最近的形容词(包含该形容词)的句子片段。例如 一条评论"泡沫相当丰富",假设由前面的步骤得知"泡 沫,,是产品参数词,则其对应的表达模式是"W+相当丰富"。图2给 出的是从图1所给的实例中获取的产品参数词的表达模式实例。E、 通过在目标评论句子中匹配这些表达模式,找到那些隐藏的出 现频率不高的产品参数词。从图2中可以看出表达模式表中每个表达 模式的样式以及该表达模式出现的频率。具体地说,对于表达模式表中的表达模式而言,从出现频率最高 的表达模式开始,查找目标评论句子中是否存在与该表达模式相匹配 的评论,若存在匹配,则得到新的产品参数词并查找结果参数表中是 否存在该新参数词,若已经存在,则跳过;若不存在,则将该新参数 词加入到结果参数表中。这样通过处理所有的表达模式,将新产生的 参数词加入到结果表中,形成最终的产品参数词表。例如已知表达模式"『+相当丰富",而且若目标评论中存在一 条评论"气泡相当丰富,,,则该模式能够匹配这条评论,且得出"气 泡"是一个新词。此外,优选地,根据本发明的方法还可在执行步骤A之前执行步骤利用现有词性标注方法(为现有技术)对目标产品评论进行词性标注,每个标注单元都对应一个词性标记,如名词,形容词等,例如气泡/n相当/d 丰富/a。接下来,参考图4,对根据本发明的产品参数获取系统进行说明。 如图4所示,才艮据本发明的产品参数获耳又系统包括目标评论词频统计单元、产品评i仑词频统计单元、相关度计算单元、表达一莫式抽耳又单元、以及匹配单元。目标评i仑词频统计单元用于统计目标评i仑中各个名词或名词词组出现的频率(即词频)并排序,并得到一个词表。这些名词和名词短语将作为候选的产品参数进行后面的方法的筛选。由此,可以将目标评论中所出现的高频的产品参数排在前面;产品评-沦词频统计单元用于统计词表中的每个词在不同领域内的 产品评论(这里的不同领域的产品评论是事先给定的输入数据)的出 现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子 句数目并记录。统计单元的统计结果来计算词表中每个词的相关度。将相关度大于某 个设定值的词作为结果表中的产品参数。具体地说,根据以下公式来 计算每个词的相关度<formula>formula see original document page 11</formula>表达模式抽取单元用于抽取结果表中的每个产品参数在目标产品 评论中的表达模式并将其记录成一个产品参数表达模式表。具体地说,如图5所示,该表达模式抽取单元进一步包括检查模块和提取模块。检查模块用于对包含产品参数结果表中的某个词Wi的每条目标 评论句子进行检查。提取模块用于提取从该词开始到周围最近的形容词(包括形容词) 的这部分句子片段作为该词在该句子中的表达模式。表达模式是形如"W+XXXXX,,或"XXXXX+w"这样的形式,"w"表示 一 个泛指的产品参 数词,"xxxxx"是该产品参数词到最近的形容词(包含该形容词)的句子片l殳。些隐藏的出现频率不高的产品参数词。具体地说,如图6所示,该匹配单元进一步查找模块、新参数词 获取模块、以及新参数词添加模块。查找模块用于在表达模式表中从出现频率最高的表达模式开始查 找目标评论句子中与该表达才莫式相匹配的评论;新参数词获取^莫块用于在查找到匹配评论的情况下从匹配的评论 中得到新的产品参数词。新参数词添加模块用于在结果参数表中不存在该新参数词的情况 下将该新参数词加入到结果参数表中。此外,优选地,根据本发明的系统还进一步包括词性标注模块, 该词性标注模块用于利用现有词性标注方法对目标产品评论进行词性 标注,每个标注单元都对应一个词性标记,如名词,形容词等,例如 气泡/n相当/d 丰富/a。下面参考图7,对本发明的硬件结构示例进行说明。毫无疑问,图 4-6所示的每个单元或模块都可以用 一个专用硬件来构成,同时这些 块同样也可以用通用信息处理设备来实现。如图7所示,该计算机包括CPU外网单元,其中该单元包含了 CPU、RAM、 ROM、以及输入/输出控制器,并且所有这些部件是透过主机控 制器而互连。该计算机还包括通信接口、存储设备、软盘驱动器、以 及图形控制器。特别地,软盘驱动器可对软盘进行读写,图形控制器 则驱动显示器。CPU依照存储在ROM、 BIOS、以及RAM中的程序来操作,并且 由此控制每一个部分。目标评论和产品评论可通过多种方式输入设备 输入,如光驱,键盘输入或通过网络传输。目标评论和产品评论随后 会被读入存储设备。存储设备还存储供计算机使用的本发明的程序、 应用、OS等等的代码和数据。此后,程序和数据将一皮加载到RAM中 以供CPIH吏用。从上述结构实例中可以看出,任何具有通用计算机功能的硬件都可 以用作本发明需要的硬件。应该指出的是,图7仅示出了用于实施本 发明实施例的硬件结构。相应地,对其他各种结构来说,只要对其可 以应用本发明实施例,那么这些结构都是可4亍的。此外,每一个上述 例示组件未必是本发明的必要组件。另外,本发明还可以使用硬件、 软件、或者软硬件组合来实现。至此,已对本发明进行了描述。通过上述可知,本发明既提高了从 产品评论中自动获取产品参数的准确度,又提高了获取的召回率。本 发明正是通过限制候选词的相关度提高去噪的效率,使结果更加准确, 并且通过获取已经得到的产品参数的表达模式,用这些模式可以获取 更多的隐藏的产品参数,提高了召回率。此外,本发明有效的支持跨 领域的产品参数词获取。通过借助不同领域的产品评论数据,并且能 够自动的获取已有产品参数的表达规则,而不需要人为的设定,可以 有效的支持跨领域的产品参数获取,同时又保证了较高的效率。对于本领域的普通技术人员来说可显而易见的得出其他优点和修述的具体说明及示例性实施例。因此,在不脱离由随后4又利要求及其 等价体所定义的 一般发明构思的精神和范围的情况下,可对其做出各 种小务改。
权利要求
1、一种产品参数获取系统包括目标评论词频统计单元,用于统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表;产品评论词频统计单元,用于统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;相关度计算单元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数;表达模式抽取单元,用于抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。
2、 根据权利要求l的系统,其中利用以下公式来计算词表中每个词 的相关度,=
3、 根据权利要求l的系统,其中表达模式抽取单元进一步包括 检查模块,用于对包含结果表中的某个词的每条目标评论句子进行才全查;提取模块,用于提取从该词开始到周围最近的形容词的这部分句 子片段以作为该词在该句子中的表达模式。
4、 根据权利要求l的系统,其中匹配单元进一步包括查找模块,用于在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;新参数词获取模块,用于在查找到匹配评论的情况下从匹配的评 论中得到新的产品参凄t词;以及新参数词添加模块,用于在结果表中不存在该新参数词的情况下 将该新参数词加入到结果参数表中。
5 、 一种产品参数获取方法包括A、统计目标评论中各个名词或名词词组出现的频率并排序,并得 到一个词表;B 、统计词表中的每个词在不同领域内的产品评论的出现频率并记 录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;C、 利用步骤A和B的统计结果来计算词表中每个词的相关度, 并且将相关度大于某个设定值的词作为结果表中的产品参数;D、 抽取结果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表;E、 通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出 现频率不高的产品参数词。
6、 根据权利要求5的方法,其中利用以下公式来计算词表中每个词 的相关度
7、 根据权利要求5的方法,其中步骤C进一步包括对包含结果表中的某个词的每条目标评论句子进行检查; 提取从该词开始到周围最近的形容词的这部分句子片段以作为该词在该句子中的表达模式。
8、 根据权利要求5的方法,其中步骤E进一步包括在表达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的评论;在查找到匹配评论的情况下从匹配的评论中得到新的产品参数词;以及参数表中。
全文摘要
一种产品参数获取系统和方法,其中该系统包括目标评论词频统计单元,用于统计目标评论中各个名词的词频并得到一个词表;产品评论词频统计单元,用于统计每个词在产品评论的词频,同时查看出现该词的中出现形容词的子句数目;相关度计算单元,用于计算词表中每个词的相关度;表达模式抽取单元,用于抽取每个产品参数在目标产品评论中的表达模式并将其记录成表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些出现频率不高的产品参数词。
文档编号G06F17/30GK101576907SQ200910078790
公开日2009年11月11日 申请日期2009年3月3日 优先权日2009年3月3日
发明者军 何, 刘红岩, 杜小勇, 慧 杨, 巍 魏 申请人:杜小勇
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1