一种提取观点的方法和设备的制造方法_2

文档序号:9471475阅读:来源:国知局
有 线或无线连接(例如,Wi-Fi、LAN、WAN、因特网等)与APP服务器交互的任何交互设备,包 括但不限于:现有的、正在研发的或将来研发的、台式计算机、膝上型计算机、移动终端(包 括智能手机、非智能手机、各种平板电脑)等。此处的服务器仅是现有的、正在研发的或将 来研发的、能够向用户提供任意一种网络应用服务的设备的一个示例。本发明的实施方式 在此方面不受任何限制。
[0043] 示例忡方法
[0044]下面结合图1~图2的应用场景,参考图3~图4来描述根据本发明示例性实施 方式的用于提取观点的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精 神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可W 应用于适用的任何场景。
[0045] 参见图3,示出了本发明中提取观点的方法一实施例的流程图。例如具体可W包括 如下步骤:
[0046] 301 :从虚拟社区获取用户针对评价对象的评语。
[0047] 互联网技术不断发展,论坛等虚拟社区的规模也越来越大,用户数量不断增多。虚 拟社区中,每天都会产生大量的评语,运些评语针对各种各样的评价对象。评价对象可W是 实际产品,如汽车,手机W及楼盘等,也可W是虚拟产品,如游戏道具,应用软件W及电影电 视节目等。
[0048] 为了获得用户在虚拟社区中针对某一个评价对象的评价观点,需要从用户在虚拟 社区中大量的评语中提取针对该评价对象的评价观点。商家可W根据用户在虚拟社区中对 评价对象的评价观点,更好的改进产品,提高产品质量。
[0049] 从虚拟社区获取用户针对评价对象的评语,具体实现时,W所述评价对象为关键 词,从虚拟社区的大量评语中获取针对该评价对象的评语。本发明中,一般情况下,获取的 评价对象的评语是汉语表述中完整的语句,即为句号,问号W及叹号等作为完整语句分隔 符之间的内容。举例说明:"我新买了一台电脑,可好用了"。在现有技术中,"我新买了一台 电脑"W及"可好用了 "是两个独立分析的短语。而在本发明中,"我新买了一台电脑,可好 用了 "是一个完整的评语,需要作为一个整体进行分析。
[0050] 在具体实现时,所述方法还包括:对所述针对评价对象的评语进行语句处理,所述 语句处理包括:去掉所述评语中无意义的符号,用逗号代替所述评语中的空格,保留重复出 现的标点中的一个,W及从超过预设阔值的所述评语中输出含有所述评价对象的短句中的 任意一种或多种。
[0051] 由于用户在虚拟社区中发表的评语很随意,用语不规范,需要进行语句处理。在从 虚拟社区获取评价对象的评语后,对所述评价对象的评语进行语句处理,包括W下处理中 的任意一种或多种:
[005引 (1)去掉所述评语中无意义的符号,例如:去掉"~~及等无意义的符号;
[0053] (2)用逗号代替所述评语中的空格,若前一个短句和后一个短句之间中间没有标 点符号,只用空格隔开,则将该空格用逗号代替;
[0054] (3)保留重复出现的标点中的一个,若连续出现多个标点符号,则只保留多个标点 符号中的一个即可;
[00巧](4)从超过预设阔值的所述评语中输出含有所述评价对象的短句,若所述评语的 长度超过预设阔值,则根据标点符号切分语句,输出含有所述评价对象并满足预设阔值长 度的短句。
[0056] 除了上述四种语句处理方法W外,还可W对所述评价对象的评语执行其他类型的 语句处理,例如:删除重复的语句等,运里不再一一寶述。
[0057] 302 :对所述评语进行分词,获得所述评语中每个词的词性。
[0058]对所述评语中的每个词进行分词(wordsegmentation),可W采用现有技术中任 意一种进行分词的方法。具体实现时,可W采用中科院研发的开源ICTCLAS50系统进行分 词,所述ICTCLAS50系统主要使用了词表法和N-最短路径法结合的算法。可W参照中文信 息学报的文献"基于N-最短路径方法的中文词语粗分模型";作者:张华平,刘群。当然,还 可W采用其他的分词方法,运里不再寶述。
[0059] 对所述评语中的每个词进行分词后,需要对所述评语中每个词进行词性标注 (part-of-speechtagging),也可W采用现有技术中任意一种词性标注的方法。具体实现 时,可W采用中科院研发的开源ICTCLAS50系统,所述ICTCLAS50系统主要使用了隐马尔可 夫模型化iddenMorkovmodel,HMM)。当然,还可W采用其他的词性标注方法,运里不再寶 述。
[0060] 303 :根据所述每个词的词性对所述评语进行依存分析,获得所述评语中各个词之 间的依存关系。
[0061] 根据所述评价对象的评语中每个词的词性,对所述评价对象的评语进行依存分 析。在依存句法(dependencegrammar)理论中,句法关联建立起词与词之间的从属关系, 运种从属关系是由支配词和从属词联结而成,处于支配地位的词为支配词(governor),处 于被支配地位的词为从属词(dependency)。"依存"就是指词与词之间支配与被支配的关 系,运种关系不是对等的,而是有方向的。
[0062] 举例说明,如图4所示,支配词在有向弧的发出端,从属词在箭头端,通常说从属 词依存于支配词。如果"北京"是评价对象,那么通过依存关系,可W得到评价观点"北京是 首都"。把评价观点分解成"评价对象+观点词"的话,观点词依存于评价对象,评价对象可 W是评价对象的一个属性,也可W是评价对象本身。通过查找评语中依存于评价对象或者 评价对象的属性的观点词,就可W提取出完整的评价观点。
[0063]对所述评价对象的评语进行依存分析(depen化ncyanalysis),获得所述评语中 各个词之间的依存关系,可W采用现有技术中任意一种进行依存分析的方法。具体实现时, 可W采用斯坦福的开源parser,主要使用了词汇化概率模型(lexicalizedprob油ilistic model)与基于概率的上下文无关文法(prob油ilisticcontext-freegrammar,PCFG)结 合的算法。当然,还可W采用其他的进行依存分析的方法,运里不再寶述。
[0064] 304:根据所述评语中各个词之间的依存关系,从所述虚拟社区的评语中提取用户 对所述评价对象或预设的所述评价对象的属性的评价观点。
[0065] 本发明中所提供的提取观点的方法,按照需求确定一个评价对象,根据所述评价 对象获取预设的所述评价对象的属性的方法包括:
[0066] 根据所述评语中各个词之间的依存关系,获得与所述评价对象为联合关系 (UnitedRelation,UR)的词;
[0067] 将所述评价对象W及所述与所述评价对象为UR的词组成的短语作为所述评价对 象的属性。
[0068] 当一个词语与所述评价对象满足表2所示二元关系(ckpendencyrelation)时, 该词语与所述评价对象满足UR关系,该词语与所述评价对象组成UR关系的短语,即为所述 评价对象的属性。
[0069] 表2UR关系的短语结构
[0070]
[0071]
[0072] 现有技术中,评价对象的属性是技术人员根据统计结果预先配置的,所获得的评 价对象的属性不全面;并且,随着科技的发展,无法及时添加新出现的评价对象的属性,扩 展性差;对于不同的技术领域,评价对象的属性也不完全相同,导致评价对象的可移植性 差。而本发明中,根据针对所述评价对象的语句中各个词之间的依存关系,预先获得所述评 价对象的属性。所获得的评价对象的属性全面,并且还可W获得新出现的评价对象的属性, 针对不同的技术领域获得符合该技术领域的评价对象的属性,提高了评价对象的属性的可 扩展性和可移植性。
[0073] 可选的,从所述虚拟社区的评语中提取用户对评价对象或预设的所述评价对象的 属性的评价观点,包括:
[0074] 判断所述评语是否满足预设的句式;
[0075] 当所述评语满足预设的句式时,根据所述评语中各个词之间的依存关系,判断所 述评语中存在二元关系的词是否满足该预设的句式的二元规则;
[0076] 当所述评语中存在二元关系的两个词满足该预设的句式的二元规则时,从所述虚 拟社区的评语中提取对所述评价对象或预设的所述评价对象的属性的评价观点;
[0077] 其中,所述预设的句式W及该预设的句式的二元规则包括W下任意一种:
[007引第一种:所述预设的句式为:属性A+介词C+属性B+观点D;
[0079] 所述预设的句式的二元规则包括:介词C为否定词或比较词,属性A和属性B的词 性相同,属性B依存于介词C,属性B是介词C的直接宾语,介词C依存于观点D,介词C是 观点D的介词,属性A依存于观点D,属性A是观点D的名词主语或副词状语;
[0080] 第二种:所述预设的句式为:属性A+介词C+属性B+观点D+辅助结构E;
[0081] 所述预设的句式的二元规则为:介词C为否定词或比较词,属性A和属性B的词性 相同,辅助结构E的词性为名词或动名词,属性B依存于介词C,属性B是介词C的直接宾 语,介词C依存于观点D,介词C是观点D的介词,属性A依存于观点D,属性A是观点D的 名词主语或副词状语,辅助结构E依存于观点D,辅助结构E是观点D的直接宾语,属性部分 或副词状语;
[008引第立种:所述预设的句式为:属性A+观点D;
[0083] 所述预设的句式的二元规则为:属性A和观点D是修饰关系;
[0084] 所述修饰关系为:属性A的词性为名词、动名词或方位词,观点D的词性为形容词, 观点D依存于属性A,观点D是属性A的复合名
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1