一种实现段落维度化描述方法及系统的制作方法

文档序号:6629996阅读:251来源:国知局
一种实现段落维度化描述方法及系统的制作方法
【专利摘要】本发明公开了一种实现段落维度化描述方法及系统,该方法包括:调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联;将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值;段落-维度强弱描述,对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值;将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。本发明提高段落的维度匹配、标注、权重计算等工作的效率。
【专利说明】 一种实现段落维度化描述方法及系统

【技术领域】
[0001]本发明涉及数据网络【技术领域】,尤其涉及一种实现段落维度化描述方法及系统。

【背景技术】
[0002]随着信息技术的飞速发展和因特网的出现,为了适应全球经济一体化、科技竞争日益激烈的趋势,国外迅速发展起来了一种针对竞争环境和竞争对手的信息收集和分析活动——竞争情报,并很快在欧美和日本等西方发达国家的企业中广泛应用。据了解,大多数大型企业都设立了专门机构从事竞争情报管理与利用工作,对企业发展与技术创新中的竞争环境、竞争对手和竞争策略,以及保护知识产权和商业秘密等方面的信息进行长期搜集、跟踪和深入分析研究,在提高企业的市场竞争力和信息快速反应能力等方面取得了显著的效果。目前竞争情报研究活动已由企业拓展到国家、区域和产业的国际竞争力分析和制定实施竞争政策法律的过程中,成为国家、地区和企业增强竞争优势,提高创新能力的重要手段之一。
[0003]目前,随着互联网的发展,个人和企业获得的信息越来越多,但面对如此纷繁复杂的信息,用户往往无法从中提取出真正有效的信息。


【发明内容】

[0004]为了解决【背景技术】中存在的技术问题,本发明提出了一种实现段落维度化描述方法及系统,提高段落的维度匹配、标注、权重计算等工作的效率。
[0005]本发明提出的一种实现段落维度化描述方法,包括以下步骤:
[0006]调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联;
[0007]将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值;
[0008]段落-维度强弱描述,对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值;
[0009]将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。
[0010]优选地,从系统内置维度特征描述库调用已经定义过的语义维度及其特征描述,从自定义维度特征描述库调用客户在特定分析目标下关注的语义维度及其特征描述。
[0011]优选地,所述段落特征进行匹配具体为:WEB页面解析和语义摘要提取;通过分析标签,解析HTML页面,并提取出正文内容。
[0012]优选地,所述段落特征进行匹配具体为:利用HTML规范和基于视觉页面分块技术,提取页面的元信息和正文文本。
[0013]优选地,页面的元信息包括标题、关键字。
[0014]优选地,所述实现段落维度化描述具体为:利用语义分析技术,对篇章每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。
[0015]本发明提出的一种实现段落维度化描述系统,包括:
[0016]关联模块,用于调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联;
[0017]匹配模块,与所述关联模块连接,用于将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值;
[0018]描述模块,与所述匹配模块连接,用于对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值;
[0019]综合模块,与所述描述模块连接,用于将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。
[0020]优选地,还包括:
[0021]内置维度特征描述库,与所述关联模块连接,用于存储已经定义过的语义维度及其特征描述;
[0022]自定义维度特征描述库,与所述关联模块连接,用于调用客户在特定分析目标下关注的语义维度及其特征描述。
[0023]优选地,还包括:
[0024]上下文关系库和段落词汇频率库,与所述描述模块连接,用于向描述模块提供上下文关系及段落词汇频率;
[0025]语义化词汇描述模块,分别与上下文关系库和段落词汇频率库、所述描述模块连接,用于将上下文关系库和段落词汇频率库中的信息转换为语义化词汇,并提供给描述模块。
[0026]本发明中,将用户高频度搜索词与最近搜索词进行排序,并验证最近采集到的数据与之匹配程度,来估算用户对其感兴趣的程度,作为推荐情报和浏览排序的重要参考依据。

【专利附图】

【附图说明】
[0027]图1为本发明实施例提出的一种实现段落维度化描述方法;
[0028]图2为本发明实施例提出的一种实现段落维度化描述的系统。

【具体实施方式】
[0029]如图1所示,本发明实施例提出了一种实现段落维度化描述方法,包括以下步骤:
[0030]步骤101,从系统内置维度特征描述库调用已经定义过的语义维度及其特征描述,从自定义维度特征描述库调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联。
[0031]步骤102,将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值。其中匹配计算例如,WEB页面解析和语义摘要提取,Web页面解析即通过分析标签,解析HTML页面,并提取出正文内容;或利用HTML规范和基于视觉页面分块技术,提取页面的元信息(如标题、关键字等)和正文文本,有效避免无关信息的干扰。语义摘要一方面是为了便于客户浏览信息而做的全文摘要;另一种是搜索结果的信息摘要;第一类是以尽量涵盖文档主要信息为出发点,第二类在第一点的前提下还要考虑用户搜索词的密度等问题。
[0032]步骤103,段落-维度强弱描述,对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复(去重复)的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值。
[0033]步骤104,将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。例如,利用语义分析技术,对篇章每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数(如400字)为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。搜索结果的文档摘要实现上不同之处在于增加搜索词(包括概念接近词)的密度这个约束条件。
[0034]如果在一句话或一段话中,同一个意思前后重复提及,就会使语言重复,影响表达的效果。有时,疑问代词或问句本身就有某种意思了,但句子中又叙述这一层意思,致使语义重复。例如“会活动的”和“站起来”意思重复;“当你把书打开的时候”一句可以用较少的字“把书打开”表达;“跃然纸上,栩栩如生”,当然“很吸引人”,所以与“很吸引人”重复。修改后词语减少了,但意思并没有变,文字却简洁了很多。又例如“什么”已包含疑问的意思,和“不知”语义重复。语义矫正的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。
[0035]如图2所示,本发明实施例提供了一种实现段落维度化描述系统,包括:关联模块10,用于调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联;匹配模块20,与所述关联模块10连接,用于将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值;描述模块30,与所述匹配模块20连接,用于对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值;综合模块40,与所述描述模块30连接,用于将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。
[0036]进一步还包括:内置维度特征描述库11,与所述关联模块10连接,用于存储已经定义过的语义维度及其特征描述;自定义维度特征描述库12,与所述关联模块10连接,用于调用客户在特定分析目标下关注的语义维度及其特征描述。
[0037]进一步还包括:上下文关系库和段落词汇频率库31,与所述描述模块30连接,用于向描述模块提供上下文关系及段落词汇频率;语义化词汇描述模块32,分别与上下文关系库和段落词汇频率库31、所述描述模块30连接,用于将上下文关系库和段落词汇频率库中的信息转换为语义化词汇,并提供给描述模块。
[0038]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种实现段落维度化描述方法,其特征在于,包括以下步骤: 调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联; 将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值; 段落-维度强弱描述,对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值; 将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。
2.根据权利要求1所述的实现段落维度化描述方法,其特征在于,从系统内置维度特征描述库调用已经定义过的语义维度及其特征描述,从自定义维度特征描述库调用客户在特定分析目标下关注的语义维度及其特征描述。
3.根据权利要求1所述的实现段落维度化描述方法,其特征在于,所述段落特征进行匹配具体为:WEB页面解析和语义摘要提取;通过分析标签,解析HTML页面,并提取出正文内容。
4.根据权利要求1所述的实现段落维度化描述方法,其特征在于,所述段落特征进行匹配具体为:利用HTML规范和基于视觉页面分块技术,提取页面的元信息和正文文本。
5.根据权利要求4所述的实现段落维度化描述方法,其特征在于,页面的元信息包括标题、关键字。
6.根据权利要求2所述的实现段落维度化描述方法,其特征在于,所述实现段落维度化描述具体为:利用语义分析技术,对篇章每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。
7.一种实现段落维度化描述系统,其特征在于,包括: 关联模块,用于调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联; 匹配模块,与所述关联模块连接,用于将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值; 描述模块,与所述匹配模块连接,用于对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值; 综合模块,与所述描述模块连接,用于将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。
8.根据权利要求7所述的实现段落维度化描述系统,其特征在于,还包括: 内置维度特征描述库,与所述关联模块连接,用于存储已经定义过的语义维度及其特征描述; 自定义维度特征描述库,与所述关联模块连接,用于调用客户在特定分析目标下关注的语义维度及其特征描述。
9.根据权利要求7所述的实现段落维度化描述系统,其特征在于,还包括: 上下文关系库和段落词汇频率库,与所述描述模块连接,用于向描述模块提供上下文关系及段落词汇频率; 语义化词汇描述模块,分别与上下文关系库和段落词汇频率库、所述描述模块连接,用于将上下文关系库和段落词汇频率库中的信息转换为语义化词汇,并提供给描述模块。
【文档编号】G06F17/27GK104281692SQ201410537866
【公开日】2015年1月14日 申请日期:2014年10月13日 优先权日:2014年10月13日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1