一种从文本提取所需内容的方法

文档序号:6635073阅读:1356来源:国知局
一种从文本提取所需内容的方法
【专利摘要】本发明涉及从文本提取所需内容的方法及装置。该方法包括以:根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;接收用户输入的标签,提取出用户需要的主语以及目标查找词,根据预设的同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。本发明能够有效提高文本内容的提取效率。
【专利说明】一种从文本提取所需内容的方法

【技术领域】
[0001] 本发明涉及计算机程序。

【背景技术】
[0002] 报告是汇报工作、反映情况、提出建议、答复上级机关询问时使用的公文,同时,报 告是谋事之道、成事之基,是领导作出正确判断和决策的前提基础。近年来,随着市场经济 的推动,报告成为了一种新兴产业,报告的用途逐步扩大,用于新产品开发、投融资、公司发 展规划、年度发展等方面。当前撰写报告的机构有全国高校、社科、研究会、研究院、智库等 国家的研究机构,例如:中国科学院、中国社会科学院、北京大学、清华大学、中国非国有经 济研究会、北京创新中实信息科学研究院等。撰写报告的形式主要是当前各机构工作人员 主要是通过人工整理资料,筛选素材,自主撰写情报。
[0003] 由于目前都是基于人工去处理文本资料,因此,从文本中提取出所需的内容的效 率就比较低下。


【发明内容】

[0004] 本发明的目的在于提出一种从文本提取所需内容的方法,其能解决提取效率低的 问题。
[0005] 为了达到上述目的,本发明所采用的技术方案如下:
[0006] -种从文本提取所需内容的方法,其包括以下步骤:
[0007] 步骤1、根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子 中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;
[0008] 步骤2、接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予性类 另IJ,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的 类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总 次数超过预设阈值的句子保存至提取库;
[0009] 步骤3、计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子 之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。
[0010] 优选的,在步骤1之前还有以下步骤:
[0011] 步骤11、接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本;
[0012] 步骤12、根据公式一选取关联度大于预设值的文本作为目标文本;
[0013] 公式一为:

【权利要求】
1. 一种从文本提取所需内容的方法,其特征在于,包括以下步骤: 步骤1、根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的 每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语; 步骤2、接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予性类别, 根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义 词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数 超过预设阈值的句子保存至提取库; 步骤3、计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间 的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。
2. 如权利要求1所述的方法,其特征在于,在步骤1之前还有以下步骤: 步骤11、接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本; 步骤12、根据公式一选取关联度大于预设值的文本作为目标文本;
,其中,G为文本的关联度,Pn为第n个关键词在文本 中出现的次数,Mn为第n个关键词的权重,L预设次数。
3. 如权利要求2所述的方法,其特征在于,当Pn > L时,Pn取L。
4. 如权利要求2所述的方法,其特征在于,L = 10。
5. 如权利要求2所述的方法,其特征在于,预设值为20%。
6. 如权利要求1所述的方法,其特征在于,预设阈值为3。
7. 如权利要求1所述的方法,其特征在于,夹角为0.5°。
8. -种从文本提取所需内容的装置,其特征在于,包括以下模块: 预处理模块,用于根据预设的分词包对目标文本进行预处理,以使所述目标文本的每 个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语; 提取模块,用于接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予 性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义 场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数, 将总次数超过预设阈值的句子保存至提取库; 去重模块,用于计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个 句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个 句子。
9. 如权利要求8所述的装置,其特征在于,在预处理模块之前还有以下模块: 接收模块,用于接收用户设置的关键词和该关键词的权重,以及接收用户上传的文 本; 筛选模块,用于根据公式一选取关联度大于预设值的文本作为目标文本;
,其中,G为文本的关联度,Pn为第n个关键词在文本 中出现的次数,Mn为第n个关键词的权重,L预设次数。
【文档编号】G06F17/27GK104360993SQ201410667560
【公开日】2015年2月18日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】彭宏利 申请人:广州极盛信息科技开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1