一种应用文自动生成方法与流程

文档序号:11133898阅读:703来源:国知局
一种应用文自动生成方法与制造工艺

本发明属于文字信息数据处理技术领域,具体涉及一种应用文自动生成方法。



背景技术:

随着计算机技术和互联网的快速发展,人们不再仅仅把计算机当做一种写作载体、工具使用,而是开始让计算机发挥更多、更加智能的作用,例如利用计算机进行智能辅助写作,尤其是写作应用文等模板化要求较高的文体文章。由于应用文是一种受限语体,其格式较为固定,模板化程度较高,因此利用计算机自主地组织材料自动生成应用文的可操作性和实用性很强。当前有较多的利用计算机自动生成应用文的方法以及实现这些方法的相关应用软件,但是,其普遍存在如下缺陷:建立的语料库数据量太小、适用实体的选择不够准确、自动生成的应用文中无关内容较多、应用于同一场合的应用文雷同程度较高、自动生成的文章语言刻板枯燥缺乏生动性等。因此,利用现有技术的应用文自动生成方法生成的应用文往往需要经过人工进行大量的修改和润色才能符合使用要求,需要耗费人很多的精力和时间。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的应用文自动生成方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种应用文自动生成方法,包括以下步骤:

步骤1)建立语料库;

步骤2)选择多个适用实体并输入其对应的具体内容;

步骤3)建立模板库并从中选择一个模板;

步骤4)对所选择的模板进行润色。

进一步地,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。

进一步地,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。

进一步地,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。

进一步地,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。

进一步地,所述应用文为运动会开幕词。

进一步地,所述步骤1)具体为:采用爬虫技术,从互联网上抓取3万篇开幕词;采用字符串匹配的方法,选出1200篇运动会开幕词,然后对该1200篇开幕词进行预处理;预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,(2)保留开幕词的分段结构,(3)过滤掉无用标签和连续的空行;

利用经过预处理的开幕词构成语料库。

进一步地,所述步骤2)中的多个适用实体为时间、机构、贵宾和学校概况。

进一步地,所述步骤3)具体为:把语料库中的整篇的运动会开幕词分成段;对称呼段、首段、尾段进行分类。

进一步地,所述步骤4)具体为:根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大学生运动会开幕词。

本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,一种应用文自动生成方法,包括以下步骤:

步骤1)建立语料库;

所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。

步骤2)选择多个适用实体并输入其对应的具体内容;

所述步骤2)具体为:根据应用文的适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后输入每个适用实体所对应的具体内容。在使用时,用户需要在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“时间”输入栏中输入“春季”或“秋季”,在“机构”输入栏中输入“某大学”等。

步骤3)建立模板库并从中选择一个模板;

所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。用户选择一个模板;如果用户不选模板,那么计算机根据用户输入的适用实体的具体内容自行选择一个模板。

步骤4)对所选择的模板进行润色;

所述步骤4)具体为:对所选择的模板文章的词语、句子进行同义词、同义句的替换。

本实施例以大学生运动会开幕词为例说明本发明的具体实施方式,具体如下:

第一步,建立大学生运动会开幕词的语料库;

采用爬虫技术,从互联网上抓取3万篇开幕词文本,采用字符串匹配的方法,从这3万篇开幕词中选出1200篇大学生运动会开幕词;然后对该1200篇开幕词进行预处理,预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,比如一些广告、网站介绍、链接等;(2)保留开幕词的分段结构,遇到一些换行的标签进行换行,比如</P>、</p>、<br>、<BR>等;(3)过滤掉无用标签和连续的空行;最后,利用经过预处理的开幕词文本构成语料库。

第二步,选择大学生运动会开幕词所适用的多个适用实体并输入其对应的具体内容;

根据运动会开幕词的适用场景选择出多个实体,构成实体候选项集,然后采用TF-IDF算法或TextRank算法对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的时间、机构、贵宾和学校概况四个适用实体,然后,在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“机构”输入栏中输入举办大学生运动会的学校名称、在“时间”输入栏中输入“春季”或“秋季”等。

第三步,建立大学生运动会开幕词的模板库并从中选择一个模板;

一般地,一篇运动会开幕词一般分为五段,分别是:称呼段、首段、中间段上、中间段下、尾段。称呼段就是开幕词的开场白,例如,“尊敬的各位来宾,全体运动员、裁判员,老师们、同学们:”。首段就是开幕词的第一段,主要是描述下当时景色,然后在表达一下谢意,例如“春风吹拂,杨柳飘飘,风和日丽,万物复出………,向………表示感谢”。中间段上一般就是介绍学校在体育方面的教育方针以及在体育方面取得的成绩。中间段下一般就是表达对运动员的期望,对工作人员或者观众的要求。尾段就是开幕词的最后一段,主要就是表达对运动会、对运动员们的祝福。

根据运动会开幕词的特点,把语料库中的整篇的大学生运动会开幕词分成段,对称呼段、首段、尾段进行分类。

通过对称呼段的聚类,把称呼段分成尊称类和自然类两类。经过分析开幕词的称呼段,可以发现发表讲话的人的身份不同,首段的敬语会有一些细微的差别。一般发表开幕词讲话的不外乎三类人:学生、老师、学校校长或者某一位领导。身份的不同,会导致讲话的语气会有稍微的不同。学生、老师,一般会用尊称,向领导和参会人员问好,而校长或者领导,更多的是平和、自然、稳重、淡然的语气。所以,学生,老师会用“尊敬的……”,领导们会用“……大家好”。

通过对首段的聚类,将首段分为春季类、秋季类和一般类三种。经过分析大学生运动会开幕词的首段发现:首段有明显的时间特性,一般的首段都会先声明当时的时节,先对时节赞美一番。

通过对尾段的聚类,把尾段分为三类,分别是普通类、祝福类、激励类。为了营造高昂的气氛,结尾会发表一些祝福或者激励的话,如果没有这些话那就是说宣布开幕式结束的话。

本实施例提供18种语体模板。用户在输入交互的适用实体的具体内容后还要选择自己需要的模板,得到一篇模板文章;如果用户不选模板,那么计算机也会根据用户输入的适用实体的具体内容自行选择一个模板,得到一篇模板文章。

第四步,对所选择的模板文章进行润色;

根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大学生运动会开幕词。

本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1