一种应用文自动生成方法与流程

文档序号:11133898阅读:来源:国知局

技术特征:

1.一种应用文自动生成方法,其特征在于,包括以下步骤:

1)建立语料库;

2)选择多个适用实体并输入其对应的具体内容;

3)建立模板库并从中选择一个模板;

4)对所选择的模板进行润色。

2.根据权利要求1所述的应用文自动生成方法的步骤1),其特征在于,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。

3.根据权利要求1所述的应用文自动生成方法的步骤2),其特征在于,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。

4.根据权利要求1所述的应用文自动生成方法的步骤3),其特征在于,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。

5.根据权利要求1所述的应用文自动生成方法的步骤4),其特征在于,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。

6.根据权利要求1-5所述的应用文自动生成方法,其特征在于,所述应用文为运动会开幕词。

7.根据权利要求1-6所述的应用文自动生成方法,其特征在于,所述步骤1)具体为:采用爬虫技术,从互联网上抓取3万篇开幕词。采用字符串匹配的方法,选出1200篇运动会开幕词。然后对该1200篇开幕词进行预处理。预处理主要包括以下步骤:(1)去掉开幕词中的无关内容。(2)保留开幕词的分段结构。(3)过滤掉无用标签和连续的空行。

利用经过预处理的开幕词构成语料库。

8.根据权利要求1-7所述的应用文自动生成方法,其特征在于,所述步骤2)中的多个适用实体为时间、机构、贵宾和学校概况。

9.根据权利要求1-8所述的应用文自动生成方法,其特征在于,所述步骤3)具体为:把语料库中的整篇的运动会开幕词分成段;对称呼段、首段、尾段进行分类。

10.根据权利要求1-9所述的应用文自动生成方法,其特征在于,所述步骤4)具体为:根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大学生运动会开幕词。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1