自动生成跨语言短新闻的智能写作方法及智能写作机器人与流程

文档序号:35470252发布日期:2023-09-16 14:50阅读:39来源:国知局
自动生成跨语言短新闻的智能写作方法及智能写作机器人与流程

本发明属于语言文字自动处理,涉及短新闻自动生成技术,尤其涉及一种自动生成短新闻的智能写作方法及智能写作机器人,可应用于科学领域短新闻的智能写作,实现自动生成跨语言科技短新闻。


背景技术:

1、智能写作机器人的核心是一个用来自动生成文本的程序,主要用来生成符合人类语言习惯的,传递某些信息的文字。

2、目前已出现多种类型的智能写作机器人。智能写作机器人可以被应用在新闻写作、故事写作、评论写作等多个需要人创作的领域或专业方向。每个方向的智能写作机器人,需要采用对应的文字处理技术方法。

3、现有的智能写作机器人的技术方法主要分为检索式方法、基于人工模板的方法和生成式方法。其中,检索式方法是将人们写好的句子,通过某种方式结合,构成新的文章的一种方法。例如,在评论写作中,研发者需要事先存储好大量的评论文本并建立索引。写作机器人在针对不同的帖子或者商品时,需要在存储好的评论文本中,抽取最符合当前帖子或商品的评论。这种方式对收集的评论文本的质量和数量要求很高,需要足够大的评论文本,才能够尽量好地匹配当前话题,否则会出现评论与话题毫无关系、或者缺乏创造性的问题。基于人工模板的方法,即通过人工设定多个主题,并对每个主题编写针对性的文本模板,此后再根据具体内容填写模板,生成对应的文本。基于人工模板的方法的缺点是可扩展性差。生成式方法则是在接收到输入的主题后,采用一定技术手段自动生成一段文本作为应答,而不是从已有的人工创作的文本中进行挑选。这个方法的不足在于,其可能会生成质量存在问题的文本,生成文本也可能存在比如语句不通顺、句法错误等比较低级的错误。而且,现有的智能写作机器人输出的文本的语言,需要与输入文本相同,无法实现高质量的跨语言生成。

4、综上,现有的智能写作技术均存在一些不足。且目前尚未出现一种跨语言的面向科学领域生成新闻的智能写作方法和智能写作机器人。


技术实现思路

1、为了克服上述现有技术存在的不足,本发明提供一种自动生成短新闻的智能写作方法及智能写作机器人,能够实现智能写作自动生成跨语言新闻,如可以通过获取英文论文简介,自动生成介绍该论文的中文短新闻。

2、本发明提供的技术方案是:

3、一种自动生成跨语言新闻的智能写作机器人装置,包括导语模板模块、知识库模块、英语论文获取模块、信息抽取模块、句子解析模块、翻译模块、组合替换模块;其中:

4、导语模板模块用于创建和存储生成新闻导语的模板,使用时可从中挑选导语模板,对导语模板中空出内容进行填写后生成新闻导语;

5、知识库模块用于存储跨语言对应的专业术语;使用时针对元数据在知识库中进行检索;

6、英语论文获取模块用于从期刊官方网站上,获取论文对应的信息,包括标题、时间、作者、机构等论文元数据,以及对论文的简要介绍。

7、信息抽取模块用于对从网页上获取的英语论文的元数据,进行进一步的整合、过滤,抽取的信息用于导语的填写。信息抽取模块将从所有论文元数据中,抽取出标题、时间、作者、作者国籍与隶属机构、期刊信息。

8、句子解析模块用于对选中的导语模板中待填入的部分(称为“成果”)进行句法解析。对不同的“成果”,需要填入不同的“动词”。通过句子解析模块对“成果”部分进行句法解析,以判断应该使用哪种动词。

9、翻译模块用于将英语论文的元数据以及介绍原文,翻译为中文。

10、组合替换模块用于将翻译好的中文介绍,进行句子的组合与词语的替换。在翻译前,首先对句子进行拆分,破坏了句子间的段落结构,因此需要对其重新分段。此外,针对新闻写作排版与论文写作排版的区别,需要对论文摘要调整顺序。均可通过组合替换模块实现句子的组合、词语的替换、语句顺序的调整。

11、本发明使用人工构建的导语模板结合论文元数据的方式,构造生成新闻导语,再使用翻译模块与组合替换模块,构造中文的论文介绍的内容,将导语和论文介绍组合,自动生成科学领域的短新闻,提供了一种自动生成科学领域新闻的智能写作方法。本发明构建了多种不同的新闻导语模板,通过对论文元数据抽取、过滤、解析并最后填写入新闻导语模板中,生成丰富多样的新闻导语;并使用自己搭建的科学术语知识库,结合翻译技术,以英语学术论文为输入,自动写作中文新闻,提高了写作结果的科学性和准确性;本发明还对翻译后的文本进行了组合、替换,让写作中文新闻结果更加流畅。本发明的核心主要包括构造导语模板、构建知识库(科学术语)、句法解析、内容的组合替换,其中,知识库模块加入了针对术语的处理,使得科学术语的翻译表述更加规范,构造导语模块根据论文标题等元数据格式设计了不同的导语模板,增加了新闻内容的多样性。句法解析的结果帮助使用更加合理的词语表述导语中的具体成果。

12、包括如下步骤:

13、1.构造导语模板:

14、导语模板类型包括一句导语模板和二句导语模板;二句导语模板由前句导语模板和后句导语模板组成。导语中包含有【日期】【机构】【作者】【团队】【期刊】【动词】这些元数据以及【成果】,本发明通过构建导语模板将它们表述在一句或二句导语之中。导语模板确定导语的基本结构,后续根据句法解析的结果选择合适的动词进行表述。

15、具体实施时,本发明依据新闻写作的风格,人工构建了4种一句导语模板,8种前句导语模板以及11种后句导语模板,即总共有92种导语模板。在每次选择时,可以从中随机挑选模板组成新闻导语,使得新闻多样性有着明显的改善。

16、例如:“【日期】,【机构】【作者】【团队】在【期刊】杂志发表论文,宣布他们【动词】【成果】”,是其中一个模板。模板中“【】”的部分是需要填空的内容。

17、导语模板按照句子个数划分,分为一句导语模板和二句导语模板。一句导语模板,即用一个句子作为导语。上述例子即为一句导语模板。二句导语模板,则将导语分为相对无关的前句与后句,例如:“【机构】【作者】【团队】的一项最新研究【动词】【成果】。相关论文于【时间】发表在【期刊】上。”

18、2.构建科学术语知识库

19、为了保证新闻的准确性,构建了英语专业术语同中文专业术语对应的知识库。具体使用时,写作机器人对论文的元数据在知识库中进行检索。

20、3.获取英语论文并进行元数据信息抽取,抽取得到论文元数据,包括:论文作者和机构;包括如下过程:

21、31)对论文作者进行一定的过滤,抽取出最重要的一个作者;

22、32)保留通讯作者及其国籍、隶属机构;

23、33)如果没有通讯作者的标记,则统计所有作者的隶属机构,并保留隶属机构出现次数最多的作者;并将剩余作者的最后一位认定为通讯作者;

24、34)对隶属机构进行修正,得到适用于导语的隶属机构名称。

25、由于导语篇幅限制,无法在导语中写入所有作者。因此,在信息抽取模块,机器人会对论文作者进行一定的过滤,抽取出最重要的一个作者(通讯作者)。本发明设计的抽取方式如下,如果输入元数据中标记了通讯作者,则保留该通讯作者及其国籍、隶属机构。如果输入的元数据中没有通讯作者的标记,信息抽取模块将会统计所有作者的隶属机构,并保留隶属机构出现次数最多的作者。此后,按照论文署名规则,隶属机构出现次数最多的作者中的最后一位,会被认定为通讯作者。最后,信息抽取模块会对隶属机构进行修正。英语论文的元数据中,隶属机构可能详细至街道,如“department of chemistry,mcgilluniversity,west brooklyn street h3a 088,montreal,canada”。但是,过长的隶属机构不适合出现在导语中。因此,智能机器人会对其进行修正,仅保留其学校或研究所的名字信息。

26、4.对论文标题进行句法解析并应用解析结果,包括如下过程:本发明使用论文标题作为导语中的【成果】,也就是描述成果的文本。句法解析模块用于解析论文标题,具体步骤如下:

27、41)使用句法解析工具nltk,对英语论文标题进行解析,得到句法分析树;

28、42)根据句法分析树的结果判断论文标题的词性。如果当前文本的句法树以“s”为树根,或者当前文本中有“be”动词,即表示当前描述成果的文本是一个完整的句子;如果当前文本以“np”为树根,或者当前文本开头为定冠词“a”,即表示当前描述成果的文本是一个名词短语;如果句法解析树的结果不在上述情况当中,那么当前描述成果的文本将被归类于其他

29、43)根据标题句法特点,选择合适的动词。如果当前描述成果的文本是一个完整的句子则动词采用“揭示了”、“发现了”、“探明了”;若当前描述成果的文本是一个名词短语,则动词使用“提出”、“开发出”、“研究出”;其他情况则动词采用“研究”、“探究”等较为通用的动词。

30、5.对英语论文的摘要内容进行翻译

31、在翻译模块中,智能写作机器人会对论文的元数据与摘要内容进行翻译。具体实施中,对于论文摘要内容,由于其为长文档,机器翻译得到的效果非常差。因此,本发明首先使用nltk(natural language toolkit,自然语言处理工具包,是个python库),对论文摘要中的句子进行拆分,然后将句子逐一放入翻译模型(如有道翻译和谷歌翻译)中进行翻译。为了提高翻译的多样性,可随机采用已有的翻译软件,进行英语到中文的翻译。

32、6.对论文摘要内容进行组合与替换,得到中文的论文介绍;进行组合与替换的方法包括:

33、61)首先,对论文摘要内容进行分段,确定段首句子;原句中以连接词开头的中文句子作为段首。

34、62)进行代词替换,将英语论文介绍当中的第一人称,例如“我们”,都替换为第三人称,例如“研究团队成员们”。

35、63)写作顺序上,将背景介绍置于段末,找到第一个出现“we”的句子,将该句子之前的句子放到最后。

36、7.将导语和中文的论文介绍组合,生成短新闻

37、首先挑选导语模板,使用步骤2构建的知识库或通过步骤5的英语论文摘要内容翻译,将专业术语进行翻译,并填入导语模板中。此后,再对英语论文摘要进行翻译、组合与替换,得到中文的论文介绍。最后,将导语和中文的论文介绍组合,即可生成短新闻。

38、与现有技术相比,本发明的有益效果在于:

39、本发明通过构建导语模板,通过对论文元数据抽取、过滤、解析,填写导语模板,生成丰富多样的新闻导语;并使用自己搭建的知识库,提升新闻内容准确性;结合翻译技术,并对翻译后的文本进行组合、替换,结合导语,自动生成科学领域短新闻。本发明是第一个跨语言科学领域新闻生成的智能写作机器人。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1