智能文章生成方法和装置与流程

文档序号:12665964阅读:168来源:国知局
智能文章生成方法和装置与流程

本申请涉及互联网技术领域,尤其涉及一种智能文章生成方法和装置。



背景技术:

当用户阅读一个热点事件报道时,常常会产生阅读衍生内容的需求,例如用户发现一部新电影上映后,也会关注这部电影的导演、演员是什么样的人等。为了满足用户阅读衍生内容的需求,可以为用户提供盘点文章,如盘点90后小鲜肉等。

相关技术中,盘点文章主要由人工采编生成,但是,人工采编方式效率偏低,产生频率和产生量偏少,最终质量非常依赖编辑本身经验和偏好,质量和数量都非常不可控。



技术实现要素:

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的一个目的在于提出一种智能文章生成方法,该方法可以自动生成盘点文章,从而解决人工采编方式存在的一些问题。

本申请的另一个目的在于提出一种智能文章生成装置。

为达到上述目的,本申请第一方面实施例提出的智能文章生成方法,包括:提取热点事件中的实体,并确定所述实体的实体类别;获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;基于所述结构化数据和所述多个维度特征生成文章。

为达到上述目的,本申请第二方面实施例提出的智能文章生成装置,包括:提取模块,用于提取热点事件中的实体,并确定所述实体的实体类别;获取模块,用于获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;生成模块,用于基于所述结构化数据和所述多个维度特征生成文章。

本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种非易失性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。

本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。

本申请实施例中,通过提取实体并确定实体类别,以及获取结构化数据和多个维度特征,并基于结构化数据和多个维度特征生成文章,可以实现文章的自动生成,从而避免人工采编方式存在的一些问题。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本申请一个实施例提出的智能文章生成方法的流程示意图;

图2是本申请另一个实施例提出的智能文章生成方法的流程示意图;

图3是本申请一个实施例提出的智能文章生成装置的结构示意图;

图4是本申请另一个实施例提出的智能文章生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的智能文章生成方法的流程示意图。

如图1所示,本实施例的方法包括:

S11:提取热点事件中的实体,并确定所述实体的实体类别。

例如,可以从搜索日志中获取热点事件,或者,也可以对全网数据进行监控,实时获取热点事件。

在获取热点事件后,可以利用自然语言技术进行切词,将切词得到的词条与已有的实体库中的实体进行匹配性计算,获得可用实体,将获得的可用实体作为从热点事件中提取出的实体。

从热点事件中提取出实体后,可以依据热点事件的上下文进行语义计算,确定实体的实体类别。

举例来讲,当前的一个热点事件为“A(A的具体内容可以为一个明星的人名)的全家福曝光”,则经过切词可以得到A,全家福,曝光,经过与实体库中的实体进行匹配性计算,获得的可用实体为A,则从热点事件中提取出的实体为“A”;再经过上下文语义计算,比如A与曝光共现度较高,则将A的实体类别确定为娱乐人物实体。

可以理解的是,为了提高实体和实体类别的确定准确度,还可以在上述内容基础上结合其他技术实现。

上述的实体中可以包括长尾实体,长尾实体是指对单一用户来讲搜索频率少但对整体用户来讲频率较高的实体,相对于人工采编来讲,通常人工采编不会包括长尾实体,而本实施例通过对热点事件进行自然语言处理,可以获取到长尾实体,从而可以扩展实体的广度,进而可以生成更大量的文章。

S12:获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征。

比如,预先可以建立模板库,模板库中记录实体类别及其对应的结构化数据,从而可以在模板库中查询与当前提取出的实体类别对应的结构化数据。

具体的,模板库中的模板的实体类别可以组成集合,比如[男明星|年龄<1990|百度搜索热度>阈值|电影作品>3]这一实体类别集合,在提取出热点事件中的实体并确定其实体类别后,可以从模板库中查询到所确定的实体类别所属的实体类别集合,比如,确定出的实体类别是“男明星”则找到包含“男明星”的实体类别集合。另外,模板库中的模板还会对应实体类别集合记录相应的结构化数据,结构化数据为文章框架,比如文章包括哪些字段,以及这些字段中填充的内容,文章包括的字段及其填充的内容可以基于知识图谱数据和新闻语料数据获取,具体获取内容可以参见后续关于模板库建立的描述。

另外,可以从知识图谱和用户行为数据中获取到实体对应的多个维度特征。

知识图谱旨在描述真实世界中存在的各种实体以及实体间的属性或关系,从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物。实体可以为人、物、事件、概念等。知识图谱可被看作是一张巨大的图,图中的节点表示实体,而图中的边则由属性或关系构成。通过知识图谱可以提高搜索质量。

在提取出实体后,可以基于知识图谱,将与实体存在连接关系的其他实体作为提取出的实体的多个维度特征中的一部分,多个维度特征中的另一部分来自与用户行为数据。用户行为数据例如包括用户搜索、点击过的查询词(query)等,通过用户行为数据可以获取到用户更个性化的特征,比如,通过用户对实体的搜索频率可以确定实体热度,将与实体共现的query作为实体标签等。

S13:基于所述结构化数据和所述多个维度特征生成文章。

结构化数据表明了文章的基础框架,比如包括哪些字段以及相应的自然语言内容,之后,再获取到多个维度特征后,可以将获取的多个维度特征填充到相应字段内,并与已有的自然语言内容组成文章。

本实施例中,通过提取实体并确定实体类别,以及获取结构化数据和多个维度特征,并基于结构化数据和多个维度特征生成文章,可以实现文章的自动生成,从而避免人工采编方式存在的一些问题。

图2是本申请另一个实施例提出的智能文章生成方法的流程示意图。

如图2所示,本实施例的方法包括:

S21:收集知识图谱数据和新闻语料数据。

具体的,知识图谱可以向外提供数据接口,从而通过该数据接口可以收集到知识图谱数据。

对于新闻语料数据,则可以直接收集已有的真实新闻语料,比如《盘点最近大火小鲜肉电影表现》等,从而获取到新闻语料数据。

S22:基于所述知识图谱数据和新闻语料数据进行模板抽取,得到多个模板,并基于多个模板建立模板库。

模板库中存储多个模板,每个模板包括实体类别集合及其对应的结构化数据。

实体类别集合及其对应的结构化数据可以结合知识图谱数据和新闻语料数据进行抽取,比如,新闻语料数据中的一篇文章为《盘点最近大火小鲜肉电影表现》,则可以抽取出[男明星|年龄<1990|百度搜索热度>阈值|电影作品>3]这一实体类别集合。

进一步的,实体类别集合还可以在已有基础上扩展或增加维度,比如在上述实体类别集合基础上,还可以扩展[女明星|年龄<1990|百度搜索热度>阈值|电影作品>3],或者,还可以增加维度,比如[男明星|年龄<1990|百度搜索热度>阈值|电影作品>3|身高>180]。

结构化数据用于表明文章的基础框架,可以对新闻语料数据进行自然语言处理后得到。具体的,以段落为单位,抽取其中的实体、实体标签数据作为训练集,再通过文本训练方式,挖掘文章内主干元素,挖掘常见需求字段,形成基础框架,从而建立模板库。

比如,对上述的《盘点最近大火小鲜肉电影表现》这一已有的真实新闻语料数据中的文章,可以通过自然语言处理分析出该文章包括哪些主要字段及其相应内容,将其作为结构化数据。比如,提取出类似[实体1][自然语言1][实体1特征1][自然语言i]这种结构,将上述结构中的字段及其相应内容作为[男明星|年龄<1990|百度搜索热度>阈值|电影作品>3]这一实体类别集合对应的结构化数据。

S23:建立润色库。

比如,积累同质替换文本和实体标签存储到润色库,同质替换文本例如通过对已有数据的同位字段前后文本进行语义分析,积累同质替换文本。通过挖掘实体的人物昵称、人物别称和电影评价等作为实体标签。

可以理解的是,S21-S23可以预先离线完成,从而用于后续的盘点文章的自动生成。

S24:获取热点事件。

例如,可以从搜索日志中获取热点事件,或者,也可以对全网数据进行监控,实时获取热点事件。

S25:提取热点事件中的实体,并确定所述实体的实体类别。

S26:从模板库中获取与所述实体类别对应的结构化数据,以及从知识图谱数据和用户行为数据中,获取与所述实体对应的多个维度特征;以及,基于结构化数据和多个维度特征生成文章。

可以理解的是,S25-S26的具体内容可以参见S11-S13,在此不再详述。

S27:从润色库中获取润色数据,并基于润色数据对生成的文章进行润色。

润色数据例如包括同质替换文本和实体标签,在获取到同质替换文本后,可以依据框架关系进行同质替换文本替换,在获取到实体标签后,可以在实体前增加实体标签,从而对实体进行标签性描述,增加可读性。

S28:对润色后的文章进行质量管理。

质量管理例如包括请求历史文章库,与生成的文章进行比对,找出重复和低相关内容,对其进行替换或抛弃等处理。

经过质量管理后的文章可以作为最终生成的提供给用户的盘点文章。

本实施例的生成的文章可以用于用户的个性化推荐。

本实施例中,通过获取实体的多个维度特征,可以在热点事件发生时,对多个实体的多个维度进行网状展开,一次性产生大批量高质量延伸性阅读文章,较编辑生成的效率有碾压级别优势,同时可以对长尾实体做展开,激发用户更深度阅读。同时通过获取用户行为数据,可以充分利用个性化推荐技术,为感兴趣的用户制造了最细粒度的盘点内容,覆盖信息可以兼顾数量级和长尾,真实选取了用户真正喜好或者关注的内容进行组合生成,有效的提高了用户的阅读效率和深度。

图3是本申请一个实施例提出的智能文章生成装置的结构示意图。

如图3所示,本实施例的装置30包括:提取模块31、获取模块32和生成模块33。

提取模块31,用于提取热点事件中的实体,并确定所述实体的实体类别;

获取模块32,用于获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;

生成模块33,用于基于所述结构化数据和所述多个维度特征生成文章。

一些实施例中,所述获取模块32用于获取所述实体对应的多个维度特征,包括:

基于知识图谱数据和用户行为数据,获取所述实体对应的多个维度特征。

一些实施例中,参见图4,该装置30还包括:

收集模块34,用于收集知识图谱数据和新闻语料数据;

模板库建立模块35,用于基于所述知识图谱数据和新闻语料数据进行模板抽取,得到多个模板,并基于多个模板建立模板库,所述模板表明实体类别与结构化数据之间的对应关系。

一些实施例中,所述获取模块32获取所述实体类别对应的结构化数据,包括:

从所述模板库中查询得到与所述实体类别对应的结构化数据。

一些实施例中,参见图4,该装置30还包括:

润色模块36,用于基于预先建立的润色库,对生成的文章进行润色。

一些实施例中,参见图4,该装置30还包括:

质量管理模块37,用于对润色后的文章进行质量管理。

可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。

本实施例中,通过提取实体并确定实体类别,以及获取结构化数据和多个维度特征,并基于结构化数据和多个维度特征生成文章,可以实现文章的自动生成,从而避免人工采编方式存在的一些问题。

本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行:提取热点事件中的实体,并确定所述实体的实体类别;获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;基于所述结构化数据和所述多个维度特征生成文章。

本申请实施例还提出了一种非易失性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行:提取热点事件中的实体,并确定所述实体的实体类别;获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;基于所述结构化数据和所述多个维度特征生成文章。

本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行:提取热点事件中的实体,并确定所述实体的实体类别;获取所述实体类别对应的结构化数据,以及获取所述实体对应的多个维度特征;基于所述结构化数据和所述多个维度特征生成文章。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1