一种评论扩展方法及系统与流程

文档序号：19810206发布日期：2020-01-31 18:13阅读：235来源：国知局

本发明涉及自然语言处理领域，特别涉及一种评论扩展方法及系统。

背景技术：

社交媒体领域中，评论扮演着重要角色。社交评论，也属于自然语言处理的研究对象；但社交评论与常规文本不同，具有口语化、混杂表情符等图文信息等特点。现阶段对社交评论的自然语言的处理，还不成熟，其中一个原因是标注的社交评论数据集不够丰富。针对这种困境，一种可行的方法是对训练集的评论数据进行增强，即扩展出与原评论相似的更多评论作为训练数据。

此外，在社交媒体中，媒体平台也迫切需要一种评论自动扩展的工具。如在直播领域中，媒体平台需要自动生成虚拟评论以活跃气氛；又如，媒体平台可以为用户提供基于输入评论的相似评论候选，以提升用户体验。

技术实现要素：

本发明的目的是提供一种评论扩展方法及系统，为社交媒体大批量生成主题相关的评论。

为实现上述目的，本发明提供如下技术方案：

一种评论扩展方法，包括以下步骤：

s1、对用户输入的评论进行预处理；

s2、利用表情符号扩展的方法产生指定数量的新评论。

进一步地，所述s1中所述的用户输入的评论，包括待扩展评论，或者还包括主题词及限定条件。

所述主题词，是指用户标识的、存在于所述待扩展的评论中的关键词；所述限定条件，包括扩展后的新评论指定使用的社交平台及所述新评论的生成数量；所述主题词的数量大于等于零，且所述主题词必须存在于所述用户输入的评论中。

进一步地，所述s1所述的预处理，具体包括以下子步骤：

a、分析所述用户输入的评论的情感类别；

b、对所述用户输入的评论进行预扩展处理获得初始评论集合。

进一步地，所述子步骤a中，所述的分析用户输入评论的情感类别，是指利用情感计算模型计算用户输入评论的所属的情感类别，如快乐、悲伤、失望等。优选地，情感计算模型，通过使用带情感类别数据集合训练得到。

进一步地，所述子步骤b中，对所述用户输入评论进行预扩展处理获得初始评论集合采用的原理是，利用现有的技术生成语义相关的评论。由于现有技术的限制，生成的语义相关的评论数量有限，但可以作为输入评论的扩展。

进一步地，所述子步骤b中，所述的对所述用户输入评论进行预扩展处理，包括以下步骤：

1)在评论数据集中按照相关性获取相似评论列表：提前准备评论数据集，用于集中记录用户输入的评论的句子向量及情感类别；根据用户输入的评论的句子向量及情感类别，从所述评论数据集中获取相似度超过预设阈值或指定条数的评论作为相似评论；

2)使用预设规则对候选评论集进行评论扩展：所述预设规则包括近义词替换规则及词语位置互换规则，所述的候选评论集包含输入评论，或者还包括输入评论与步骤1)中获取的相似评论集合而成合集，使用预设规则对候选评论集进行评论扩展，其具体的操作是，对候选评论集中的每条评论，选择与其匹配的预设规则进行评论扩展，从而得到新评论，再对最终获取到的新评论作去重处理。

优选地，如果步骤s1获得的初始评论集合数量达到用户要求后，评论扩展操作提前结束。

进一步地，所述s2包括：

c、从表情库中获取候选表情符号集合；

d、使用表情符号插入规则扩展评论。

进一步地，所述表情符号是指能表达情感/情绪的符号，包括普通文字、颜文字、表情符等。所述的普通文字，是指诸如“666”、“加油”等表达情感/情绪的普通文字。所述的颜文字，是指诸如“<(￣︶￣)>”(表达满足且得意情绪)、“(>﹏<)”(表达痛苦情绪)等一类利用特定字符编排其组合次序，形成的表情符号作品。所述的表情符，即为日常使用的emoji。

可选地，所述步骤s2中所述的表情符号，还包括用于传达情感/情绪信息的图片，所述的可以传达情感/情绪信息的图片，是指一类以时下流行的名人、语录、漫画、影视截图为素材，配上一系列相匹配的文字，用以表达特定情感的图片。

进一步地，步骤s2所采用的原理，是利用通过带表情符的评论集学习到或者人工编写的表情符插入规则，在评论中插入与评论情感类别一致的表情符号的方法，将一条评论变成多条。所述的表情符插入规则，使用表情标签对表情符进行泛化。表情符号有表情标签属性，一个表情符号至少有一个表情标签属性。在表情符使用规则中，出现表情标签，代表具有该表情标签的表情符号等能使用该规则。

进一步地，所述子步骤c中，所述的表情库以二元组<e,b>的方式存储所述的表情符号。其中，e为表情符号本身，b为记录该表情符号所属的情感类别、数据集中出现的权重、适用的社交平台、表情标签列表等信息的属性序列。

进一步地，所述子步骤c中，所述的从表情库中获取候选表情符号集合，具体为从所述表情库中获取同时满足以下条件的表情符号集合：

1)与步骤s1中用户输入的评论具有相同情感类别；

2)与步骤s1中用户输入的限定条件不冲突。

进一步地，所述子步骤d中，具体的方法是，利用所述的表情符号插入规则，对步骤s1获得初始评论集合中的评论，依次插入表情符号作为新评论。优选地，动态调整评论生成顺序，以提高最终评论的多样性。获得的新评论集合需要去重处理；当获得指定数量的新评论后，评论生成操作结束。

本发明还提供了一种评论扩展系统，包括：

预处理模块，对用户输入的评论进行预处理；

评论生成模块，利用表情符号扩展的方法产生指定数量的新评论。

进一步地，所述的预处理模块，包括子模块：

情感计算子模块，用于分析用户输入评论的情感类别；

预扩展子模块，对输入评论进行预扩展处理获得初始评论集合。

进一步地，所述的评论生成模块，包括子模块：

表情符号选择子模块，用于从表情库中获取候选表情符号集合；

扩展子模块，用于使用表情符插入规则扩展评论。

本发明提出的技术方案，与其他现有技术相比，最大的优点是，可以在短时间内生成大批量的与输入评论主题相关的评论。在一些实施例中，通过该技术方案，可以生成超过十万条与输入评论主题相关的评论。

附图说明

图1为本发明实施例中一种基于主题词的评论扩展方法的流程图；

图2为本发明实例例中一种基于主题词的评论扩展系统的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一:

参照图1，本实施例提供一种评论扩展方法，包括以下步骤：

步骤s1、对用户输入的评论进行预处理；

用户输入的评论，可以包括待扩展评论、主题词及限定条件。所述的主题词，是指用户标识的、存在于所述待扩展的评论中的关键词；所述的限定条件，可以包括新评论指定使用的社交平台、新评论的生成数量等；所述的用户输入的评论中，待扩展评论是必须的；主题、限定条件可以缺失；需要指出的是，输入的主题词的数量大于等于零，且主题词必须存在于输入评论中。举例来说，假设用户希望对评论“太厉害了”进行扩展，用户除了输入该待扩展评论外，还可以指定主题词“厉害”，以确定产生的新评论的主题为“厉害”。用户还可以增加限定条件，如需要生成100条评论，又如，评论用于a平台。预先构建平台词典，平台字典中记录了各个平台的特征，如支持的表情符类型、评论字数长度等；当用户指定评论用于a平台后，在后续的处理步骤中，会使用a平台的特征，作为新评论的一个限定条件。

步骤s1所指的预处理，具体包括：

a、分析用户输入评论的情感类别；

b、对输入评论进行预扩展处理获得初始评论集合。

所述子步骤a中，所述的分析所述用户输入的评论的情感类别，是指利用情感计算模型计算用户输入的评论所属的情感类别，如快乐、悲伤、失望等。优选地，情感计算模型，通过使用带情感类别数据集合训练得到。举例来说，利用情感计算模型，评论“影视界中的一股清流”的情感类别为“赞扬”，“研发投入太低，掉队啦”的情感类别为“失望”。

步骤s1的子步骤b，所述的原理是，利用现有的技术生成语义相关的评论。由于现有技术的限制，生成的语义相关的评论数量有限，但可以作为输入评论的扩展。

步骤s1的子步骤b中，所述的对输入评论进行预扩展，方法可以包括：

1)在评论数据集中按照相关性获取相似评论列表。具体为：提前准备评论数据集，数据集中记录评论的句子向量、情感类别等信息；利用输入评论的句子向量、情感类别等信息，从评论数据集中获取相似度超过一定阈值或指定条数的评论作为相似评论。优选地，可以使用word2vec的方式生成评论的句子向量。

2)使用预设规则对候选评论集进行评论扩展。所述的预设规则，可以包括，近义词替换、词语位置互换等规则。所述的候选评论集，可以仅包含输入评论，也可以是输入评论与前述方法获取的相似评论集合的合集。使用预设规则对候选评论集进行评论扩展，其具体的操作是，对候选评论集中的每条评论，选择与其匹配的规则进行执行，得到新评论。最终获取到的评论需要作去重处理。

优选地，如果步骤s1获得的初始评论集合数量达到用户要求后，评论扩展操作可以提前结束。

步骤s2、利用表情符号扩展的方法产生指定数量的新评论；

步骤s2中所述的表情符号，是指能表达情感/情绪的符号，包括普通文字、颜文字、表情符等。所述的普通文字，是指诸如“666”、“加油”等表达情感/情绪的普通文字。所述的颜文字，是指诸如“<(￣︶￣)>”(表达满足且得意情绪)、“(>﹏<)”(表达痛苦情绪)等一类利用特定字符编排其组合次序，形成的表情符号作品。所述的表情符，即为日常使用的emoji。

可选地，所述s2中所述的表情符号，还包括用于传达情感/情绪信息的图片或视频片段，所述的可以传达情感/情绪信息的图片或视频片段，包括以时下流行的名人、语录、漫画及影视截图为素材，配上一系列相匹配的文字，用以表达特定情感的图片或视频片段。

步骤s2所采用的原理是利用通过带表情符的评论集学习到或者人工编写的表情符插入规则，在评论中插入与评论情感类别一致的表情符号的方法，将一条评论变成多条。所述的表情符插入规则，使用表情标签对表情符进行泛化。表情符号有表情标签属性，一个表情符号至少有一个表情标签属性。在表情符使用规则中，出现表情标签，代表具有该表情标签的表情符号等能使用该规则。

步骤s2的方法具体包括：

c、从表情库中获取候选表情符号集合；

d、使用表情符插入规则扩展评论。

步骤s2中的子步骤c中，所述的表情库，以二元组<e,b>的方式存储所述的表情符号。其中，e为表情符号本身，b为记录该表情符号所属的情感类别、数据集中出现的权重、适用的社交平台、表情标签列表等信息的属性序列。

步骤s2中的子步骤c中，所述的从表情库中获取候选表情符号集合，具体为从所述表情库中获取同时满足以下条件的表情符号集合：

3)与步骤s1中用户输入的评论具有相同情感类别；

4)与步骤s1中用户输入的限定条件不冲突。

步骤s2中的子步骤d中，具体的方法是，利用所述的表情符号插入规则，对步骤s1获得初始评论集合中的评论，依次插入表情符号作为新评论。优选地，动态调整评论生成顺序，以提高最终评论的多样性。获得的新评论集合需要去重处理；当获得指定数量的新评论后，评论生成操作结束。

步骤s2中的子步骤d中，所述的表情符号插入规则，利用通过带表情符的评论集学习到或者人工编写得到。举例来说，表情符号插入规则“*<very><obj_pleasing>*||<emoji_pleasing>[end,<obj_pleasing>]{1-3}”，“||”前的部分代表规则匹配条件，||”后的部分代表规则扩展操作；规则中<very>表示程度副词；<obj_pleasing>表示表示喜爱情感的形容词；<emoji_pleasing>表示一种表情标签，用来指示表情符号的泛化；[end,<obj_pleasing>]表示表情标签可以放到评论结尾或替代<obj_pleasing>词；{1-3}表示表情符号可以重复1到3次。评论“小狗太可爱了！”满足“<very><obj_pleasing>”的要求(此处，<very>对应“太”，<obj_pleasing>对应“可爱”)，可以应用该规则。评论可以依据规则可以先扩展出“<very><emoji_pleasing>*”，“<very><emoji_pleasing><emoji_pleasing>*”，“<very><emoji_pleasing><emoji_pleasing><emoji_pleasing>*”，“<very><obj_pleasing>*<emoji_pleasing>”,

“<very><obj_pleasing>*<emoji_pleasing><emoji_pleasing>”和“<very><obj_pleasing>*<emoji_pleasing><emoji_pleasing><emoji_pleasing>”六种模板；再将每个泛化符号的内容填入模板中，即可得到相应的具体的评论。假设步骤s2的子步骤c获取的表情符号集合中，有n个表情符都具有<emoji_pleasing>的表情标签，则理论上，评论“小狗太可爱了”，依据该规则，可以扩展出6n条新评论。值得指出的是，同一条评论、同一条规则、一个规则下同一个模板使用过多，会降低最终获取到的评论集合的多样性。因此，需要动态调整评论生成顺序，以提高最终评论的多样性。

实施例二:

参照图2，本实施例提供一种评论扩展系统，包括预处理模块p1、评论生成模块p2。

预处理模块，对用户输入的评论进行预处理；

评论生成模块，利用表情符号扩展的方法产生指定数量的新评论。

进一步地，所述的预处理模块，包括子模块：

情感计算子模块，用于分析用户输入评论的情感类别；

预扩展子模块，对输入评论进行预扩展处理获得初始评论集合。

进一步地，所述的评论生成模块，包括子模块：

表情符号选择子模块，用于从表情库中获取候选表情符号集合；

扩展子模块，用于使用表情符插入规则扩展评论。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上对本申请所提供的商品推荐方法及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所述，仅是发明的较佳实施例而已，并非对发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯荣坤;万里;黄娜
技术所有人：深圳市比量科技传媒有限公司
我是此专利的发明人

上一篇：一种对位补给机器人及其对位方法与流程
上一篇：汽车零部件清洗用机械手臂的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。