处理弹幕信息的方法、装置及系统与流程

文档序号:12136488阅读:226来源:国知局
处理弹幕信息的方法、装置及系统与流程

本发明涉及互联网技术领域,尤其涉及一种处理弹幕信息的方法、装置及系统。



背景技术:

网络直播是一种将主播的视频直播数据流广播至多个观众进行观看的一种视频直播方式。通过网络直播用户不仅可以作为观众观看各个主播的直播视频,还可以作为主播将自身的直播视频传输给其他用户观看,且操作十分方便。

为了丰富主播与观众之间的互动性,现有技术中提供了一种名为“弹幕”的互动方式。观众在观众客户端开启弹幕功能后,可以向外发送弹幕;主播在主播客户端开启弹幕功能后,可以接收并显示各个观众客户端发送的弹幕信息。在实际应用中,常常存在谩骂、诅咒等污秽内容的弹幕信息,从而给主播带来一定的心理影响。为了避免主播看到这些污秽弹幕,现有技术中设置有屏蔽弹幕的按钮,当主播不想看某条弹幕时,可以手动选择屏蔽按钮进行屏蔽。

然而,发明人在实现上述发明的过程中发现,当污秽弹幕较多时,主播需要手动对这些污秽弹幕依次进行屏蔽,操作十分繁琐。



技术实现要素:

本发明实施例提供一种处理弹幕信息的方法、装置及系统,其目的在于通过实现污秽弹幕的自动识别与屏蔽,简化用户操作,提高处理效率。

第一方面,本发明实施例提供了一种处理弹幕信息的方法,所述方法包括:

获取待显示的弹幕信息;

利用预设污秽词识别模型对所述弹幕信息进行污秽识别;

若识别结果为所述弹幕信息中包括污秽词,则将所述弹幕信息进行屏蔽。

第二方面,本发明实施例提供了一种处理弹幕信息的方法,所述方法包括:

获取训练样本;

对所述训练样本中的语句进行分词处理;

利用深度学习技术对处理后的训练样本进行模型训练,获得预设污秽词识别模型;

将所述预设污秽词识别模型发送给客户端,以便所述客户端利用所述预设污秽词识别模型对弹幕信息进行污秽识别操作。

第三方面,本发明实施例提供了一种处理弹幕信息的装置,所述装置包括:

获取单元,用于获取待显示的弹幕信息;

识别单元,用于利用预设污秽词识别模型对所述获取单元获得的所述弹幕信息进行污秽识别;

屏蔽单元,用于当所述识别单元的识别结果为所述弹幕信息中包括污秽词时,将所述弹幕信息进行屏蔽。

第四方面,本发明实施例提供了一种处理弹幕信息的装置,所述装置包括:

获取单元,用于获取训练样本;

处理单元,用于对所述获取单元获得的所述训练样本中的语句进行分词处理;

训练单元,用于利用深度学习技术对所述处理单元处理后的训练样本进行模型训练,获得预设污秽词识别模型;

发送单元,用于将所述训练单元获得的所述预设污秽词识别模型发送给客户端,以便所述客户端利用所述预设污秽词识别模型对弹幕信息进行污秽识别操作。

第五方面,本发明实施例提供了一种处理弹幕信息的系统,所述系统包括客户端和服务器;其中,

所述服务器用于获取训练样本,对所述训练样本中的语句进行分词处理,利用深度学习技术对处理后的训练样本进行模型训练,获得预设污秽词识别模型,将所述预设污秽词识别模型发送给所述客户端;

所述客户端用于接收所述服务器发送的预设污秽词识别模型,并在获取待显示的弹幕信息后;利用所述预设污秽词识别模型对所述弹幕信息进行污秽识别,若识别结果为所述弹幕信息中包括污秽词,则将所述弹幕信息进行屏蔽。

本发明实施例提供的处理弹幕信息的方法、装置及系统,能够在客户端获取待显示的弹幕信息后,并不是直接将该弹幕信息显示在客户端界面上,而是先利用预设污秽词识别模型对该弹幕信息进行污秽识别操作,当确定该弹幕信息中没有污秽词时,才进行显示,而当确定该弹幕信息中包括污秽词时,直接对其进行屏蔽。由此可知,本发明实施例能够对污秽弹幕进行自动识别与屏蔽,而无需用户进行手动屏蔽,从而简化了用户操作,提高了屏蔽污秽弹幕的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种处理弹幕信息的方法的流程图;

图2为本发明实施例提供的另一种处理弹幕信息的方法的流程图;

图3为本发明实施例提供的一种处理弹幕信息的装置的组成框图;

图4为本发明实施例提供的另一种处理弹幕信息的装置的组成框图;

图5为本发明实施例提供的另一种处理弹幕信息的装置的组成框图;

图6为本发明实施例提供的一种处理弹幕信息的系统的组成框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了解决现有技术中手动屏蔽污秽弹幕操作繁琐、效率低的问题,本发明实施例提供了一种处理弹幕信息的方法,该方法主要应用于主播客户端侧,如图1所示,该方法主要包括:

101、获取待显示的弹幕信息。

当观众基于观众客户端发送弹幕信息后,服务器能够接收到各个观众客户端发送的弹幕信息,并将这些弹幕信息反馈给主播客户端,以便主播客户端在获得这些弹幕信息后,执行下述步骤102-103。

需要补充的是,主播客户端侧可以设置一个污秽识别按钮,用户可以通过点击该按钮开启或关闭污秽识别功能。

102、利用预设污秽词识别模型对所述弹幕信息进行污秽识别。

其中,预设污秽词识别模型为利用深度学习技术训练而得的网络结构模型;或者,预设污秽词识别模型为预先设置的污秽词词典,即由人工收集的大量污秽词构成的污秽词词典。

当预设污秽词识别模型为利用深度学习技术训练而得的模型时,在获取到待显示的弹幕信息后,主播客户端可以先利用分词工具(例如条件随机场模型)对该弹幕信息进行分词处理,然后将各个词语输入至预设污秽词识别模型中进行污秽词识别,最后获得识别结果;当预设污秽词识别模型为污秽词词典,主播客户端也需要先利用分词工具对该弹幕信息进行分词处理,然后将获得的每个词语分别与污秽词词典进行匹配,若发现某个词语存在于污秽词词典中,则确定该弹幕信息为污秽弹幕,若各个词语均没有在污秽词词典中,则确定该弹幕信息为正常弹幕。

此外,预设污秽词识别模型可以为基于当前终端训练或者设置的模型,也可以为基于服务器训练或设置的模型,还可以为基于任何一个具有模型训练功能的其他设备训练或设置的模型。因此,主播客户端获取预设污秽词识别模型具体实现方式可以为:获取基于当前终端训练或设置的预设污秽词识别模型;或者,接收服务器或者其他设备发送的预设污秽词识别模型。

103、若识别结果为所述弹幕信息中包括污秽词,则将所述弹幕信息进行屏蔽。

当识别结果为该弹幕信息中包括污秽词时,主播客户端会直接对其进行屏蔽,当识别结果为该弹幕信息中没有污秽词时,主播客户端才对该弹幕信息进行输出显示。

本发明实施例提供的处理弹幕信息的方法,能够在客户端获取待显示的弹幕信息后,并不是直接将该弹幕信息显示在客户端界面上,而是先利用预设污秽词识别模型对该弹幕信息进行污秽识别操作,当确定该弹幕信息中没有污秽词时,才进行显示,而当确定该弹幕信息中包括污秽词时,直接对其进行屏蔽。由此可知,本发明实施例能够对污秽弹幕进行自动识别与屏蔽,而无需用户进行手动屏蔽,从而简化了用户操作,提高了屏蔽污秽弹幕的效率。

进一步的,当预设污秽词识别模型为利用深度学习技术训练而得的网络结构模型时,基于当前终端训练预设污秽词识别模型的具体实现方式可以为:(1)获取训练样本;(2)对训练样本中的语句进行分词处理;(3)利用深度学习技术对处理后的训练样本进行模型训练,获得预设污秽词识别模型。

其中,上述步骤(1)-(3)涉及的详细内容可以见下述实施例中的步骤201-203。

与人工收集污秽词建立污秽词词典相比,本发明实施例通过利用深度学习技术自动训练用于识别污秽词的预设污秽词识别模型,可以减少人力、提高获取预设污秽词识别模型的效率。

进一步的,依据上述实施例,本发明的另一个实施例还提供了一种处理弹幕信息的方法,该方法主要应用于服务器侧,如图2所示,该方法主要包括:

201、获取训练样本。

其中,训练样本包括各个观众客户端发送的历史弹幕信息、其他网络平台中的历史评论信息。获取其他网络平台中的历史评论信息的具体实现方法可以为:通过爬虫技术爬取网页中的评论信息。

202、对所述训练样本中的语句进行分词处理。

在获得包含大量评论信息的训练样本后,服务器可以利用分词工具对这些评论信息进行分词处理,获得大量的词语。例如,若某条评论为“主播长得非常丑”,则分词处理后的结果为“主播、长得、非常、丑”。

203、利用深度学习技术对处理后的训练样本进行模型训练,获得预设污秽词识别模型。

具体的,在获得处理后的训练样本后,服务器可以将处理后的训练样本作为输入,使用深度学习技术对其进行训练,输出一个训练值。在输出训练值后,先将该训练值与目标值进行比较获得一个误差值,再将该误差值与预设的最大误差值进行比较;若该误差值大于预设的最大误差值,则继续进行模型训练;若该误差值小于或者等于预设的最大误差值,则停止模型训练,获得最终需要的预设污秽词识别模型。

204、将所述预设污秽词识别模型发送给客户端,以便所述客户端利用所述预设污秽词识别模型对弹幕信息进行污秽识别操作。

当预设污秽词识别模型训练完成后,服务器可以将该预设污秽词识别模型下发给各个主播客户端,以便主播客户端在接收到弹幕信息后,先利用预设污秽词识别模型对弹幕信息进行污秽识别操作,再确定是否将其输出显示给主播浏览。

本发明实施例提供的处理弹幕信息的方法,能够由服务器利用深度学习技术对训练样本进行训练,获得用于识别污秽词的预设污秽词识别模型,并将该预设污秽词识别模型下发给各个主播客户端,从而使得主播客户端能够利用预设污秽词识别模型实现对弹幕信息的自动识别与屏蔽,而无需用户进行手动屏蔽,进而简化了用户操作,提高了屏蔽污秽弹幕的效率。

进一步的,依据图1所示的实施例,本发明的另一个实施例还提供了一种一种处理弹幕信息的装置,该装置主要应用于客户端侧,如图3所示,该装置主要包括获取单元31、识别单元32、屏蔽单元33。其中,

获取单元31,用于获取待显示的弹幕信息;

其中,主播客户端侧可以设置一个污秽识别按钮,用户可以通过点击该按钮开启或关闭污秽识别功能。当开启污秽识别功能后,获取单元31获取待显示的弹幕信息后,会将该弹幕信息转发给识别单元32进行污秽识别;当关闭污秽识别功能后,获取单元31获取弹幕信息后,会直接交由显示单元进行显示。

识别单元32,用于利用预设污秽词识别模型对所述获取单元31获得的所述弹幕信息进行污秽识别;

屏蔽单元33,用于当所述识别单元32的识别结果为所述弹幕信息中包括污秽词时,将所述弹幕信息进行屏蔽。

当所述识别单元32的识别结果为所述弹幕信息中没有污秽词时,显示单元可以将所述弹幕信息进行输出显示。

本发明实施例提供的处理弹幕信息的装置,能够在客户端获取待显示的弹幕信息后,并不是直接将该弹幕信息显示在客户端界面上,而是先利用预设污秽词识别模型对该弹幕信息进行污秽识别操作,当确定该弹幕信息中没有污秽词时,才进行显示,而当确定该弹幕信息中包括污秽词时,直接对其进行屏蔽。由此可知,本发明实施例能够对污秽弹幕进行自动识别与屏蔽,而无需用户进行手动屏蔽,从而简化了用户操作,提高了屏蔽污秽弹幕的效率。

进一步的,所述预设污秽词识别模型为利用深度学习技术训练而得的网络结构模型;

或者,所述预设污秽词识别模型为预先设置的污秽词词典。

当预设污秽词识别模型为利用深度学习技术训练而得的模型时,在获取到待显示的弹幕信息后,主播客户端可以先利用分词工具(例如条件随机场模型)对该弹幕信息进行分词处理,然后将各个词语输入至预设污秽词识别模型中进行污秽词识别,最后获得识别结果;当预设污秽词识别模型为污秽词词典,主播客户端也需要先利用分词工具对该弹幕信息进行分词处理,然后将获得的每个词语分别与污秽词词典进行匹配,若发现某个词语存在于污秽词词典中,则确定该弹幕信息为污秽弹幕,若各个词语均没有在污秽词词典中,则确定该弹幕信息为正常弹幕。

进一步的,如图4所示,所述装置还包括:

接收单元34,用于在利用预设污秽词识别模型对所述弹幕信息进行污秽识别之前,接收服务器发送的预设污秽词识别模型;

所述获取单元31还用于获取基于当前终端训练或设置的预设污秽词识别模型。

进一步的,所述获取单元31还用于当所述预设污秽词识别模型为利用深度学习技术训练而得的网络结构模型时,在获取基于当前终端训练的预设污秽词识别模型之前,获取训练样本;

如图4所示,所述装置还包括:

处理单元35,用于对所述获取单元31获得的所述训练样本中的语句进行分词处理;

训练单元36,用于利用所述深度学习技术对所述处理单元35处理后的训练样本进行模型训练,获得所述预设污秽词识别模型。

与人工收集污秽词建立污秽词词典相比,本发明实施例通过利用深度学习技术自动训练用于识别污秽词的预设污秽词识别模型,可以减少人力、提高获取预设污秽词识别模型的效率。

进一步的,依据图2所示的实施例,本发明的另一个实施例还提供了一种一种处理弹幕信息的装置,该装置主要应用于服务器侧,如图5所示,该装置主要包括获取单元41、处理单元42、训练单元43以及发送单元44。其中,

获取单元41,用于获取训练样本;

其中,训练样本包括历史弹幕信息、其他网络平台中的历史评论信息。

处理单元42,用于对所述获取单元41获得的所述训练样本中的语句进行分词处理;

训练单元43,用于利用深度学习技术对所述处理单元42处理后的训练样本进行模型训练,获得预设污秽词识别模型;

具体的,在获得处理后的训练样本后,训练单元43可以将处理后的训练样本作为输入,使用深度学习技术对其进行训练,输出一个训练值。在输出训练值后,先将该训练值与目标值进行比较获得一个误差值,再将该误差值与预设的最大误差值进行比较;若该误差值大于预设的最大误差值,则继续进行模型训练;若该误差值小于或者等于预设的最大误差值,则停止模型训练,获得最终需要的预设污秽词识别模型。

发送单元44,用于将所述训练单元43获得的所述预设污秽词识别模型发送给客户端,以便所述客户端利用所述预设污秽词识别模型对弹幕信息进行污秽识别操作。

本发明实施例提供的处理弹幕信息的装置,能够由服务器利用深度学习技术对训练样本进行训练,获得用于识别污秽词的预设污秽词识别模型,并将该预设污秽词识别模型下发给各个主播客户端,从而使得主播客户端能够利用预设污秽词识别模型实现对弹幕信息的自动识别与屏蔽,而无需用户进行手动屏蔽,进而简化了用户操作,提高了屏蔽污秽弹幕的效率。

进一步的,本发明的另一个实施例还提供了一种处理弹幕信息的系统,如图6所示,所述系统包括客户端51和服务器52;其中,

所述服务器52用于获取训练样本,对所述训练样本中的语句进行分词处理,利用深度学习技术对处理后的训练样本进行模型训练,获得预设污秽词识别模型,将所述预设污秽词识别模型发送给所述客户端51;

所述客户端51用于接收所述服务器52发送的预设污秽词识别模型,并在获取待显示的弹幕信息后;利用所述预设污秽词识别模型对所述弹幕信息进行污秽识别,若识别结果为所述弹幕信息中包括污秽词,则将所述弹幕信息进行屏蔽。

本发明实施例提供的处理弹幕信息的系统,能够由服务器利用深度学习技术对训练样本进行训练,获得用于识别污秽词的预设污秽词识别模型,并将该预设污秽词识别模型下发给各个主播客户端,从而使得主播客户端能够利用预设污秽词识别模型实现对弹幕信息的自动识别与屏蔽,而无需用户进行手动屏蔽,进而简化了用户操作,提高了屏蔽污秽弹幕的效率。

上述装置、系统实施例与前述方法实施例对应,为便于阅读,上述装置、系统实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,上述实施例中的装置、系统能够对应实现前述方法实施例中的全部内容。

所述识别交通灯状态信息的装置包括处理器和存储器,上述获取单元、识别单元、屏蔽单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动识别并屏蔽污秽弹幕。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:

获取待显示的弹幕信息;

利用预设污秽词识别模型对所述弹幕信息进行污秽识别;

若识别结果为所述弹幕信息中包括污秽词,则将所述弹幕信息进行屏蔽。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1