直播主题样本提取方法、存储介质、电子设备及系统与流程

文档序号:16628685发布日期:2019-01-16 06:21阅读:200来源:国知局
直播主题样本提取方法、存储介质、电子设备及系统与流程

本发明涉及直播弹幕过滤领域,具体涉及一种直播主题样本提取方法、存储介质、电子设备及系统。



背景技术:

随着直播行业的快速发展,越来越多的用户喜爱观看直播。直播平台为了提升用户体验,对每个直播对象(例如直播平台、直播间和直播用户)都设置了直播主题。为了对直播主题进行精细化总结和管理,直播平台会根据直播主题提取每个直播对象的直播主题样本。

目前,现有根据直播主题提取每个直播对象的直播主题样本的方法一般为:人工监测指定周期内直播对象的文字数据(即弹幕),在监测到的所有文字数据中提取直播主题样本。

但是,上述根据直播主题提取每个直播对象的直播主题样本的方法。存在以下缺陷:

当直播对象较多时,需要大量的人工来监测每个直播对象的文字数据,不仅大量增加了运营成本,而且人工监测和提取直播主题样本的工作效率和工作精度均较低。



技术实现要素:

针对现有技术中存在的缺陷,本发明解决的技术问题为:如何自动提取直播主题样本。本发明提取直播主题样本时,能够显著减小运营成本,大幅度提高工作效率和工作精度;还能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。

为达到以上目的,本发明提供的直播主题样本提取方法,包括以下步骤:

s1:服务端获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,转到s2;

s2:服务端设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,转到s3;

s3:服务端在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,转到s4;

s4:服务端将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据a进行加权计算,得到加权值x,计算公式为x=tf·idf,tf代表a对应的直播主题样本的词频,tf=a/c,c代表在s1中的所有文字信息中,每个直播主题样本对应的出现次数之和;idf=log(w1/w2),w1代表出现过a对应的直播主题样本的文字数据对象的数量,w2代表s1中的所有文字数据对象的数量。

在上述技术方案的基础上,s2还包括以下步骤:为每个所述直播主题样本设置对应的关联信息;s3中所述直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。

在上述技术方案的基础上,s3中所述在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还包括以下步骤:服务端设置停用词,在所有子文字数据对象的文字信息中剔除停用词。

本发明提供的存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述直播主题样本提取方法。

本发明提供的电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述直播主题样本提取方法。

本发明提供的直播主题样本提取系统,包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块;

文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号;

样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,向直播样本向量设置模块发送直播样本向量设置信号;

直播样本向量设置模块用于:收到直播样本向量设置信号后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号;

直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据a进行加权计算,得到加权值x,计算公式为x=tf·idf,tf代表a对应的直播主题样本的词频,tf=a/c,c代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;idf=log(w1/w2),w1代表出现过a对应的直播主题样本的文字数据对象的数量,w2代表文字数据信息获取模块中的所有文字数据对象的数量。

与现有技术相比,本发明的优点在于:

(1)参见本发明s1至s4可知,与现有技术中的人工操作相比,本发明能够自动统计直播主题样本的出现次数并进行提取,不仅显著减小了运营成本,而且大幅度提高了工作效率和工作精度。

与此同时,与文字展现的直播主题样本相比,本发明能够将直播主题样本以向量的形式展现;对于统计和识别而言,向量(即数字)能够统一进行统计、识别以及进行后续处理,而文字则不可能达到上述效果。因此本发明能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。

进一步,参加本发明s4可知,本发明得到直播主题样本向量,会对直播主题样本向量进行tf-idf加权计算,该算法得到的加权值能够体现出对应直播主题样本区分能力的强弱,进而为后续的直播主题样本分类处理打下了良好的基础:例如某直播主题样本在1个文字数据对象的文字信息中出现的频率较高,但在其他文字数据对象的文字信息中出现的频率较低,则该直播主题样本具有很好的类别区分能力,适合用来分类。

(2)参见本发明s2和s3可知,本发明在统计直播主体样本时,将直播主题样本和主播主题样本的关联信息的出现次数,均作为同一直播主题样本的出现次数,进而将非通俗用语通过关联信息识别为对应的直播主题样本,以此来进一步提高提取精度。

(3)参见本发明s3可知,本发明在统计直播主题样本之前,对文字信息进行了停用词的过滤,进行简化了文字信息的数据量;与直接在完整的文字信息中统计直播主题样本的出现次数相比,本发明在简化后的文字信息中统计直播主题样本的工作量较小,进而提高了工作效率。

附图说明

图1为本发明实施例中直播主题样本提取方法的流程图;

图2为本发明实施例中电子设备的连接框图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示,本发明实施例中的直播主题样本提取方法,包括以下步骤:

s1:服务端在hive(非关系型数据库)中,利用数据库查询语句获取指定周期(至少15天,本实施例中为1个月)内需要提取直播主题样本的直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息(以便后续可以分类管理),每组子文字数据信息包括子文字数据对象和对应的文字信息,转到s2。

s1中直播对象为直播平台、直播间或直播用户:

当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在指定周期内收到的所有弹幕;

当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;

当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。

s2:服务端设置若干在s1中文字信息中出现过的直播主题样本(关键词或字),实际应用中直播主题样本的数量根据文字信息的多少来决定,若文字信息较多,则直播主题样本数量较多,例如40万个;为每个直播主题样本设置对应的关联信息,将所有直播主题样本保存形成样本词库,转到s3。

s2中设置直播主题样本的目的为:让与直播主题样本相同的文字信息不会被切分为单独的字,例如直播主题样本为“裸狼”(狼人杀游戏的专有术语),则文字信息中若出现“裸狼”,则不会在后续别切分为“裸”和“狼”两个单字。

s2中为每个直播主题样本设置对应的关联信息的目的为:将非通俗用语识别为通俗用语,以提高提取精度。例如本实施例中的3个直播主题样本分别为“喝彩”、“手机联系方式”和“qq联系方式”;

“喝彩”的关联信息为“666”,此时文字信息中若含有“666”,则会在后续自动识别为“喝彩”;

“手机联系方式”的关联信息为:1开头的11位连续数字的组合,此时文字信息中若含有“13617258349”,则会在后续自动识别为“手机联系方式”;

“qq联系方式”的关联信息为:“qq”和6至10位连续数字的组合,此时文字信息中若含有“qq324567865”,则会在后续自动识别为“qq联系方式”。

s3:服务端设置若干停用词,在所有子文字数据对象的文字信息中剔除停用词后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,例如:

样本词库中前4个直播主题样本的排列顺序为:“主播”、“裸狼”、“玩”和“太棒”,此时子文字数据对象的文字信息中“主播”、“裸狼”和“玩”各出现了1次,“太棒”出现了2次,假定当前子文字数据对象的文字信息中没有出现其他的直播主题样本,则当前文字数据对象的直播样本向量为1,1,1,2,0,0,0,0…,0,0的数量为样本词库中直播主题样本的数量减4,转到s4。

通过s3可知,本发明实施例在统计直播主题样本之前,对文字信息进行了停用词的过滤,进行简化了文字信息的数据量;与直接在完整的文字信息中统计直播主题样本的出现次数相比,本发明在简化后的文字信息中统计直播主题样本的工作量较小,进而提高了工作效率。

s4:服务端将所有直播样本向量相加,得到直播主题样本向量,例如:直播样本向量为a(x1,x2,0,0,0…,0)和b(y1,y2,0,0,0…,0),a+b=x1+y1,x2+y2,0,0,0…,0。根据tf-idf(termfrequency–inversedocumentfrequency,用于信息检索与数据挖掘的常用加权技术),对直播主题样本向量中的每个数据a进行加权计算,得到加权值x;计算公式为x=tf·idf,tf代表a对应的直播主题样本的词频,tf=a/c,c代表在s1中所有文字信息中,每个直播主题样本对应的出现次数之和;idf=log(w1/w2),log(w1/w2)代表,w1/w2的对数,w1代表s1中出现过a对应的直播主题样本的文字数据对象的数量,w2代表s1中所有文字数据对象的数量。

通过s1至s4可知,与文字展现的直播主题样本相比,本发明实施例能够将直播主题样本以向量的形式展现;对于统计和识别而言,向量(即数字)能够统一进行统计、识别以及进行后续处理,而文字则不可能达到上述效果。因此本发明实施例能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。

进一步,参加s4可知,本发明实施例得到直播主题样本向量,会对直播主题样本向量进行tf-idf加权计算,该算法得到的加权值能够体现出对应直播主题样本区分能力的强弱,进而为后续的直播主题样本分类处理打下了良好的基础:例如某直播主题样本在1个文字数据对象的文字信息中出现的频率较高,但在其他文字数据对象的文字信息中出现的频率较低,则该直播主题样本具有很好的类别区分能力,适合用来分类。

本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述直播主题样本提取方法。需要说明的是,所述存储介质包括u盘、移动硬盘、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示,本发明实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述直播主题样本提取方法。

本发明实施例中的直播主题样本提取系统,包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块。

文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号。

文字数据信息获取模块的直播对象为直播平台、直播间或直播用户:

当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;

当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;

当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。

样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,为每个所述直播主题样本设置对应的关联信息;向直播样本向量设置模块发送直播样本向量设置信号。

直播样本向量设置模块用于:收到直播样本向量设置信号后,设置停用词,在所有子文字数据对象的文字信息中剔除停用词。在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数,直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号。

直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据a进行加权计算,得到加权值x,计算公式为x=tf·idf,tf代表a对应的直播主题样本的词频,tf=a/c,c代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;idf=log(w1/w2),w1代表出现过a对应的直播主题样本的文字数据对象的数量,w2代表文字数据信息获取模块中的所有文字数据对象的数量。

需要说明的是:本发明实施例提供的系统在进行模块间通信时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

进一步,本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1