一种数据处理方法、装置、存储介质和电子设备与流程

文档序号:17762945发布日期:2019-05-24 21:52阅读:157来源:国知局
一种数据处理方法、装置、存储介质和电子设备与流程

本发明涉及数据处理领域,尤其涉及一种数据处理方法、装置、存储介质和电子设备。



背景技术:

自然语言理解(naturelanguageunderstanding,nlu)技术作为一种崭新的人机交互方式,引发了人们的广泛关注。自然语言理解是研究如何让电脑读懂人类的语言,是自然语言处理(naturelanguageprocessing,nlp)中最困难的一项,旨在用结构化的信息来表示人类的语言。领域分类(domainclassification)是nlu中结构化表示文本的一环,根据语义协议,事先将自然语言全集划分为多个领域,如天气、问答、导航等,nlu在领域分类环节使用多分类模型将自然语言自动化分到各个领域中去。

语音请求是人机交互过程中最常见的请求之一,在手机语音助手、电视语音助手与车载语音助手中尤为常见。然而,将请求正确分类与结构化处理非常困难。



技术实现要素:

有鉴于此,本发明实施例提供了一种数据处理方法、装置、存储介质和电子设备,能够提高对语音请求分类的准确性。

第一方面,本发明实施例提供一种数据处理方法,所述方法包括:

连接作品源网站,获取所述作品源网站的网页数据;

根据所述作品源网站的网页数据获取作品名称列表;

根据作品名称列表和预定的黑名单确定名称词语列表;

根据所述名称词语列表更新词库中文本的特征,所述词库用于辅助自然语言学习模型解析语音请求。

优选地,所述根据所述作品源网站的网页数据获取作品名称列表包括:

获取作品名称字符串;

确定字符串中的异常值;

清洗包含异常值的字符串以获取作品名称列表。

优选地,所述根据作品名称列表和黑名单确定名称词语列表包括:

将黑名单中的词语从作品名称列表中删除,以确定名称词语列表。

优选地,在获取作品名称列表后,所述方法还包括:

将预定白名单中的词语添加到名称词语列表。

优选地,所述根据词语列表更新词库中文本的特征包括:

响应于所述词语列表中的词语在词库中存在重复词语,增加所述词语的特征。

优选地,所述根据词语列表更新词库中文本的特征包括:

响应于所述词语列表中的词语在词库中不存在重复词语,将所述词语添加到词库中。

优选地,所述作品源网站包括视频网站,音频网站以及图书网站。

第二方面,本发明实施例提供一种信息处理装置,所述装置包括:

连接单元,用于连接作品源网站,获取所述作品源网站的网页数据;

作品名称列表获取单元,用于根据所述作品源网站的网页数据获取作品名称列表;

名称词语列表确定单元,用于根据作品名称列表和预定的黑名单确定名称词语列表;

文本特征更新单元,用于根据所述名称词语列表更新词库中文本的特征,所述词库用于辅助自然语言学习模型解析语音请求。

第三方面,本发明实施例提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

第四方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行如第一方面所述的方法。

本发明实施例通过连接作品源网站,获取所述作品源网站的网页数据,并根据所述作品源网站的网页数据获取作品名称列表,以获得包含特定特征的名称词语列表。进而,根据获得的名称词语列表对词库中文本的特征进行更新。能够提高对语音请求分类的准确性。

附图说明

通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:

图1是本发明第一实施例的数据处理方法的流程图;

图2是本发明第一实施例的根据所述作品源网站的网页数据获取作品名称列表的流程图。

图3是本发明第一实施例的应用场景界面示意图;

图4是本发明第二实施例的数据处理装置的示意图;

图5是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。

此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。

除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。

在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。

通常在深度学习中,提升模型的表达能力多从改变建模方式与增加数据入手,但是正确标注的训练数据往往比较难得,需要消耗较多的人力和财力。

先验知识是表现训练数据之外的额外信息,机器学习中使用先验知识可以有效的提升模型的表现。词库是包含了多个实体或关系词表的库,可以当作nlu实际生产中很重要的先验特征,将词语存在如地名、街道、歌曲、歌手、视频等领域。

但是在未知先验知识的情况下,将请求正确分类与结构化处理是一件很困难的事情。如新的电影、歌曲以及书籍的名称如果在词库中没有相应的特征标记,设备将很难对语音请求做出准确的判断。

序列标注(sequencelabeling)是自然语言理解中一个比较广泛的任务,通常使用标签分类算法将序列中的实体标注出来。特征(feature)在nlp中通常用来表示文本的特性,可以使用文本字符、词语词性、词典分类、语法结构等特征来表示文本的特征。及时的对词语的新的特征进行标注,更新词库中的词语的特征,能够有效提高自然语言学习模型解析语音请求的正确率。

所述语音请求是指用户对设备发出的指令,如“打电话”、“导航定位”、“搜索电影”以及“收索歌曲”等语音指令。所述接收语音请求的设备可以是电脑、智能手机、平板电脑、机器人、电子词典、点读机以及图书阅读器等可以进行人机交互的智能设备。

有鉴于此,本发明实施例提供一种数据处理方法,能够有效提高对语音请求做出判断的准确率。图1是本发明第一实施例的数据处理方法的流程图。如图1所示,本实施例的方法包括如下步骤:

步骤s100,连接作品源网站,获取所述作品源网站的网页数据。

具体地,所述获取网页数据的方法可以是采用爬虫获取。

具体地,所述作品源网站可以包括视频网站,音频网站以及图书网站等。所述视频可以包括电影、电视剧以及mv等视频,所述音频可以是歌曲以及有声读物等,所述图书可以是各类电子书籍。具体可以选择更新频率较高,作品热度较高的网站作为作品源网站,以保证获取的数据的有效性,从而提高语音识别的准确率和效率。所述视频网站可以是如猫眼电影、豆瓣电影以及互联网电影资料库(internetmoviedatabase,简称imdb)等网站。所述音频网站可以是qq音乐、酷我音乐以及喜马拉雅等网站。所述图书网站可以是豆瓣读书等网站。

具体地,连接作品源网站可以包括请求作品源网站的接口,以猫眼电影网站为例,可以获取正在上映与预上映的电影名称,由此可以获得最新的电影名称列表,避免重复获取无效的视频信息,可以同时确保获取的信息的准确性和提高信息获取的效率。

进一步地,可以判断当前网页是否是作品名称列表的最后一页,如果是最后一页,则执行步骤s200,如果不是最后一页,继续请求下一页,直到最后一页。

在另一种可选的实现方式中,可以仅获取当前页,然后继续执行步骤s200,由此获得当前页的作品名称列表。在获取当前页的作品名称列表后,再请求下一页的作品源网站的网页信息,执行步骤s200,以获取下一页的作品名称列表,将每一页的词语形成一个作品名称列表,分别添加到词库中。

步骤s200,根据所述作品源网站的网页数据获取作品名称列表。

具体地,如图2所示,步骤s200可以包括如下步骤:

步骤s201,获取作品名称字符串。

具体地,解析从作品源网站接口返回的结果,获取当前页面的视频名称字符串,

步骤s202,确定字符串中的异常值。

具体地,所述异常值可以是无意义的符号、数字或文字等。

步骤s203,清洗包含异常值的字符串以获取作品名称列表。

具体地,去除字符串中的异常值,以获取作品名称列表。

步骤s300,根据作品名称列表和预定的黑名单确定名称词语列表。

具体地,将黑名单中的词语从作品名称列表中删除。所述黑名单可以是在其他领域中的常用词,如“回家”常被用于请求地图导航,“打电话”常被用于请求通话,可以将“回家”以及“打电话”预先加入黑名单,以提高识别语音请求的准确性。

可选地,在步骤s200后,所述方法还可以包括步骤s300a,将预设的白名单中的词语添加到所述作品名称列表中。

所述白名单可以是人为预定的列表,并人为更新,用于对在作品源网站上获取的作品名称列表进行补充优化。由此,可以进一步确保词库中词语的特征及时被更新。所述白名单中的词语可以是已知的即将发行的作品名称。如,已知电影《龙猫》即将上映,可以将“龙猫”添加到白名单列表中,若在作品源网站中没有获取到“龙猫”,则将“龙猫”添加到作品名称列表中。

步骤s400,根据所述名称词语列表更新词库中文本的特征,所述词库用于辅助自然语言学习模型解析语音请求。

具体地,在一种可选的实现方式中,响应于所述词语列表中的词语在词库中存在重复词语,增加所述词语的特征。

在另一种可选的实现方式中,响应于所述词语列表中的词语在词库中不存在重复词语,将所述词语添加到词库中。

在本步骤中,可以将一个或多个不同特征的名称词语列表添加到词库中,所述名称词语列表可以是根据步骤s100-步骤s300获取的具有不同特征的多个列表,如视频特征的列表,音频特征的列表以及电子书列表等等。

间隔特定时间重复执行所述方法,如每隔一天重复上述步骤,以确保先验知识的词库及时更新。优选地,可以设置所述方法自动化每天定时执行,以节约人力。由此提高对语音请求做出判断的准确率。

可选的,所述方法还可以包括步骤s500,将更新的词库用于系统的先验知识输入,辅助学习模型对语音请求进行判断。

具体地,所述学习模型会根据模型中预设的不同特征的权重值进行加权计算,获得语音请求的指令的领域。由于词库中的词语的特征的增加,会改变所述词语在不同领域的概率,由此避免先验知识的不足而导致学习模型判断出错,对语音请求“答非所问”。

自动化输入先验知识,能够提升系统效果,避免了收集请求训练数据或者重新建模的工作,提升学习模型对语音请求的判断的准确率,同时不会大幅增加工作量,提高效率。

本发明实施例使用根据热门作品源网站自动更新词库的文本的特征,及时高效的保证相关先验知识的完备,在不改变建模方式与加入大量训练数据的前提下,较大程度上提升对用户的语音请求的识别的正确率,提升用户的使用体验。

本发明实施例通过连接作品源网站,获取所述作品源网站的网页数据,并根据所述作品源网站的网页数据获取作品名称列表,以获得包含特定特征的名称词语列表。进而,根据获得的名称词语列表对词库中文本的特征进行更新。能够提高对语音请求分类的准确性。

图3是本发明实施例的应用场景界面示意图。在本实施例中,数据处理装置被应用于获取最新的作品名称,以更新先验知识的词库,进而提高对语音请求做出判断的准确率。

数据处理装置连接作品源网站,请求作品源网站的网页数据。所述作品源网站的网页界面可以如图3所示。然后获取网页数据中的字符,其中,所获得的字符串中会包括如“正在上映”、“即将上映”以及“下一页”等异常值,还可能包括大量无意义的特殊字符,如“@”以及“*”等,去除字符串中的异常值,以获得影片名称,如“你好之华”、“找到你”以及“无名之辈”等,并形成作品名称列表。然后将获得的作品名称列表进一步处理,删除作品名称列表上在黑名单中的词语,添加作品名称列表上在白名单中的词语,获得名称词语列表。所述名称词语列表中的词语都具有视频特征。将词库中没有重复词语的名称词语添加至已有的词库中,将在词库中存在重复词语的名称词语增加视频特征。间隔特定时间重复执行所述方法,如每隔一天重复上述步骤,以确保先验知识的词库及时更新。由此提高对语音请求做出判断的准确率。

图4是本发明第二实施例的数据处理装置的示意图。如图4所示,本实施例的数据处理装置包括连接单元401、作品名称列表获取单元402、名称词语列表确定单元403以及文本特征更新单元404。

所述连接单元401用于连接作品源网站,获取所述作品源网站的网页数据。

具体地,所述作品源网站包括视频网站,音频网站以及图书网站。

所述作品名称列表获取单元402用于根据所述作品源网站的网页数据获取作品名称列表。

所述作品名称列表获取单元402包括字符串获取模块、异常值确定模块以及异常值去除模块。

所述字符串获取模块用于获取作品名称字符串。

所述用于确定字符串中的异常值。

所述异常值去除模块用于清洗包含异常值的字符串以获取作品名称列表。

所述名称词语列表确定单元403用于根据作品名称列表和预定的黑名单确定名称词语列表。

具体地,将黑名单中的词语从词语列表中删除。

所述文本特征更新单元404用于根据所述名称词语列表更新词库中文本的特征,所述词库用于辅助自然语言学习模型解析语音请求。

所述文本特征更新单元404包括重复词语处理模块以及非重复词语处理模块。

所述重复词语处理模块用于响应于所述词语列表中的词语在词库中存在重复词语,增加所述词语的特征。

所述非重复词语处理模块用于响应于所述词语列表中的词语在词库中不存在重复词语,将所述词语添加到词库中。

在一种可选的实现方式中,所述数据处理装置还可以包括白名单词语添加单元。

所述白名单词语添加单元用于将预定白名单中的词语添加到作品名称列表。

上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。

图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(i/o)装置55。输入/输出(i/o)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(i/o)装置55通过输入/输出(i/o)控制器56与系统相连。

其中,存储器52可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明公开的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

本发明的第四实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。从而具备相应的有益效果。

同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实现方式、完全软件实现方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实现方式。此外,本发明公开的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式光盘只读存储器(cd-rom)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明公开各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如java、smalltalk、c++、php、python等;以及常规过程编程语言如“c”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(lan)或广域网(wan)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1