媒体处理方法、装置、终端和介质与流程

文档序号:16390424发布日期:2018-12-22 11:24阅读:659来源:国知局
媒体处理方法、装置、终端和介质与流程

本发明涉及通信技术领域,尤其涉及媒体处理方法、装置、终端和计算机可读存储介质。

背景技术

现代汉语有各种不同的方言,它们分布的区域很广,例如东北方言、湘方言或者闽方言等。现代汉语各方言之间的差异表现在语音、词汇、语法各个方面,语音方面尤为突出。由于地域文化的差异,不同地区的人群使用不同的方言,当用户通过即时通讯客户端进行通信或者通过搜索引擎进行搜索时,会输入方言语音信息或者方言文本信息,而接收方在不熟悉方言的情况下,对方言语音信息或者方言文本信息的理解有差异,导致通信效率较低,因此如何有效将方言翻译为标准语言是当前亟需解决的技术问题。



技术实现要素:

本发明实施例提供了媒体处理方法、装置、终端和计算机可读存储介质,能够识别文本中的方言,并将文本中的方言替换为标准语言,提升了通信效率。

第一方面,本发明实施例提供了一种媒体处理方法,所述方法包括:

接收媒体信息,所述媒体信息包括文本描述内容;

对所述文本描述内容进行分词处理,得到至少一个词组;

获取各个所述词组对应的汉语拼音;

当汉语拼音数据库中存在所述汉语拼音时,将所述汉语拼音对应的词组识别为方言词组;

在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言;

将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。

第二方面,本发明提供了一种媒体处理装置,所述装置包括:

接收模块,用于接收媒体信息,所述媒体信息包括文本描述内容;

分词模块,用于对所述文本描述内容进行分词处理,得到至少一个词组;

获取模块,用于获取各个所述词组对应的汉语拼音;

识别模块,用于当汉语拼音数据库中存在所述汉语拼音时,将所述汉语拼音对应的词组识别为方言词组;

查找模块,用于在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言;

替换模块,用于将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。

本发明实施例中,终端接收媒体信息,所述媒体信息包括文本描述内容,对所述文本描述内容进行分词处理,得到至少一个词组,终端获取各个所述词组对应的汉语拼音,当汉语拼音数据库中存在所述汉语拼音时,终端将所述汉语拼音对应的词组识别为方言词组,终端在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言,将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。通过上述方法,能够识别文本中的方言,并将文本中的方言替换为标准语言,提升了通信效率

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种媒体处理方法的流程示意图;

图2为本发明实施例提供的另一种媒体处理方法的流程示意图;

图3为本发明实施例提供的又一种媒体处理方法的流程示意图;

图4为本发明实施例提供的终端与服务器交互的网络拓扑图;

图5为本发明实施例提供的一种媒体处理装置的结构示意图;

图6为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的媒体处理方法应用于媒体处理设备,媒体处理设备可以包括终端和服务器,终端可包括但不限于智能手机、掌上电脑、智能机器人或者可穿戴设备等电子设备。该终端的操作系统可包括但不限于android操作系统、ios操作系统、symbian(塞班)操作系统、blackberry(黑莓)操作系统、windowsphone8操作系统等等,本发明实施例不做限定。

请参见图1,为本发明实施例提供的一种媒体处理方法的流程示意图,该方法可包括:

s101、接收媒体信息,该媒体信息包括文本描述内容。

在一种实现方式中,媒体信息为文本信息,文本信息中包含中文的文本描述内容。例如,文本信息中的文本描述内容可以为“今天啷个这么热”。

在一种实现方式中,媒体信息为语音信息,媒体处理设备接收到语音信息之后,可以识别语音信息中包含的内容,并将识别到的内容以文本的形式进行保存,得到文本描述内容。

s102、对文本描述内容进行分词处理,得到至少一个词组;

本发明实施例中,媒体处理设备对文本描述内容进行分词处理,词组为媒体处理设备对文本描述内容分词处理得到的词组。

在一种实现方式中,媒体处理设备可以基于字符匹配的方式实现对文本描述内容的分词处理,媒体处理设备按照预设规则将待分析的中文字符串与预设数据库中的词组进行匹配,如在预设数据库中找到中文字符串中的词组,则匹配成功,并将匹配成功的词组从字符串中拆分出来,并确定为词组,其中,该基于字符匹配的算法具体可以为正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等。

在一种实现方式中,媒体处理设备通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组,具体的,媒体处理设备将文本描述内容中相邻共现的各个文字的组合的频度进行统计,计算它们的相邻共现概率,若文字组合的相邻共现概率大于预设阈值,则将该文字组合确定为词组。

在一种实现方式中,媒体处理设备通过基于大量已经分词的文本,利用统计机器学习模型学习词语切分的规律来实现对文本描述内容的分词处理,得到至少一个词组。

需要说明的是,媒体处理设备也可以通过其他方式实现对文本描述内容的分词处理,本发明在此不做限定。例如,媒体处理设备获取到文本描述内容“今天啷个这么热”之后,对其进行分词处理,得到的词组为“今天/啷个/这么/热”。

s103、获取各个词组对应的汉语拼音。

本发明实施例中,媒体处理设备对文本进行分词处理之后,将获取各个词组对应的拼音。

举例说明,媒体处理设备的对文本描述内容进行分词处理得到的词组为“今天/啷个/这么/热”,则媒体处理设备获取各个词组的汉语拼音,确定各个词组对应的汉语拼音为“jintian/langge/zheme/re”。

s104、当汉语拼音数据库中存在所述汉语拼音时,将所述汉语拼音对应的词组识别为方言词组。

本发明实施例中,媒体处理设备获取到各个词组对应的汉语拼音之后,将在汉语拼音数据库中检测是否存在分词结果中词组对应的汉语拼音,若存在,则将汉语拼音对应的词组识别为方言词组。具体实现中,媒体处理设备可以采用双向最大匹配算法检测所述汉语拼音是否存在与所述汉语拼音数据库中,媒体处理设备在汉语拼音数据库中查找到分词结果中词组对应的汉语拼音后,则将该汉语拼音对应的词组识别为方言词组。

举例说明,媒体处理设备确定各个词组对应的汉语拼音为“jintian/langge/zheme/re”,汉语拼音数据库包含了拼音“langge”,则媒体处理设备确定“langge”对应的词组“啷个”为方言词组。

s105、在汉语拼音数据库中查找与方言词组对应的汉语拼音匹配的标准语言。

本发明实施例中,汉语拼音数据库中包含了方言拼音及其对应的标准语言。例如,方言拼音“langge”对应的标准语言为怎么,需要说明的是,方言拼音与标准语言的对应关系可以是多个方言拼音对应一个标准语言。

在一种实现方式中,标准语言也可以是其他地区的方言,用户可以预先设置标准语言的类型,媒体处理设备可以根据用户发送的指令选择对应的汉语拼音库,不同的汉语拼音库中的拼音对应不同的方言,例如,汉语拼音库为东北话库,则汉语拼音数据库里的汉语拼音对应的标准语言为东北话,

举例说明,媒体处理设备对接收到的文本信息进行分词处理,得到词组“不要嫩个”(该词组为重庆话,对应的普通话为“别这样”),媒体处理设备获取到该词组的拼音为“buyaonenge”,用户预先设置的方言库为东北话库,并从东北话库中找到拼音“buyaonenge”匹配的东北话为“别介”。

s106、将方言词组替换为所述标准语言,得到更新后的文本描述内容。

本发明实施例中,媒体处理设备确定了方言词组对应的标准语言之后,则将文本中的方言文字替换为对应的标准语言,得到更新后的文本描述内容。

举例说明,媒体信息为文本信息,文本中包括至少个一个中文段落。例如,文本信息中的文本描述内容可以为“今天啷个这么热”。端的对文本进行分词处理得到的词组为“今天、啷个、这么、热”,则媒体处理设备获取各个词组的汉语拼音,确定各个词组对应的汉语拼音为“jintian、langge、zheme、re”。并在汉语拼音库中查找到“langge”的拼音,且其对应的标准语言为怎么,则媒体处理设备将词组“啷个”替换为“怎么”,得到更新后的文本信息为“今天怎么这么热”。

在一种实现方式中,媒体信息也可以为语音信息,媒体处理设备可以为智能机器人,用户对智能机器人输入语音消息“今天啷个这么热”,智能机器人在接收用户输入的语音信息之后,将接收到的语音信息转化为文本信息,并对文本信息进行方言转化处理,将接收到文本信息中的方言词汇进行替换为标准语言,得到更新后的文本信息为“今天怎么这么热”,可选的,机器人将转化为标准语言的文本信息进行语音输出。可选的,机器人也可以响应用户输入的语音信息,回答“今天天热的原因是今天的节气是大暑”。

在一种实现方式中,媒体处理设备为手机、电脑等电子设备,用户在通信过程中使用方言进行交流,媒体处理设备将用户输入的语音信息转换为文本信息,并对文本描述内容进行分词处理,根据分词处理后各个词组的拼音判断用户输入的语音信息中是否包含方言,若是,则将方言词组替换标准语言词组,得到更新后的文本描述内容,并对更新后的文本描述内容进行语音输出。

本发明实施例中,本发明实施例中,媒体处理设备接收媒体信息,所述媒体信息包括文本描述内容,对所述文本描述内容进行分词处理,得到至少一个词组,媒体处理设备获取各个所述词组对应的汉语拼音,当汉语拼音数据库中存在所述汉语拼音时,媒体处理设备将所述汉语拼音对应的词组识别为方言词组,媒体处理设备在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言,将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。通过上述方法,能够识别文本中的方言,并将文本中的方言替换为标准语言,提升了通信效率。

请参见图2,为本发明实施例提供的另一种媒体处理方法的流程示意图,该方法可包括:

s201、终端接收媒体信息,该媒体信息包括文本描述内容。

本发明实施例中,终端接收媒体信息,在一种实现方式中,媒体信息语音信息,终端对语音信息进行识别,并将识别到的语音信息翻译为文本,得到文本描述内容;在一种实现方式中,媒体信息为文本信息,终端获取文本信息中的文本描述内容。

s202、终端对文本描述内容进行分词处理,得到至少一个词组。

本发明实施例中,终端对文本描述内容进行分词处理,得到至少一个词组。在一种实现方式中,终端可以基于字符匹配的方式是实现对文本描述内容的分词处理,或者,终端也可以通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组,或者,终端通过基于大量已经分词的文本,利用统计机器学习模型学习词语切分的规律来实现对文本描述内容的分词处理,得到至少一个词组。需要说明的是,终端也可以通过其他方式实现对文本描述内容的分词处理,本发明在此不做限定。

s203、终端获取分词处理后的文本描述内容的第一分词置信度。

本发明实施例中,终端对文本描述内容进行分词处理之后,将获取分词处理后的文本描述内容的第一分词置信度,该第一分词置信度本质上是一个边缘概率,即对文本描述内容中特定位置的切分的可能性,为介于0和1之间的实数,具体实现中,第一分词置信度可以通过受限的前向-后向算法得到,首先通过标准的前向-后向算法计算指定某切分时整个序列的似然度,两者的比值即该切分的置信度。

在一种可选的实现方式中,第一分词置信度也可以基于不同分词算法的得到的结果的相似度所确定,具体的,终端选择目标分词算法对文本描述内容进行分词处理,得到第一分词结果后,将继续采用校验分词算法对该文本描述内容进行分词处理,得到第二分词处理结果,比较第一分词结果与第二分词结果是否相同,根据第一分词结果与第二分词结果的相似度得到第一分词置信度。需要说明的是,目标分词算法为步骤s202中所采用的分词算法,校验分词算法为正向最大匹配法、逆向最大匹配法、双向最大匹配法、机器学习方法等分词算法中的一种或多种。

可选的,当校验分词算法为一种时,相似度可以为第一分词结果与第二分词结果中相同的词组数与第一分词结果中词组数的比值。例如,文本描述内容为“今天啷个这么热”,采用目标分词算法对该内容进行分词处理得到第一分词结果为“今天/囊个/这么/热”,采用校验分词算法对该内容进行分词处理得到第二分词结果为“今天/囊/个/这么/热”,则第一分词结果与第二分词结果中相同的词组数为3,第一分词结果中词组数为4,则相似度为75%,置信度也为75%。

当校验分词算法为多种时,相似度可以为第一分词结果与各个第二分词结果的相似度加权求和得到。例如,校验分词算法分为校验分词算法1、校验分词算法2和校验分词算法3,其对应的第二分词结果分别为第二分词结果1、第二分词结果2和第二分词结果3,其对应的权值分别为0.3、0.3、0.4,第一分词结果与第二分词结果1的相似度为80%,第一分词结果与第二分词结果2的相似度为80%,第一分词结果与第二分词结果3的相似度为90%,则得到最终的第一分词置信度为84%。

s204、若第一分词置信度小于第一预设阈值,则终端获取各个词组对应的汉语拼音。

本发明实施例中,终端获取分词处理后的文本描述内容的第一分词置信度之后,将判断该第一分词置信度是否大于第一预设阈值,该第一预设阈值具体可以由研发人员预先设定,如85%、90%、95%等,若该第一分词置信度大于或等于第一预设阈值,则结束本流程,若该第一分词置信度大于或等于第一预设阈值,则获取各个词组对应的汉语拼音。例如,终端的对文本描述内容进行分词处理得到的词组为“今天/啷个/这么/热”,则终端获取各个词组的汉语拼音,确定各个词组对应的汉语拼音为“jintian/langge/zheme/re”。

s205、当汉语拼音数据库中存在分词结果中词组对应的汉语拼音时,终端将汉语拼音对应的词组识别为方言词组;

本发明实施例中,终端获取到各个词组对应的汉语拼音之后,将在汉语拼音数据库中检测是否存在分词结果中词组对应的汉语拼音,若存在,则将汉语拼音对应的词组识别为方言词组。具体实现中,终端可以采用双向最大匹配算法检测所述汉语拼音是否存在与所述汉语拼音数据库中,终端在汉语拼音数据库中查找到分词结果中词组对应的汉语拼音后,则将该汉语拼音对应的词组识别为方言词组。

s206、终端在汉语拼音数据库中查找与方言词组对应的汉语拼音匹配的标准语言。

本发明实施例中,汉语拼音数据库中预先存储由方言词组的拼音以及其对应的标准语言。终端识别分词结果中的方言词组后,将在汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言。需要说明的是,标准语言可以普通话,也可以是粤语、闽南语、东北话等方言,也可以是英语、德语、意大利语等其他国家语言,不同语言对应不同的汉语拼音数据库,用户可以预先设置汉语拼音数据库的类型。

s207、终端将方言词组替换为标准语言,得到更新后的文本描述内容。

本发明实施例中,终端在汉语拼音数据库中找到方言词组对应的标准语言之后,则将该文本描述内容中的方言词组替换为对应的标准语言,得到更新后的文本描述内容。

举例说明,标准语言为普通话,终端的对文本描述内容进行分词处理得到的词组为“今天/啷个/这么/热”,则终端获取各个词组的汉语拼音,确定各个词组对应的汉语拼音为“jintian/langge/zheme/re”,终端采用双向最大匹配算法在汉语拼音数据库查找到拼音“langge”,则终端将词组“啷个”识别为方言,且在汉语拼音数据库中拼音“langge”对应的标准语言为“怎么”,则终端将文本描述内容“今天啷个这么热”中的词组“啷个”替换为“怎么”,得到更新后的文本描述内容为“今天怎么这么热”。

s208、终端对更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度。

本发明实施例中,终端获取到更新后的文本描述内容之后,将对更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度,其中,终端对更新后的文本描述内容进行分词处理的方式与步骤s202中相同,在此不做赘述。

s209、终端判断第二分词置信度是否大于第二预设阈值。

终端获取到更新后的文本描述内容的第二分词置信度之后,将判断该第二分词置信度是否大于第二预设阈值,其中,第二预设阈值可以为85%、90%、95%等,具体可以由研发人员预先设置,本发明实施例不做限定。

s210、若所述第二分词置信度大于第二预设阈值,则响应所述更新后的文本描述内容。

本发明实施例中,若终端获取到的更新后的文本描述内容的第二分词置信度大于第二预设阈值,则响应所述更新后的文本描述内容。具体的,终端响应更新后的文本描述内容的方式可以为将更新后的文本描述内容的进行文本输出,终端响应更新后的文本描述内容的方式还可以为将更新后的文本描述内容的转化为语音消息进行语音输出。

s211、若所述第二分词置信度小于或等于所述第二预设阈值,则响应所述文本描述内容。

本发明实施例中,若终端获取到的更新后的文本描述内容的第二分词置信度小于或等于第二预设阈值,则响应文本描述内容。具体的,终端响应更新后的文本描述内容的方式可以为将文本描述内容的进行文本输出,终端响应文本描述内容的方式还可以为将文本描述内容的转化为语音消息进行语音输出。

举例说明,终端获取到文本描述内容为“今天啷个这么热”,终端将文本描述内容中的方言词组替换为标准语言得到更新后的文本描述内容为“今天怎么这么热”,终端对更新后的文本描述内容进行分词处理,得到分词结果为“今天/怎么/这么热”,且该分词结果对应的第二分词置信度为92%,若第二预设阈值为90%,则终端确定第二分词置信度大于第二预设阈值,终端将更新后的文本描述内容“今天怎么这么热”进行语音输出,若第二预设阈值为95%,则终端确定第二分词置信度小于第二预设阈值,终端将初始的文本描述内容“今天啷个这么热”进行语音输出。

本发明实施例中,终端对媒体信息中的文本描述内容进行分词处理,并得到分词结果对应的第一分词置信度,若第一分词置信度小于第一预设阈值,则终端判断文本描述内容中可能含有方言,进一步获取分词结果中各个词组对应的拼音,并在预设的汉语拼音数据库中检测是否存在分词结果中词组对应的拼音,若检测结果为存在,则终端将该拼音对应的词组初步确认为方言词组,并将方言词组替换为标准语言,得到跟新后的文本描述内容,终端进一步对更新后的文本描述内容进行分词处理,并得到分词结果对应的第二分词置信度,终端判断第二分词置信度是否大于第二预设阈值,若是,则终端进一步确认原始的文本描述内容中存在方言,对更新后的文本描述内容做出响应,若否,则终端判定将方言词组替换为标准语言后分词效果并未得到改善,则之前的方言判定可能有误,则终端对原始的文本描述内容做出相应,通过上述方式,可以识别文本中的方言,并将文本中的方言替换为标准语言,提升通信效率。

请参见图3,为本发明实施例提供的另一种媒体处理方法的流程示意图,该方法可包括:

s301、终端接收媒体消息,该媒体信息包括文本描述内容。

s302、终端将接收到的媒体消息发送至服务器。

s303、服务器对媒体信息中的文本描述内容进行分词处理,得到至少一个词组。

s304、服务器获取分词处理后的文本描述内容的第一分词置信度。

s305、服务器确定第一分词置信度小于第一预设阈值,并获取各个词组对应的汉语拼音。

s306、当汉语拼音数据库中存在分词结果中词组对应的汉语拼音时,服务器将汉语拼音对应的词组识别为方言词组。

s307、服务器在汉语拼音数据库中查找与方言词组对应的汉语拼音匹配的标准语言。

s308、服务器将方言词组替换为标准语言,得到更新后的文本描述内容。

s309、服务器对更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度。

s310、服务器确定第二分词置信度大于第二预设阈值。

s311、服务器将更新后的文本描述内容发送至终端。

本发明实施例中,该终端可以为与步骤s301中的终端为同一终端,也可以为与s301中的终端建立通信连接的其他终端。

本发明实施例中,终端获取媒体信息,服务器对媒体信息方言文字进行替换得到处理结果,并将处理结果返回至终端,通过上述方式,可以识别文本中的方言,并将文本中的方言替换为标准语言,提升通信效率。

请参见图4,为本发明提供的一种媒体处理系统的结构示意图,如图4所示,该系统包括至少一个第一终端401、服务器402和至少一个第二终端403。第一终端401通过服务器与第二终端403建立通信连接。在一种实现方式中,用户可以在第一终端401中输入包含文本描述内容的媒体信息,第一终端401将该文本描述内容发送至服务器402,服务器402将文本描述内容中的方言转化为标准语言,得到更新后的文本描述内容,并将包含更新后的文本描述内容的媒体信息返回至第一终端401,第一终端401响应接收到的媒体信息,具体的,第一终端401的响应方式可以为显示获取到的更新后的文本描述内容,或者,第一终端401将更新后的文本描述内容进行语音输出。

在一种实现方式中,第一终端401向第二终端403发送包含文本描述内容的媒体信息,其中,第二终端403可以是一个,也可是多个,服务器402检测到第一终端401发送的文本描述内容中含有方言,则对该文本描述内容中的方言替换为标准语言,得到更新后的文本描述内容,并将包含更新后的文本描述内容的媒体信息发送至第二终端403。第二终端403接收到包含更新后的文本描述内容的媒体信息之后,可以显示获取到的更新后的文本描述内容,或者,第二终端403将更新后的文本描述内容进行语音输出。

通过上述方式,可以在通信过程中识别文本中的方言,并将文本中的方言替换为标准语言,提升通信效率。

下面将结合附图5对本发明实施例提供的媒体处理装置进行详细介绍。需要说明的是,附图5所示的媒体处理装置,用于执行本发明图1-图3所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图3所示的实施例。

请参见图5,为本发明提供的一种媒体处理装置的结构示意图,该媒体处理装置50可包括:接收模块501、分词模块502、获取模块503、识别模块504、查找模块505和替换模块506。

接收模块501,用于接收媒体信息,所述媒体信息包括文本描述内容;

分词模块502,用于对所述文本描述内容进行分词处理,得到至少一个词组;

获取模块503,用于获取各个所述词组对应的汉语拼音;

识别模块504,用于当汉语拼音数据库中存在所述汉语拼音时,将所述汉语拼音对应的词组识别为方言词组;

查找模块505,用于在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言;

替换模块506,用于将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。

在一种实现方式中,所述获取模块503,还用于,

获取分词处理后的文本描述内容的第一分词置信度;

若所述分词置信度小于第一预设阈值,则触发执行获取各个所述词组对应的汉语拼音的步骤。

在一种实现方式中所述装置还包括响应模块507,

所述分词模块502,还用于对所述更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度;

所述响应模块507,用于若所述第二分词置信度大于第二预设阈值,则响应所述更新后的文本描述内容。

在一种实现方式中,所述响应模块507,还用于若所述第二分词置信度小于或等于所述第二预设阈值,则响应所述文本描述内容。

在一种实现方式中,所述查找模块505还用于采用双向最大匹配算法检测所述汉语拼音是否存在与所述汉语拼音数据库中。

本发明实施例中,接收模块501接收媒体信息,所述媒体信息包括文本描述内容,分词模块502对所述文本描述内容进行分词处理,得到至少一个词组;获取模块503获取各个所述词组对应的汉语拼音,当汉语拼音数据库中存在所述汉语拼音时,识别模块504将所述汉语拼音对应的词组识别为方言词组,查找模块505在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言;替换模块506将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。通过上述方式,可以识别文本中的方言,并将文本中的方言替换为标准语言,提升通信效率。

请参见图6,为本发明实施例提供了一种媒体处理设备的结构示意图。如图6所示,该媒体处理设备包括:至少一个处理器601,输入设备603,输出设备604,存储器605,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,输入设备603可以是控制面板或者麦克风等,输出设备604可以是显示屏等。其中,存储器605可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的媒体处理装置,存储器605中存储一组程序代码,且处理器601,输入设备603,输出设备604调用存储器605中存储的程序代码,用于执行以下操作:

输入设备603,用于接收媒体信息,所述媒体信息包括文本描述内容;

处理器601,用于对所述文本描述内容进行分词处理,得到至少一个词组;

处理器601,用于获取各个所述词组对应的汉语拼音;

处理器601,用于当汉语拼音数据库中存在所述汉语拼音时,将所述汉语拼音对应的词组识别为方言词组;

处理器601,用于在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言;

处理器601,用于将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。

在一种实现方式中,处理器601获取各个所述词组对应的汉语拼音之前,还用于:

获取分词处理后的文本描述内容的第一分词置信度;

若所述分词置信度小于第一预设阈值,则触发执行获取各个所述词组对应的汉语拼音的步骤。

在一种实现方式中,处理器601具体用于:

对所述更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度;

若所述第二分词置信度大于第二预设阈值,则响应所述更新后的文本描述内容。

在一种实现方式中,处理器601对所述更新后的文本描述内容进行分词处理,得到更新后的文本描述内容的第二分词置信度之后,还用于:

若所述第二分词置信度小于或等于所述第二预设阈值,则响应所述文本描述内容。

在一种实现方式中,处理器601用于采用双向最大匹配算法检测所述汉语拼音是否存在与所述汉语拼音数据库中。

本发明实施例中,通过输入设备603接收媒体信息,所述媒体信息包括文本描述内容,处理器601对所述文本描述内容进行分词处理,得到至少一个词组,处理器601获取各个所述词组对应的汉语拼音,当汉语拼音数据库中存在所述汉语拼音时,处理器601将所述汉语拼音对应的词组识别为方言词组,在所述汉语拼音数据库中查找与所述方言词组对应的汉语拼音匹配的标准语言,处理器601将所述方言词组替换为所述标准语言,得到更新后的文本描述内容。可以识别文本中的方言,并将文本中的方言替换为标准语言,提升通信效率。

本发明实施例中所述模块,可以通过通用集成电路,例如cpu(centralprocessingunit,中央处理器),或通过asic(applicationspecificintegratedcircuit,专用集成电路)来实现。

应当理解,在本发明实施例中,所称处理器601可以是中央处理模块(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线602可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互联(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等,该总线602可以分为地址总线、数据总线、控制总线等,为便于表示,图6仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1