一种基于语音的数据处理方法、装置和电子设备与流程

文档序号：16188453发布日期：2018-12-08 05:26阅读：232来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及技术领域，特别是涉及一种基于语音的数据处理方法、装置和电子设备。

背景技术

语音识别通常是将语音转换成文字，传统的语音识别记录工具只能将语音数据转换为相应的文字，而无法区分说话人。因此在多人语音的情况下，通过语音识别无法有效的进行记录。

例如在医院实际诊疗过程中，至少会有两人进行交流，即至少会有医生和患者进行交流，有时还可能包括患者家属等，而通过现有语音识别工具无法实现对获取的语音问诊记录分别对应的语音产生者进行区分，无法全面的记录整个问诊过程。

技术实现要素：

本发明实施例提供一种基于语音的数据处理方法，以完整的记录问诊过程。

相应的，本发明实施例还提供了一种基于语音的数据处理装置、一种电子设备、一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种基于语音的数据处理方法，包括：获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定；依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户；依据所述第一文本数据和第二文本数据，得到问诊信息。

可选的，所述问诊过程数据为语音数据；所述依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，包括：依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据；对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据。

可选的，所述依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据，包括：将所述语音数据划分为多个语音片段；依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据。

可选的，所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：采用基准声纹特征对各语音片段分别进行匹配，其中，所述基准声纹特征为目标用户的声纹特征；获取与所述基准声纹特征相符的语音片段，得到对应的第一语音数据；获取与所述基准声纹特征不相符的语音片段，得到对应的第二语音数据。

可选的，所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：对各语音片段的声纹特征进行识别；统计各声纹特征对应语音片段的数量；确定具有语音片段的数量最大的声纹特征，采用所述声纹特征对应的语音片段生成第一语音数据；采用不属于所述第一语音数据的语音片段生成第二语音数据。

可选的，所述对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据，包括：对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据；则，所述依据所述第一文本数据和第二文本数据，得到问诊信息，包括：依据所述第一文本数据中各文本片段和所述第二文本数据中各文本片段分别对应语音片段的时间顺序，对各文本片段进行排序，得到问诊信息。

可选的，所述问诊过程数据为语音数据识别得到的文本识别结果；所述依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，包括：对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据。

可选的，对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据，包括：对所述文本识别结果进行划分，获取对应的文本片段；采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括目标用户语言特征和非目标用户语言特征；采用具有目标用户语言特征的文本片段生成第一文本数据，以及，采用具有非目标用户语言特征的文本片段生成第二文本数据。

本发明实施例还公开了一种基于语音的数据处理装置，包括：数据获取模块，用于获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定；文本识别模块，用于依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户；信息确定模块，用于依据所述第一文本数据和第二文本数据，得到问诊信息。

可选的，所述问诊过程数据为语音数据；所述文本识别模块，包括：分离子模块，用于依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据；语音识别子模块，用于对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据。

可选的，所述分离子模块，用于将所述语音数据划分为多个语音片段；依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据。

可选的，所述分离子模块，用于采用基准声纹特征对各语音片段分别进行匹配，其中，所述基准声纹特征为目标用户的声纹特征；获取与所述基准声纹特征相符的音频片段，得到对应的第一语音数据；获取与所述基准声纹特征不相符的音频片段，得到对应的第二语音数据。

可选的，所述分离子模块，用于对各语音片段的声纹特征进行识别；分别统计具有相同声纹特征的语音片段及其数量，采用数量最大语音片段生成第二语音数据，其中，数量最大的声纹特征为目标用户的声纹特征；采用剩余的语音片段生成第二语音数据。

可选的，所述语音识别子模块，用于对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据；所述信息确定模块，用于依据所述第一文本数据中各文本片段和所述第二文本数据中各文本片段分别对应语音片段的时间顺序，对各文本片段进行排序，得到问诊信息。

可选的，所述问诊过程数据为语音数据识别得到的文本识别结果；所述文本识别模块，用于对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据。

可选的，所述文本识别模块，包括：片段换分子模块，用于对所述文本识别结果进行划分，获取对应的文本片段；片段识别子模块，用于采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括第一语言特征和第二语言特征；文本生成子模块，用于采用具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例中一个或多个所述的基于语音的数据处理方法。

可选的，一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定；依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户；依据所述第一文本数据和第二文本数据，得到问诊信息。

本发明实施例包括以下优点：

本发明实施例可以在问诊过程中通过采集语音确定的问诊过程数据，可从问诊过程数据中按照不同用户识别出第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户，即能够自动区分问诊过程中医生、患者的语句，再依据所述第一文本数据和第二文本数据，得到问诊信息，能够完整的记录问诊过程，自动整理得到医案等内容，节省问诊记录的整理时间。

附图说明

图1是本发明的一种基于语音的数据处理方法实施例的步骤流程图；

图2是本发明的另一种基于语音的数据处理方法实施例的步骤流程图；

图3是本发明的又一种基于语音的数据处理方法实施例的步骤流程图；

图4是本发明的一种基于语音的数据处理装置实施例的结构框图；

图5是本发明的另一种基于语音的数据处理装置实施例的结构框图；

图6是本发明根据一示例性实施例示出的一种用于基于语音的数据处理的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种基于语音的数据处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种基于语音的数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定。

在问诊过程中，可通过各种电子设备对该问诊过程进行语音采集，基于采集的语音数据得到问诊过程数据，即该问诊过程数据可为采集的语音数据，也可为基于采集的语音数据转换得到的文本识别结果。从而本发明实施例能够采用各种问诊过程采集的数据进行识别。

步骤104，依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户。

可对该问诊过程数据进行识别，依据数据类型的不同采用不同的识别方法，例如对于语音数据可通过声纹特征、语音识别等方式处理，对于文本数据可通过文本特征识别，从而得到依据用户区分的第一文本数据和第二文本数据。其中，该问诊过程中可具有至少两个用户进行沟通交互，一个用户是医生，其他用户为患者、患者家属等。例如是依据医生一天门诊采集的，则其中会包括一个医生和多名患者，也可能有一名或多名患者家属。因此对于问诊记录可将医生作为目标用户，则第一文本数据即为医生对应的问诊文本数据，而将至少一个其他用户的文本数据作为第二文本数据，即患者及家属对应的问诊文本数据。

步骤106，依据所述第一文本数据和第二文本数据，得到问诊信息。

由于问诊通常是问答的过程，因此上述第一文本数据和第二文本数据可以是通过多个文本片段构成的，因此可基于文本片段的时间和对应用户得到问诊信息。

例如问诊信息的一种示例如下：

2017-4-2310:23am

医生a：你有什么症状？

患者b：我xxx不舒服。

医生a：有没有xxx？

患者b：有。

……

实际处理中，还可结合医院的门诊记录等获取患者信息，从而在问诊信息中区分出不同的患者等。

综上所述，对于在问诊过程中通过采集语音确定的问诊过程数据，可从问诊过程数据中按照不同用户识别出第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户，即能够自动区分问诊过程中医生、患者的语句，再依据所述第一文本数据和第二文本数据，得到问诊信息，能够完整的记录问诊过程，自动整理得到医案等内容，节省问诊记录的整理时间。

本发明实施例中，问诊过程数据包括语音数据和/或语音数据识别得到的文本识别结果。不同类型的问诊过程数据的识别方法不同，因此本发明实施例分别论述不同类型问诊过程数据的处理过程。

参照图2，示出了本发明的另一种基于语音的数据处理方法实施例的步骤流程图，该实施例中，所述问诊过程数据为语音数据；具体可以包括如下步骤：

步骤202，获取问诊过程数据，所述问诊过程数据为问诊过程中采集的语音数据。

在问诊过程中，可通过各种电子设备对该问诊过程进行语音数据的采集，例如通过录音笔、手机、计算机等设备录制音频数据，得到问诊过程中采集的语音数据，该语音数据可以为一次门诊采集的语音数据，也可为一个医生在多次门诊采集的语音数据，本发明实施例对此不作限制。因此该语音数据中包括一个医生的语音数据，和至少一个患者的语音数据，还可包括至少一个患者家属的语音数据。

其中，上述步骤104依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，可包括如下步骤204-206。

步骤204，依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据。

声纹(voiceprint)指的是用电声学仪器显示的携带言语信息的声波频谱。声纹具有特定性和稳定性的特征。成年以后，人的声纹可保持长期相对稳定不变，因此可通过声纹识别不同人。因此，对于语音数据，可通过声纹特征进行识别，确定该语音数据中不同用户(声纹特征)对应的语音片段，从而得到目标用户的第一语音数据和其他用户的第二语音数据。

其中，所述依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据，包括：将所述语音数据划分为多个语音片段；依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据。

具体的，可将语音数据划分为多个语音片段。其中，可依据语音划分规则，如声音片段间的停顿间隔进行划分；也可依据声纹特征，即确定各声音对应的声纹特征，从而依据不同的声纹特征划分语音片段。因此一个语音数据可划分出多个语音片段，各语音片段间具有前后顺序，不同的语音片段可具有相同或不同的声纹特征。因此还要基于声纹特征确定各语音片段属于第一语音数据还是第二语音数据，即可确定出每个语音片段所具有的声纹特征，然后将具有目标用户的声纹特征的多个语音片段构成第一语音数据，将其他剩余的语音片段构成第二语音数据。

本发明实施例中，在对问诊过程中语音数据的采集前，医生(目标用户)可先采集一段语音作为基准数据，以便于从该基准数据中识别出医生的声纹特征即基准声纹特征。本发明实施例中还可以设置语音识别模型，将语音数据输入该语音识别模型后，可将符合基准声纹数据的语音片段与其他声纹特征的语音片段分离，从而得到目标用户的各语音片段和其他用户的语音片段。医生门诊过程中，构成的医案信息中通常只包括一个医生，而患者可能有多个，从而通过上述方式可针对某个特定医生获取其对应的大量医案样本。

本发明一个可选实施例中，可预先采集目标用户的声纹特征，作为基准声纹特征，从而进行语音数据的划分。即所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：采用基准声纹特征对各语音片段分别进行匹配，其中，所述基准声纹特征为目标用户的声纹特征；获取与所述基准声纹特征相符的语音片段，得到对应的第一语音数据；获取与所述基准声纹特征不相符的语音片段，得到对应的第二语音数据。即对于目标用户如医生，可预先采集其语音数据来提取声纹特征，将目标用户的声纹特征作为基准声纹特征，从而针对具有目标用户的语音数据，可采用该基准声纹特征对各语音片段分别进行匹配，确定各语音片段中声纹特征与基准声纹特征是否一致，如果一致则认为该语音片段与基准声纹特征匹配，将该语音片段添加到第一语音数据(即为目标用户对应的语音数据)中。当语音片段中声纹特征与基准声纹特征不一致后，该语音片段与基准声纹特征不匹配，将该语音片段添加到第二语音数据(即为非目标用户对应的语音数据)中。即第一语音数据和第二语音数据均由相应的语音片段构成，其中各语音片段还具有顺序关系，从而便于后续准确确定问诊信息。

本发明另一个可选实施例中，也可通过语音数据中相同声纹特征对应语音片段的数量来进行语音数据的划分。即所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：对各语音片段的声纹特征进行识别；统计各声纹特征对应语音片段的数量；确定具有语音片段的数量最大的声纹特征，采用所述声纹特征对应的语音片段生成第一语音数据，其中，数量最大的声纹特征为目标用户的声纹特征；采用不属于第一语音数据的语音片段生成第二语音数据。基于问诊过程的特性，问诊过程数据可能是一个医生多次门诊的记录数据，因此，在该过程中医生往往会占据比较多的时间与不同的患者及其家属交流问诊，即语音数据中医生(目标用户)的语音数量最多，因此可依据不同用户对应语音片段的数量区分目标用户和其他用户，以及得到第一语音数据和第二语音数据。可对该语音片段中的声纹特征进行识别，确定每个语音片段所包含的声纹特征，然后分别统计每一种声纹特征对应语音片段的数量，确定具有语音片段的数量最大的声纹特征，将该声纹特征确定为目标用户的声纹特征，其他声纹特征为其他用户的声纹特征，从而将具有目标用户的声纹特征的语音片段按照顺序构成第一音频数据，而其他语音片段(即不属于第一语音数据的语音片段)按照顺序构成第二音频数据。

本发明实施例中，由于语音数据是在多人会话的场景中采集的，因此一个语音片段中可能包括多个用户的声纹特征。对于从一个语音片段中识别出多个声纹特征的情况：当不同声纹特征是在不同时间出现的，若声纹特征均为其他用户的声纹特征，则可将该语音片段添加到第二语音数据中；而若声纹特征包括目标用户的声纹特征和其他用户的声纹特征，则可将该语音片段再划分子片段后添加到对应的语音数据中。当不同声纹特征是在同一时间出现的，即同一时间有至少两个用户在说话，则若声纹特征均为其他用户的声纹特征，可将该语音片段添加到第二语音数据中，而若声纹特征包括目标用户的声纹特征和其他用户的声纹特征，可依据需求划分，例如将该语音片段归为目标用户的语音片段来得到第一语音数据，或者将该语音片段归为其他用户的语音片段来得到第二语音数据，或者在两种用户的语音数据中分别添加。

步骤206，对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据。

在获取到第一语音数据和第二语音数据后，可对两种语音数据分别进行识别，从而得到目标用户的第一文本数据，和其他用户的第二文本数据。

一个可选实施例中，对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据，包括：对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据。即可通过第一语音数据对每个语音片段的识别，得到该语音片段对应的文本数据，从而依据语音片段的顺序构成第一文本数据，采用相应的方式也可得到第二文本数据。由于问诊过程中医生的问题和患者的回答都是有顺序的，因此在语音数据划分为语音片段时即记录相应的时间顺序，得到的第一文本数据和第二文本数据也是具有顺序关系的，便于后续准确整理问诊信息。

步骤208，依据所述第一文本数据和第二文本数据，得到问诊信息。

依据第一文本数据和第二文本数据对应语音片段的时间顺序，可将第一文本数据中各文本片段和第二文本数据中各文本片段，按照相应的顺序进行排序，如时间顺序，从而得到相应的问诊信息，该问诊信息中可记录医生在一次问诊中的问题以及相应患者(家属)的回答，以及医生的诊断、医嘱等各种信息。

步骤210，对所述问诊信息进行分析，得到相应的分析结果，所述分析结果与疾病诊断相关。

在整理出问诊信息后，本发明实施例还可依据需求对问诊信息进行分析，得到相应的分析结果，由于问诊是与疾病诊断相关的，因此该分析结果也与疾病诊断相关，具体依据分析需求确定。

例如，可以对每种疾病，统计医生的常用问题，提供给经验较少的医生作为参考；可以对问诊信息进行分析，开发一个中医(西医)人工智能问答系统等；还可通过统计、分析等方式确定出每种疾病对应的症状、治疗方法等。

参照图3，示出了本发明的又一种基于语音的数据处理方法实施例的步骤流程图，本实施例中，所述问诊过程数据为语音数据识别得到的文本识别结果，具体可以包括如下步骤：

步骤302，获取语音数据识别得到的文本识别结果。

该语音数据是问诊过程中采集得到等，采集得到的语音数据通过语音识别转换得到该文本识别结果，可直接获取该文本识别结果。

其中，上述步骤104依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，可包括如下步骤304。

步骤304，对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据。

对于已经识别为文本的数据，由于未知每段话是哪个人说的，并不能直接作为问诊信息，因此，本发明实施例从文本识别结果中识别出不同用户的话并整理问诊信息。其中，在问诊过程中，医生通常会提问症状，而用户会回复症状表现，医生会诊断为相应疾病、所需作的检查、需要的药物等，从而基于这些特征可从文本识别结果中识别出医生和患者语句，进而分离出第一文本数据和第二文本数据。

即本发明实施例可预先收集医生问诊的文本以及患者问诊的文本，并且对于每次分析出的问诊信息进行收集，从而统计出医生(即目标用户)的语言特征，以及患者及其家属(即其他用户)的语言特征，并建立相应的模型，便于基于该语言特征区分不同用户的文本。其中，可通过机器学习、概率统计等方式确定不同用户的语言特征建立预设模型。

例如，问诊获得的医案信息中，医生内容一般多是带有症状类词汇的问句，例如你感觉怎么样，有什么症状，哪里不舒服等；而患者内容一般多是带有症状表现、疫病类的问句，例如我是不是感冒了，是xx病吗等；医生内容一般多是带有症状和药品的陈述句，例如你这是病毒感冒，你可以吃点xx药等等。从而，医生的语句内容和患者的语句内容均具有比较显著的语言特征，故可以依据已分离的医案信息训练得到医生内容模型和患者内容模型。

对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据，包括：对所述文本识别结果进行划分，获取对应的文本片段；采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括第一语言特征和第二语言特征；采用具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。可先对文本识别结果进行划分，可依据中文语句特征等，将文本识别结果划分为句子，也可依据其他方式划分得到多个文本片段。然后将各文本片段依次输入预设模型，通过预设模型对文本片段进行识别，从而能够识别出每个文本片段所具有的语言特征。当然，该预设模型也可设置为基于识别出的语言特征，为该文本片段划分所属用户。其中，将目标用户的语言该特征作为第一语言特征，将其他用户的语言特征作为第二语言特征，则可采用预设模型确定出文本片段具有第一语言特征或第二语言特征。然后可按照文本片段的划分顺序，将具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。

步骤306，依据所述第一文本数据和第二文本数据，得到问诊信息。

步骤308，对所述问诊信息进行分析，得到相应的分析结果，所述分析结果与疾病诊断相关。

依据第一文本数据和第二文本数据对应语音片段的顺序，可将第一文本数据中各文本片段和第二文本数据中各文本片段，按照相应的顺序进行排序，从而得到相应的问诊信息，该问诊信息中可记录医生在一次问诊中的问题以及相应患者(家属)的回答，以及医生的诊断、医嘱等各种信息。

对于医生记录医案的习惯、需求，基于上述方案，可通过录音的方式，将与患者的交流过程记录下来，然后分离出医生和患者的语句，进行区分并整理，以对话的形式提供给医生作为医案，能够有效降低医生在医案整理上所话费的时间。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种基于语音的数据处理装置实施例的结构框图，具体可以包括如下模块：

数据获取模块402，用于获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定。

文本识别模块404，用于依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户。

信息确定模块406，用于依据所述第一文本数据和第二文本数据，得到问诊信息。

其中，该问诊过程中可具有至少两个用户进行沟通交互，一个用户是医生，其他用户为患者、患者家属等。例如是依据医生一天门诊采集的，则其中会包括一个医生和多名患者，也可能有一名或多名患者家属。因此对于问诊记录可将医生作为目标用户，则第一文本数据即为医生对应的问诊文本数据，而将至少一个其他用户的文本数据作为第二文本数据，即患者及家属对应的问诊文本数据。由于问诊通常是问答的过程，因此上述第一文本数据和第二文本数据可以是通过多个文本片段构成的，因此可基于文本片段的时间和对应用户得到问诊信息。

例如问诊信息的一种示例如下：

2017-4-2310:23am医生a：你有什么症状？患者b：我xxx不舒服。医生a：有没有xxx？患者b，有……

实际处理中，还可结合医院的门诊记录等获取患者信息，从而在问诊信息中区分出不同的患者等。

综上所述，对于在问诊过程中通过采集确定的问诊过程数据，可从问诊过程数据中按照不同用户识别出第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户，即能够自动区分问诊过程中医生、患者的语句，再依据所述第一文本数据和第二文本数据，得到问诊信息，能够完整的记录问诊过程，自动整理得到医案等内容，节省问诊记录的整理时间。

参照图5，示出了本发明的一种基于语音的数据处理装置实施例的结构框图，具体可以包括如下模块：

其中，所述问诊过程数据包括语音数据和/或语音数据识别得到的文本识别结果。

所述问诊过程数据为语音数据；所述文本识别模块404，可以包括：

分离子模块40402，用于依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据。

语音识别子模块40404，用于对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据。

其中，所述分离子模块40402，用于将所述语音数据划分为多个语音片段；依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据。

优选的，所述分离子模块40402，用于采用基准声纹特征对各语音片段分别进行匹配，其中，所述基准声纹特征为目标用户的声纹特征；获取与所述基准声纹特征相符的语音片段，得到对应的第一语音数据；获取与所述基准声纹特征不相符的语音片段，得到对应的第二语音数据。

优选的，所述分离子模块40402，用于对各语音片段的声纹特征进行识别；分别统计各声纹特征对应语音片段的数量，确定具有语音片段的数量最大的声纹特征，采用所述声纹特征对应的语音片段生成第一语音数据，其中，数量最大的声纹特征为目标用户的声纹特征；采用不属于第一语音数据的语音片段生成第二语音数据。

基于问诊过程的特性，通过问诊过程数据可能是一个医生多次门诊的记录数据，因此，在该过程中医生往往会占据比较多的时间与不同的患者及其家属交流问诊，即语音数据中医生(目标用户)的语音数量最多，因此可依据不同用户对应语音片段的数量区分目标用户和其他用户，以及得到第一语音数据和第二语音数据。

本发明实施例中，由于语音数据是在多人会话的场景中采集的，因此一个语音片段中可能包括多个用户的声纹特征。分离子模块40402对于从一个语音片段中识别出多个声纹特征的情况，可执行如下处理：在不同声纹特征是在不同时间出现的，若声纹特征均为其他用户的声纹特征，则可将该语音片段添加到第二语音数据中；而若声纹特征包括目标用户的声纹特征和其他用户的声纹特征，则可将该语音片段再划分子片段后添加到对应的语音数据中。当不同声纹特征是在同一时间出现的，即同一时间有至少两个用户在说话，则若声纹特征均为其他用户的声纹特征，可将该语音片段添加到第二语音数据中，而若声纹特征包括目标用户的声纹特征和其他用户的声纹特征，可依据需求划分，例如将该语音片段归为目标用户的语音片段来得到第一语音数据，或者将该语音片段归为其他用户的语音片段来得到第二语音数据，或者在两种用户的语音数据中分别添加。

优选的，所述语音识别子模块40404，用于对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据。则所述信息确定模块406，用于依据所述第一文本数据中各文本片段和所述第二文本数据中各文本片段分别对应语音片段的时间顺序，对各文本片段进行排序，得到问诊信息。

优选的，所述问诊过程数据为语音数据识别得到的文本识别结果；所述文本识别模块404，用于对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据。

所述文本识别模块404，包括：

片段换分子模块40406，用于对所述文本识别结果进行划分，获取对应的文本片段。

片段识别子模块40408，用于采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括第一语言特征和第二语言特征。

其中，本发明实施例可获取大量的已分离的医案文本作为训练数据，已分离的医案文本即标识了目标用户和其他用户的问诊信息，如历史上依据识别得到的文正信息。可对其中包括的医生内容数据(目标用户的第一文本数据)和患者内容数据(其他用户的第二文本数据)分别进行训练，得到医生内容模型和患者内容模型，当然这两种模型可合成一个预设模型，基于该预设模型可识别出医生的语句和患者的语句。例如，问诊获得的医案信息中，医生内容一般多是带有症状类词汇的问句，例如你感觉怎么样，有什么症状，哪里不舒服等；而患者内容一般多是带有症状表现、疫病类的问句，例如我是不是感冒了，是xx病吗等；医生内容一般多是带有症状和药品的陈述句，例如你这是病毒感冒，你可以吃点xx药等等。从而，医生的语句内容和患者的语句内容均具有比较显著的语言特征，故可以依据已分离的医案信息训练得到医生内容模型和患者内容模型。

优选的，文本生成子模块40410，用于采用具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。

优选的，所述的装置还包括：分析模块408，用于对所述问诊信息进行分析，得到相应的分析结果，所述分析结果与疾病诊断相关。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于基于语音的数据处理的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等；也可以是服务端设备，如服务器。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(i/o)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电力组件604为电子设备600的各种组件提供电力。电力组件604可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(mic)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

i/o接口612为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备400的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种基于语音的数据处理方法，所述方法包括：获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定；依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户；依据所述第一文本数据和第二文本数据，得到问诊信息。

可选地，所述问诊过程数据包括语音数据和/或语音数据识别得到的文本识别结果。

可选地，所述问诊过程数据为语音数据；所述依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，包括：依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据；对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据。

可选地，所述依据声纹特征，从所述语音数据中分离出第一语音数据和第二语音数据，包括：将所述语音数据划分为多个语音片段；依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据。

可选地，所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：采用基准声纹特征对各语音片段分别进行匹配，其中，所述基准声纹特征为目标用户的声纹特征；获取与所述基准声纹特征相符的语音片段，得到对应的第一语音数据；获取与所述基准声纹特征不相符的语音片段，得到对应的第二语音数据。

可选地，所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：对各语音片段的声纹特征进行识别；统计各声纹特征对应语音片段的数量；确定具有语音片段的数量最大的声纹特征，采用所述声纹特征对应的语音片段生成第一语音数据；采用不属于第一语音数据的语音片段生成第二语音数据。

可选地，对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据，包括：对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据。

可选地，所述问诊过程数据为语音数据识别得到的文本识别结果；所述依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，包括：对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据。

可选地，对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据，包括：对所述文本识别结果进行划分，获取对应的文本片段；采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括第一语言特征和第二语言特征；采用具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。

可选地，还包括：对所述问诊信息进行分析，得到相应的分析结果，所述分析结果与疾病诊断相关。

图7是本发明根据另一示例性实施例示出的一种用于基于语音的数据处理的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器722执行一个或者一个以上程序包含用于进行以下操作的指令：获取问诊过程数据，所述问诊过程数据依据问诊过程中采集的语音数据确定；依据所述问诊过程数据进行识别，获取对应的第一文本数据和第二文本数据，其中，所述第一文本数据属于一个目标用户，所述第二文本数据属于除所述目标用户之外的其他用户；依据所述第一文本数据和第二文本数据，得到问诊信息。

可选的，所述问诊过程数据包括语音数据和/或语音数据识别得到的文本识别结果。

可选的，所述依据声纹特征，采用所述语音片段确定第一语音数据和第二语音数据，包括：对各语音片段的声纹特征进行识别；统计各声纹特征对应语音片段的数量；确定具有语音片段的数量最大的声纹特征，采用所述声纹特征对应的语音片段生成第一语音数据；采用不属于第一语音数据的语音片段生成第二语音数据。

可选的，对所述第一语音数据和第二语音数据分别进行语音识别，获取对应的第一文本数据和第二文本数据，包括：对所述第一语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第一文本数据；对所述第二语音数据中各语音片段分别进行语音识别，采用识别得到的文本片段生成第二文本数据。

可选的，对所述文本识别结果进行特征识别，依据语言特征分离出第一文本数据和第二文本数据，包括：对所述文本识别结果进行划分，获取对应的文本片段；采用预设模型对所述文本片段进行识别，确定所述文本片段具有的语言特征，所述语言特征包括第一语言特征和第二语言特征；采用具有第一语言特征的文本片段生成第一文本数据，以及，采用具有第二语言特征的文本片段生成第二文本数据。

可选地，服务器由一个或者一个以上处理器522执行所述一个或者一个以上程序包含还用于进行以下操作的指令：对所述问诊信息进行分析，得到相应的分析结果，所述分析结果与疾病诊断相关。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语料抽取方法、一种语料抽取装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李明修;银磊;卜海亮
技术所有人：北京搜狗科技发展有限公司
我是此专利的发明人

上一篇：带有传感器安装位置的互联网的农业温室大棚的制作方法
上一篇：一种双圆弧齿轮的制作方法