一种电子病历生成方法和电子病历系统的制作方法

文档序号：2828172阅读：374来源：国知局

一种电子病历生成方法和电子病历系统的制作方法
【专利摘要】本发明公开了一种电子病历生成方法和电子病历系统，其中，电子病历生成方法包括：终端在接收到指示创建电子病历的指令时采集录入的语音；终端提取本次录入的语音的声音特征，生成声音特征文件；终端将声音特征文件发送给服务器；服务器接收来自终端的声音特征文件并进行语音识别，得到语音识别结果；服务器将语音识别结果存储为电子病历文件；其中，服务器对所述声音特征文件进行语音识别包括：使用声学模型、N-gram语音模型和神经网络语言模型依次对声音特征文件进行处理，得到语音识别结果。本发明提供的技术方案能够有效提高电子病历的生成效率。
【专利说明】一种电子病历生成方法和电子病历系统

【技术领域】
[0001]本发明涉及电子病历【技术领域】，具体涉及一种电子病历生成方法和电子病历系统。

【背景技术】
[0002]随着医疗电子信息化的普及，电子病历已经成为各大医院记录医疗信息的必备方式。
[0003]现有的电子病历生成方案要求医生启动电脑中已安装的电子病历程序，之后在电子病历程序提供的电子病历模板中手动输入病历内容，并存储为病人的电子病历。研宄调查，目前有百分之五十以上的住院医生每天用于写电子病历的时间平均达四小时以上，这其中还有相当一部份写电子病历的时间超过七小时，这给医生带来沉重负担，同时影响看病的效果。

【发明内容】

[0004]本发明提供一种电子病历生成方法和电子病历系统，用于提高电子病历的生成效率。
[0005]本发明第一方面提供一种电子病历生成方法，包括:
[0006]终端在接收到指示创建电子病历的指令时采集录入的语音；
[0007]所述终端提取本次录入的语音的声音特征，生成声音特征文件；
[0008]所述终端将所述声音特征文件发送给服务器；
[0009]所述服务器接收来自所述终端的声音特征文件；
[0010]所述服务器对所述声音特征文件进行语音识别，得到语音识别结果；
[0011]所述服务器将得到的所述语音识别结果存储为电子病历文件，以便所述终端通过所述服务器查看所述电子病历文件；
[0012]其中，所述服务器对所述声音特征文件进行语音识别包括:
[0013]所述服务器使用声学模型对所述声音特征文件进行处理，得到第一处理文件，其中，所述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；
[0014]所述服务器使用N-gram语音模型对所述第一处理文件进行处理，得到第二处理文件；
[0015]所述服务器使用神经网络语言模型对所述第二处理文件进行处理，得到所述语音识别结果。
[0016]本发明另一方面提供一种电子病历系统，包括:
[0017]终端和服务器；
[0018]所述终端用于:在接收到指示创建电子病历的指令时采集录入的语音；提取本次录入的语音的声音特征，生成声音特征文件；将所述声音特征文件发送给所述服务器；
[0019]所述服务器用于:接收来自所述终端的声音特征文件；对所述声音特征文件进行语音识别，得到语音识别结果；将所述语音识别结果存储为电子病历文件，以便所述终端通过所述服务器查看所述电子病历文件；；
[0020]其中，所述服务器具体通过如下方式对所述声音特征文件进行语音识别:
[0021]使用声学模型对所述声音特征文件进行处理，得到第一处理文件，其中，所述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；
[0022]使用N-gram语音模型对所述第一处理文件进行处理，得到第二处理文件；
[0023]使用神经网络语言模型对所述第二处理文件进行处理，得到所述语音识别结果。
[0024]由上可见，本发明中的终端负责采集录入的语音并生成声音特征文件后发送给服务器，服务器负责对终端发送的声音特征文件进行语音识别，并将语音识别结果存储为电子病历文件，通过本发明方案，医生只需要通过终端口述需要录入的电子病历内容，服务器便能够生成相应文本格式的电子病历文件，解决现有技术中医生需要通过手动方式输入病历内容的弊端，有效提高了电子病历的生成效率，进一步，语音识别过程中使用的声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建，保证了声学模型在医学类场景中应用的准确性，并且，在语音识别过程中，采用N-gram语言模型和神经网络语言模型结合的方法，进一步提高了语音识别结果的准确性。

【专利附图】

【附图说明】
[0025]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0026]图1为本发明提供的电子病历生成方法一个实施例流程示意图；
[0027]图2_a为本发明提供的一种场景下的电子病历系统的整体流程示意图；
[0028]图2_b为本发明提供的一种场景下通过网页端查看病人的电子病历文件时的界面示意图；
[0029]图2-c为本发明提供的一种场景下服务器内部的流程以及与客户端交互方式；
[0030]图3为本发明提供的电子病历系统一个实施例结构示意图。

【具体实施方式】
[0031]为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0032]下面对本发明实施例提供的一种电子病历生成方法进行描述，首先说明的是，本发明实施例中的电子病历生成方法应用于包含终端和服务器的电子病历系统中，请参阅图1，本发明实施例中的电子病历生成方法，包括:
[0033]101、终端在接收到指示创建电子病历的指令时采集录入的语音；
[0034]本发明实施例中，终端(例如智能手机、可穿戴式智能设备、平板电脑、个人计算机等)上安装有客户端，客户端提供录音控件，该录音控件包含“录音”按钮)，用户通过触发该“录音”按钮向终端输入创建电子病历的指令，之后，终端开始采集录入的语音。进一步，上述录音控件包含“暂停”按钮、“停止”按钮和“删除”按钮，该“暂停”按钮用于触发终端暂停语音的采集，该“停止”按钮用于触发结束本次语音的采集，该“删除”按钮用于触发终端结束本次语音的采集并删除当前录入的语音。
[0035]可选的，当用户触发“录音”按钮时，终端开始采集录入的语音，并在终端屏幕上展示实时录入的音频波形图。
[0036]可选的，终端生成包含录入的语音的语音文件并存储在终端本地的语音文件列表中，以便用户在该语音文件列表中查看已经录制的语音文件。
[0037]102、上述终端提取本次录入的语音的声音特征，生成声音特征文件；
[0038]其中，从语音中提取声音特征并生成声音特征文件可以参照相关的已有技术实现，此处不再赘述。
[0039]应理解，上述声音特征为人声。
[0040]103、上述终端将上述声音特征文件发送给服务器；
[0041]本发明实施例中，上述终端将上述声音特征文件发送给服务器有两种上传方式，一种为上述终端自动将上述声音特征文件发送给服务器，另一种终端存储上述声音特征文件，并在终端接收到上传声音特征文件指令时，将该上传声音特征文件指令指示的声音特征文件发送给服务器。
[0042]为适应上述两种上传方式，上述客户端提供上传方式设置控件，用户可以通过该上传方式设置控件自主选择声音特征文件的上传方式。
[0043]104、上述服务器接收来自上述终端的声音特征文件。
[0044]105、上述服务器对上述声音特征文件进行语音识别，得到语音识别结果；
[0045]具体地，上述服务器使用声学模型对上述声音特征文件进行处理，得到第一处理文件，其中，上述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；上述服务器使用N-gram语音模型对上述第一处理文件进行处理，得到第二处理文件；上述服务器使用神经网络语言模型对上述第二处理文件进行处理，得到上述语音识别结果O
[0046]下面具体对上述声学模型的构建过程进行说明:为使得本发明实施例中的电子病历系统在医学场景下具有更好的语音识别效果，在上述声学模型训练过程中，采用了针对医疗应用环境下的发音词典，以及相应语境环境的训练音频。在上述声学模型的发音词典方面，为处理医学情景下的复杂语言环境，引入专业的医学类词典及部分医学类的英文名词。在发音词典的建立过程中，采用统计学方法，从大量医学病历文本(例如医院3年以上的所有病人的病历文本)中找出出现较频率高的词作为发音词典中的词汇，发音标记采用处理中文广泛使用的音素标记法。可选的，声学模型建模基于传统的隐马尔可夫模型(HMM，HiddenMarkovModel)-混合高斯模型(GMM，Gaussian mixture model)三音素模型，并在其基础上进行异方差线性判别分析及最小化音素错误(MPE，Minimum Phone Erro)过程得到。
[0047]下面具体对上述N-gram语音模型和神经网络语言模型进行说明:为使语言模型得到更好的效果，本发明实施例中的电子病历系统中的语音模型采用N-gram语言模型和神经网络语言模型结合的方法。神经网络语言模型将词映射到高维度的向量空间，基于多层级神经网络对接下来的词进行解码，由于神经网络语言模型的结构特点，对于出现频率低的词无法给出似然值，所以在语音识别过程中通过N-gram语言模型进行预解码。
[0048]具体地，使用声学模型对上述声音特征文件的处理过程、使用N-gram语音模型对第一处理文件的处理过程以及使用神经网络语言模型对第二处理文件的处理过程可以分别参见相关的已有技术实现，此处不再赘述。
[0049]106、上述服务器将得到的上述语音识别结果存储为电子病历文件，以便上述终端通过上述服务器查看上述电子病历文件；
[0050]具体地，上述电子病历文件存储在上述服务器的电子病历文件数据库中。
[0051]可选地，上述服务器将上述电子病历文件主动发送给上述终端，以便用户在终端上查看该电子病历文件。进一步，用户还可以在终端上修改该电子病历文件中的内容并存储，将修改后的电子病历文件发送给上述服务器，上述服务器在电子病历文件数据库中更新该电子病历文件。
[0052]可选地，当用户需要查看电子病历文件时，通过上述客户端向服务器发送电子病历文件查看请求消息，服务器在接收到该电子病历文件查看请求消息后，向上述客户端返回相应的电子病历文件。
[0053]可选地，上述终端还包括网页端，则用户可以通过该网页端登陆上述服务器后，在上述服务器上查看、修改、遍历、整理服务器上属于该用户的电子病历文件。
[0054]可选地，为解决长时间段音频的快速识别问题，本发明实施例中的电子病历系统引入切分流程，通过该切分流程将长段的音频切分成具有完整语义的小段，从而提高语音识别的速度。具体地，上述切分流程可在上述终端进行，或者，也可以在上述服务器中进行。
[0055]当上述切分流程在上述终端进行时，本发明实施例中的步骤101还包括:在长度超过预设长度的语音之后出现的切分位置进行切分，其中，上述切分位置为音频能量低于预设阈值的语音位置。本发明实施例中的步骤102还包括:从切分得到的每段语音中提取声音特征，生成每段语音的声音特征文件，并将本次生成的所有声音特征文件存入同一声音特征文件集合。本发明实施例中的步骤104具体为:接收来自上述终端的声音特征文件集合。本发明实施例中的步骤105具体为:对上述声音特征文件集合中的所有声音特征文件进行语音识别后合并，得到语音识别结果。具体地，上述预设长度和上述预设阈值可以实际需求进行设定，当上述阈值设置为O时，即为在长度超过预设长度的语音之后出现的静音位置进行切分。
[0056]当上述切分流程在上述服务器进行时，本发明实施例中的步骤105之前还包括:上述服务器在步骤104接收到的声音特征文件中的每个长度超过预设长度的语音之后出现的切分位置进行切分，其中，上述切分位置为音频能量低于预设阈值的语音位置。本发明实施例中的步骤105具体为:分别对切分得到的每段声音特征文件进行语音识别后合并，得到语音识别结果。具体地，上述预设长度和上述预设阈值可以实际需求进行设定，当上述阈值设置为O时，即为在长度超过预设长度的语音之后出现的静音位置进行切分。
[0057]由于语音识别后的结构仅含有文字信息，没有段落句子的划分，为规范语音识别结果的展示以及方便用户使用需要，可选地，上述服务器自动在合适位置添加标点符号(例如逗号、顿号、句号等)，具体地，当上述切分流程在上述服务器进行时，本发明实施例中的步骤105还包括:分别在每个非连续出现的切分位置对应的语音识别结果处加入一个标点符号。或者，当上述切分流程在上述终端进行时，上述终端记录声音特征文件集合中的每个非连续出现的切分位置，并连同该声音特征文件结合发送给上述服务器，以便在步骤105中，服务器分别在每个非连续出现的切分位置对应的语音识别结果处加入一个标点符号。可选的，服务器结合切分流程中连续出现的切分位置所占的时间长度添加相应的标点符号，例如，设置一门限值，若时间长度不大于某一门限值，贝1J添加逗号，若时间长度大于该门限值，则添加句号。进一步，还可以检测位于需要添加标点符号的切分位置两侧的语音识别结果是否为并列的医学词典中的医学词汇，若是，则在该切分位置添加顿号。
[0058]为解决病历文本格式问题，可选地，本发明实施例中的电子病历系统提供了住院病历、查房病历、门诊病历等病历模板格式，供用户选择，用户在创建电子病历文件之前，可以在上述客户端上选择需要的病历模板格式，在本发明实施例中的步骤106中，服务器将语音识别结果存储为电子病历文件，具体为:上述服务器将语音识别结果存储为预定的病历模板格式(即用户选择的病历模板格式)的电子病历文件。在生成预定的病历模板格式的电子病历文件之后，用户只需修改补充该电子病历文件中如时间、病房号床号、医师姓名等信息即可。
[0059]由上可见，本发明中的终端负责采集录入的语音并生成声音特征文件后发送给服务器，服务器负责对终端发送的声音特征文件进行语音识别，并将语音识别结果存储为电子病历文件，通过本发明方案，医生只需要通过终端口述需要录入的电子病历内容，服务器便能够生成相应文本格式的电子病历文件，解决现有技术中医生需要通过手动方式输入病历内容的弊端，有效提高了电子病历的生成效率，进一步，语音识别过程中使用的声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建，保证了声学模型在医学类场景中应用的准确性，并且，在语音识别过程中，采用N-gram语言模型和神经网络语言模型结合的方法，进一步提高了语音识别结果的准确性。
[0060]下面以一具体应用场景，对应用图1所示的电子病历生成方法的电子病历系统进行详细描述。
[0061]本发明实施例中的电子病历系统分为服务器和终端两个部分，服务器提供医学领域的专业语音识别服务，终端可记录语音或文本形式的电子病历。
[0062]终端具体可以为智能手机、可穿戴式智能设备、平板电脑、个人计算机等。终端分为客户端和网页端。客户端可方便医生快速记录电子病例文件，网页端可使医生通过终端上的浏览器查看、修改、编辑、整理自己的电子病历文件。
[0063]本发明实施例中的电子病历系统的整体流程示意图可以如图2-a所示。由图2-a可见，医生(用户)通过终端口述患者病例情况，终端会记录医生录入的语音，对录入的语音进行编码，提取语音中的声音特征，生成声音特征文件，然后将声音特征文件上传至服务器，并存储在医生语音数据库之中。上传声音特征文件之后，服务器的语音识别模块会从医生语音数据库中找到未进行识别的语音数据，进行声音的解码，将声音转化为文本，生成电子病例文件，存储在医生病例数据库中，当用户需要查看某病人的病例时，可直接通过终端客户端或网页端查看病人的电子病历文件，这时客户端或网页端会从服务器中的医生病例数据库中下载对应的电子病历文件，必要时，服务器将电子病历文件转化为预定模板格式的电子病历文件。
[0064]一、下面对电子病历系统中的终端的客户端进行说明:
[0065]当终端上的客户端启动后，首先进行初始化和网络连接的检查，若无网络则弹出对话框提示无网络连接，当网络连接正常时，进入登录界面，在该界面用户可选择注册新用户，或使用已有账号登陆，或通过设置按钮登出系统、删除该终端上的信息等。当用户登录后默认直接进入录音界面，可以通过点击录音按键开始录入语音，客户端对录入的录音进行声音特征提取，并生成声音特征文件，保存在本地存储设备或外部存储设备中，进一步，客户端生成包含录入的录音的wav格式或其它格式的语音文件，并保存在终端本地存储设备或外部存储设备中。客户端通过自动或手动地方式将声音特征文件通过网络上传至服务器，并在后台查询服务器的语音识别结果，若查询到语音识别结果则从服务器获取语音识别结果并显示，否则显示“正在识别”字样。同时，等待用户启动新的语音录制任务。进一步，用户可以通过在录音界面中点击客户端提供的查询记录按钮查看已经录制的语音文件的语音识别结果或播放选中的语音文件。下面对每个环节分别进行说明:
[0066](I)用户登录
[0067]设置“注册”用户按钮，用于添加新用户；为保证安全需要对用户身份进行认证，以及终端注册次数的控制，防止恶意注册。
[0068]设置“登录”按钮，用户使用客户端时需要先登录；本地数据需要有权限控制，同一终端上的不同用户间不能相互查看数据。当点击登录按钮，但无网络连接时，跳转到网络连接设计页面。终端上的用户只能访问自己的文件列表，无法查看其他用户的文件。
[0069]设置“设置”按钮，终端需要在登录前就已经连接到网络，通过该按钮设置连接方式，默认采用wifi连接。
[0070]当用户登出电子病历系统时，删除该终端上的该用户记录。
[0071](2)录音
[0072]客户端提供录音控件，该录音控件包含:播放当前音频按钮、录音/暂停按钮、停止按钮和删除当前录音按钮。用户通过触发该“录音/暂停”按钮向终端输入创建电子病历的指令或暂停录音指令，之后，客户端开始采集录入的语音。该“停止”按钮用于触发结束本次语音的采集，该“删除”按钮用于触发客户端结束本次语音的采集并删除当前录入的语音。客户端后台可以实现自动切分、自动提取声音特征、自动上传。客户端提供上传方式设置控件，用户可以通过该上传方式设置控件自主选择声音特征文件的上传方式，上传方式包括自动上传和手动上传。
[0073]录音完成后用户可以直接在存储的语音文件名称位置重命名该语音文件，默认文件名为录音开始时间。
[0074](3)查看记录
[0075]每个用户可以通过文件列表查看自己已经录制的语音文件和由语音文件的识别结果生成的电子病历文件。每次查找电子病历文件，客户端需要连接服务器，客户端也可以将电子病历文件保存在终端本地。
[0076](4)自动切分与提取声音特征
[0077]客户端通过语音的音频能量做预切分，例如，预设长度为8秒，则当录入的语音长度超过8秒时，在之后出现的音频能量持续N秒低于预设阈值处做切分，终端提取每段语音并提取声音特征，生成每段语音的声音特征文件，并将本次生成的所有声音特征文件存入同一声音特征文件集合。进一步，客户端还可以将生成的声音特征文件保存在终端上存储设备或外部存储设备中。其中，上述N的取值可以根据实际情况进行设定。
[0078](5)上传声音特征文件
[0079]如果用户选择手动上传声音特征文件，则客户端可以先录音、切分、生成声音特征文件，之后再有网络的环境下向服务器上传声音特征文件(或声音特征文件集合)进行语音识别。如果用户选择自动上传声音特征文件，则电子病历系统将由服务器对声音特征文件进行切分和语音识别处理。
[0080]二、下面对电子病历系统中的终端的网页端进行说明:
[0081]终端的网页端主要提供医生提供查看、编辑、下载病人的病例的功能。
[0082](I)用户登录和注册
[0083]与终端的客户端类似，详见上述对客户端的说明。
[0084](2)查看病人的电子病历文件
[0085]医生(用户)通过病人名字的排序列表查找自己需要查看的电子病历文件。
[0086](3)修改病人的电子病历文件
[0087]医生可以直接在病人的电子病历文件上进行编辑，编辑后的电子病历文件会替换以更新原电子病历文件。当然，电子病历系统也可以保留原有电子病历文件的备份，方便医生恢复以前的电子病历文件。
[0088](4)下载病例
[0089]网页端提供下载电子病历文件功能，点击下载即可下载规定格式的电子病历文件。
[0090]具体地，用户通过网页端查看病人的电子病历文件时的界面示意图可以如图2-b所示。
[0091]三、下面对电子病历系统中的服务器进行说明:
[0092]服务器的数据库主要分为三部分，分别是医生语音数据库、医生病例数据库和用户信息数据库。医生语音数据库存储了医生上传的所有声音特征文件(或声音特征文件集合)，医生病例数据库存储了医生所有的电子病历文件，用户信息数据库医生(用户)的个人信息。
[0093]客户端通过注册或登录服务，注册或获取用户信息，服务器根据用户的登陆信息，在用户信息数据库中验证用户身份。
[0094]医生(用户)可以使用两种方式建立新的电子病例文件。一种可以直接生成文本形式的电子病例文件，并上传同步至服务器的医生病例数据库，另一种方式可以使用语音录入的方式录入病人的电子病历内容，并从录入的语音中提取特征，生成声音特征文件，将声音特征文件上传至服务器，服务器再调用语音识别服务对声音特征文件进行语音识别，将语音识别结果以电子病历文件形式存储在医生病例数据库中。
[0095]服务器内部以及与客户端交互的流程示意图可以如图2-c所示。
[0096]服务器对声音特征文件的处理可以细分为两个子流程:切分流程以及语音识别流程。首先，在电子病历系统初始化阶段，服务器的语音识别模块将初始化语音识别引擎，并加载语音识别引擎到内存中。加载完成后，语音识别模块将等待系统接收用户的空闲识别任务。若用户通过终端录入并上传声音特征文件后，则电子病历系统在缓存中生成一条新的任务记录，并写入任务信息，该任务信息包括语音识别任务中需要与逻辑控制层通信的完整信息。这时，语音识别模块通过调用切分流程从缓存中获取新的任务记录并进行切分，将该任务记录切分成若干子任务并写回缓存，每个子任务具有完整的逻辑控制信息。语音识别模块此时访问缓存获取没有被识别的子任务并进行语音识别。若语音识别成功则将语音识别结果写入数据库，若语音识别失败则标记该子任务为异常任务，在用户查询语音识别结果时返回包含语音识别结果的电子病历文件。最后，语音识别模块将通知客户端语音识别任务完成，并恢复等待状态，直到新的语音识别任务产生。
[0097]下面对服务器处理声音特征文件的各个环节进行说明:
[0098](I)切分流程:
[0099]服务通过声音特征文件的音频能量做预切分，例如，预设长度为8秒，则当声音特征文件的语音长度超过8秒时，在之后出现的音频能量持续N秒低于预设阈值处做切分，服务器分别提取每段声音特征文件进行语音识别后合并，得到语音识别结果。其中，上述N的取值可以根据实际情况进行设定。
[0100](2)语音识别流程:
[0101]本发明实施例中的语音识别流程具体为由声学模型对声音特征文件进行处理，声学模型将处理结果输入N-gram语音模型(例如2-gram语言模型)进行一次解码(即预解码)，N-gram语音模型将处理结果输入神经网络语言模型，由神经网络语言模型进行二次解码，将二次解码作为最终语音识别结果。
[0102]下面具体对上述声学模型的构建过程进行说明:在上述声学模型训练过程中，采用了针对医疗应用环境下的发音词典，以及相应语境环境的训练音频。在上述声学模型的发音词典方面，为处理医学情景下的复杂语言环境，引入专业的医学类词典及部分医学类的英文名词。在发音词典的建立过程中，采用统计学方法，从大量医学病历文本(例如医院3年以上的所有病人的病历文本)中找出出现较频率高的词作为发音词典中的词汇，发音标记采用处理中文广泛使用的音素标记法。可选的，声学模型建模基于传统的HMM-GMM三音素模型，并在其基础上进行异方差线性判别分析及MPE过程得到。
[0103]下面具体对上述N-gram语音模型和神经网络语言模型进行说明:为使语言模型得到更好的效果，本发明实施例中的电子病历系统中的语音模型采用N-gram语言模型和神经网络语言模型结合的方法。神经网络语言模型将词映射到高维度的向量空间，基于多层级神经网络对接下来的词进行解码，由于神经网络语言模型的结构特点，对于出现频率低的词无法给出似然值，所以在语音识别过程中通过N-gram语言模型进行预解码。
[0104]由于语音识别后的结构仅含有文字信息，没有段落句子的划分，为规范语音识别结果的展示以及方便用户使用需要，可选地，上述服务器自动在合适位置添加标点符号(例如逗号、顿号、句号等)，服务器可以结合切分流程中连续出现的切分位置所占的时间长度添加相应的标点符号，例如，设置一门限值，若时间长度不大于某一门限值，则添加逗号，若时间长度大于该门限值，则添加句号。进一步，还可以检测位于需要添加标点符号的切分位置两侧的语音识别结果是否为并列的医学词典中的医学词汇，若是，则在该切分位置添加顿号。
[0105]为解决病历文本格式问题，服务器提供了住院病历、查房病历、门诊病历等病历模板格式，供用户选择，用户在创建电子病历文件之前，可以在上述客户端上选择需要的病历模板格式，服务器将语音识别结果存储为预定的病历模板格式(即用户选择的病历模板格式)的电子病历文件。在生成预定的病历模板格式的电子病历文件之后，用户只需修改补充该电子病历文件中如时间、病房号床号、医师姓名等信息即可。
[0106]下面对本发明实施例提供的一种电子病历系统进行描述，请参阅图3所示，本发明实施例中的电子病历系统300，包括:
[0107]终端301和服务器302 ；
[0108]终端301用于:在接收到指示创建电子病历的指令时采集录入的语音；提取本次录入的语音的声音特征，生成声音特征文件；将所述声音特征文件发送给服务器302 ;
[0109]服务器302用于:接收来自终端301的声音特征文件；对所述声音特征文件进行语音识别，得到语音识别结果；将所述语音识别结果存储为电子病历文件，以便终端301通过服务器302查看所述电子病历文件；；
[0110]其中，服务器302具体通过如下方式对所述声音特征文件进行语音识别:
[0111]使用声学模型对所述声音特征文件进行处理，得到第一处理文件，其中，所述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；
[0112]使用N-gram语音模型对所述第一处理文件进行处理，得到第二处理文件；
[0113]使用神经网络语言模型对所述第二处理文件进行处理，得到所述语音识别结果。
[0114]可选的，终端301还用于:在所述采集录入的语音的过程中，在长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置。终端301具体用于:从切分得到的每段语音中提取声音特征，生成每段语音的声音特征文件，并将本次生成的所有声音特征文件存入同一声音特征文件集合；将所述声音特征文件集合发送给服务器302。服务器302具体用于:接收来自终端301的声音特征文件集合；对所述声音特征文件集合中的所有声音特征文件进行语音识别后合并，得到语音识别结果。
[0115]可选的，服务器302还用于:在对所述声音特征文件进行语音识别之前，在所述声音特征文件中的每个长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置。服务器302具体用于:分别对切分得到的每段声音特征文件进行语音识别后合并，得到语音识别结果。
[0116]可选的，服务器302还用于:在分别对所述声音特征文件中的每段声音特征文件进行语音识别后合并的过程中，分别在每个非连续出现的切分位置对应的语音识别结果处加入一个标点符号。
[0117]可选的，服务器302具体用于:将得到的所述语音识别结果存储为预定模板格式的电子病历文件。
[0118]需要说明的是，本发明实施例中的终端具体可以为智能手机、可穿戴式智能设备、平板电脑、个人计算机等。
[0119]应理解，本发明实施例中的终端可以如前述实施例中提及的终端和服务器可以分别如前述实施例中提及的终端和服务器，可以用于实现前述实施例中的全部技术方案，其各个功能模块的功能可以根据前述实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。
[0120]由上可见，本发明中的终端负责采集录入的语音并生成声音特征文件后发送给服务器，服务器负责对终端发送的声音特征文件进行语音识别，并将语音识别结果存储为电子病历文件，通过本发明方案，医生只需要通过终端口述需要录入的电子病历内容，服务器便能够生成相应文本格式的电子病历文件，解决现有技术中医生需要通过手动方式输入病历内容的弊端，有效提高了电子病历的生成效率，进一步，语音识别过程中使用的声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建，保证了声学模型在医学类场景中应用的准确性，并且，在语音识别过程中，采用N-gram语言模型和神经网络语言模型结合的方法，进一步提高了语音识别结果的准确性。
[0121]在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0122]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0123]另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0124]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0125]需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。
[0126]在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0127]以上为对本发明所提供的一种电子病历生成方法和电子病历系统的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在【具体实施方式】及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种电子病历生成方法，其特征在于，包括: 终端在接收到指示创建电子病历的指令时采集录入的语音；所述终端提取本次录入的语音的声音特征，生成声音特征文件；所述终端将所述声音特征文件发送给服务器；所述服务器接收来自所述终端的声音特征文件；所述服务器对所述声音特征文件进行语音识别，得到语音识别结果；所述服务器将得到的所述语音识别结果存储为电子病历文件，以便所述终端通过所述服务器查看所述电子病历文件；其中，所述服务器对所述声音特征文件进行语音识别包括: 所述服务器使用声学模型对所述声音特征文件进行处理，得到第一处理文件，其中，所述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；所述服务器使用N-gram语音模型对所述第一处理文件进行处理，得到第二处理文件；所述服务器使用神经网络语言模型对所述第二处理文件进行处理，得到所述语音识别结果。
2.根据权利要求1所述的方法，其特征在于，所述终端在接收到指示创建电子病历的指令时采集录入的语音，包括: 在长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置；所述终端提取本次录入的语音的声音特征，生成声音特征文件，包括: 从切分得到的每段语音中提取声音特征，生成每段语音的声音特征文件，并将本次生成的所有声音特征文件存入同一声音特征文件集合；所述终端将所述声音特征文件发送给服务器，具体为: 将所述上传声音特征文件集合发送给所述服务器；所述服务器接收来自所述终端的声音特征文件，具体为:接收来自所述终端的声音特征文件集合；所述服务器对所述声音特征文件进行语音识别，具体为:对所述声音特征文件集合中的所有声音特征文件进行语音识别后合并。
3.根据权利要求1所述的方法，其特征在于，所述服务器对所述声音特征文件进行语音识别，之前包括: 所述服务器在所述声音特征文件中的每个长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置；所述服务器对所述声音特征文件进行语音识别，包括: 分别对切分得到的每段声音特征文件进行语音识别后合并。
4.根据权利要求3所述的方法，其特征在于，所述分别对切分得到的每段声音特征文件进行语音识别后合并，包括: 分别在每个非连续出现的切分位置对应的语音识别结果处加入一个标点符号。
5.根据权利要求1至4任一项所述的方法，其特征在于，所述服务器将所述语音识别结果存储为电子病历文件，具体为: 所述服务器将所述语音识别结果存储为预定的病历模板格式的电子病历文件。
6.一种电子病历系统，其特征在于，包括: 终端和服务器；所述终端用于:在接收到指示创建电子病历的指令时采集录入的语音；提取本次录入的语音的声音特征，生成声音特征文件；将所述声音特征文件发送给所述服务器；所述服务器用于:接收来自所述终端的声音特征文件；对所述声音特征文件进行语音识别，得到语音识别结果；将所述语音识别结果存储为电子病历文件，以便所述终端通过所述服务器查看所述电子病历文件；；其中，所述服务器具体通过如下方式对所述声音特征文件进行语音识别: 使用声学模型对所述声音特征文件进行处理，得到第一处理文件，其中，所述声学模型基于医学类词典、历史医学病历文本以及医学类的英文名词构建；使用N-gram语音模型对所述第一处理文件进行处理，得到第二处理文件；使用神经网络语言模型对所述第二处理文件进行处理，得到所述语音识别结果。
7.根据权利要求6所述的电子病历系统，其特征在于，所述终端还用于:在所述采集录入的语音的过程中，在长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置；所述终端具体用于:从切分得到的每段语音中提取声音特征，生成每段语音的声音特征文件，并将本次生成的所有声音特征文件存入同一声音特征文件集合；将所述声音特征文件集合发送给所述服务器；所述服务器具体用于:接收来自所述终端的声音特征文件集合；对所述声音特征文件集合中的所有声音特征文件进行语音识别后合并，得到语音识别结果。
8.根据权利要求1所述的电子病历系统，其特征在于，所述服务器还用于:在对所述声音特征文件进行语音识别之前，在所述声音特征文件中的每个长度超过预设长度的语音之后出现的切分位置进行切分，其中，所述切分位置为音频能量低于预设阈值的语音位置；所述服务器具体用于:分别对切分得到的每段声音特征文件进行语音识别后合并，得到语音识别结果。
9.根据权利要求8所述的电子病历系统，其特征在于，所述服务器还用于:在分别对所述声音特征文件中的每段声音特征文件进行语音识别后合并的过程中，分别在每个非连续出现的切分位置对应的语音识别结果处加入一个标点符号。
10.根据权利要求6至9任一项所述的电子病历系统，其特征在于，所述服务器具体用于:将得到的所述语音识别结果存储为预定模板格式的电子病历文件。
【文档编号】G10L15/26GK104485105SQ201410855689
【公开日】2015年4月1日申请日期:2014年12月31日优先权日:2014年12月31日
【发明者】宋弘扬, 朱云, 陈龙, 王岚申请人:中国科学院深圳先进技术研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋弘扬;朱云;陈龙;王岚;
技术所有人：中国科学院深圳先进技术研究院;
我是此专利的发明人

上一篇：一种3d音频空间参数全方位非均匀量化编码系统及方法
上一篇：采用单片机控制的自适应盆形喇叭及声音的控制方法