一种基于语音识别的办公辅助系统与方法与流程

文档序号：26003639发布日期：2021-07-23 21:21阅读：148来源：国知局

本发明属于智能办公技术领域，尤其涉及一种基于语音识别的办公辅助系统与方法。

背景技术：

随着智能化计算的发展，办公软件得到了广泛应用，极大的提高了办公效率。各种办公辅助软件随着用户需求不断的被开发出来，提供了非常丰富的辅助功能。例如，表格软件可提供非常丰富的表格编辑和计算功能，但是表格用于数据处理时通常需要面临大量的重复操作；同时，不同用户针对对于同一组数据处理又会自定义各种快捷操作。

例如，申请号为cn202011219565.0的中国发明专利申请提出基于outlook的实用型office办公邮件群发软件工具，该基于outlook的实用型office办公邮件群发软件工具，包括excel办公软件和outlook邮件软件；所述excel办公软件由xlsm文件中的邮件主题内容附件设定模块，联系人信息管理设定模块及参数替换设定模块组成；所述outlook邮件软件由邮件模板模块组成，可以设计通用型模版和个性化模版；所述office软件的承载体为pc机windows操作系统。通过设定针对不同收件人对象的可替换参数，直接利用office办公软件中的邮件发送模块即可进行正常的邮件发送，工作效率大大提高。

为了提高表格操作的快捷性，现有的表格操作软件本身也会提供对应的快捷操作按钮。然而，一方面，大部分时候，普通用户并不能快速掌握这些快捷操作；另一方面，表格操作软件本身提供的操作属性大多是英文或者混合语种表述，导致用户无法准确查找其含义，从而降低了表格操作的效率。

中国发明专利公开文本cn111178023a公开一种可视化自定义报表设计系统，包括数据物理层、工作目录配置层、逻辑数据层、设计处理层、图表结合层和报表展现层；数据物理层包括数据库、web服务器、程序模块、文本模块和数据表库；工作目录配置层包括制作环境模块和设计模块；逻辑数据层包括报表数据集和数据绑定模块；设计处理层包括参数设计模块、数据过滤模块、样式设置模块、条件展示模块和运算设计模块；图表结合层包括图表类型模块和图表数据模块；报表展现层包括报表展示层、表单录入模块和打印输出层。该发明中，全面满足html5/winform/asp.net/asp.netmvc/wpf等平台下报表设计和报表开发的需求，使得用户能够快速搭建灵活的设计个性化、多样化的报表，从而大大提高工作效率、降低用户工作成本。

如何针对在线办公辅助处理软件，提高处理和操作效率，使得用户在不完全熟悉软件性能的情况下，迅速定位到需要调用的功能按钮，现有技术并未给出有效的解决方案。

技术实现要素：

为解决上述技术问题，本发明提出一种基于语音识别的办公辅助系统与方法，所述系统包括语音监测引擎，语音监测引擎与每个办公辅助软件之间进行进程通信；当至少一个办公辅助软件处于前台运行状态时，办公辅助软件的后台运行监测进程发送激活信号给语音监测引擎；基于所述激活信号，在办公辅助软件的用户界面上显示激活按钮；响应于用户点击激活按钮，语音监测引擎建立多个异步线程，每个所述异步线程用于捕获用户在所述处于前台运行状态的办公辅助软件上的当前界面上对于可调用功能项的多个调用操作；响应于用户发出的语音指令，所述语音监测引擎对所述语音指令进行处理后，在当前界面上显示多个推荐的可调用功能项以及对应的反馈确认倒计时指令。

具体而言，在本发明的第一个方面，提供一种基于语音识别的办公辅助系统，所述系统包括多个办公辅助软件，每个所述办公辅助软件包括多个可调用功能项。

作为本发明的改进之一，所述系统还包括语音监测引擎，所述语音监测引擎与每个所述办公辅助软件之间进行进程通信；

当至少一个办公辅助软件处于前台运行状态时，所述办公辅助软件的后台运行监测进程发送激活信号给所述语音监测引擎；

基于所述激活信号，在所述办公辅助软件的用户界面上显示激活按钮；

响应于用户点击所述激活按钮，所述语音监测引擎建立多个异步线程，每个所述异步线程用于捕获用户在所述处于前台运行状态的办公辅助软件上的当前界面上对于可调用功能项的多个调用操作；

响应于用户发出的语音指令，所述语音监测引擎对所述语音指令进行处理后，在所述处于前台运行状态的办公辅助软件上的当前界面上显示多个推荐的可调用功能项以及对应的反馈确认倒计时指令。

作为本发明的改进之一，所述语音监测引擎包括语音转化组件、语音切分组件、语音扩词组件；

所述语音转化组件将所述用户发出的语音指令转化为文本序列；

所述语音切分组件将所述文本序列进行分词处理，得到第一数量的分词单位；

所述语音扩词组件，基于所述多个分词单位进行扩词处理，得到第二数量的长尾词单位。

在本发明的第二个方面，提供一种基于语音识别的办公辅助方法，所述方法应用于配置语音输入接口的办公终端，所述办公终端上安装有至少一个办公辅助软件，每个所述办公辅助软件包括多个可调用功能项。

具体来说，所述方法包括如下步骤：

s501：在每个所述办公辅助软件的启动进程中注入监测函数；

s502：基于所述监测函数的返回值判断是否存在办公辅助软件处于启动状态；

如果是，则建立后台监测进程；

s503：判断是否存在办公辅助软件位于前台运行状态，如果是，则基于所述后台监测进程扩展出多个异步捕获线程；

s504：利用所述多个异步捕获线程采集所述处于前台运行状态的办公辅助软件的当前界面上的可调用功能项的调用操作以及调用顺序；

s505：每个所述异步捕获线程将采集的可调用功能项的调用操作按照所述调用顺序存储到记录数据库中；

s506：判断所述语音输入接口是否接收到激活指令，所述激活指令包括预先设置的一段激活语音；

如果是，则在所述语音输入接口和所述后台监测进程之间建立数据管道；

s507：通过所述语音输入接口接收用户输入的语音序列，基于所述语音序列解析出至少一个分词单位；

s508：将所述分词单位通过所述数据管道发送至所述记录数据库；

s509：执行所述记录数据库中与所述分词单位对应的至少一个可调用功能项。

在本发明的第三个方面，提供一种基于语音识别的办公辅助方法，所述方法基于第一个方面所述的一种基于语音识别的办公辅助系统实现。

本发明的上述方法可以通过计算机程序自动化的实现，因此，在本发明的第四个方面，提供一种计算机可读存储介质，其上存储有计算机可执行程序指令，通过包含处理器和存储器的集成电路芯片，执行所述可执行指令，用于实现所述第二或者第三个方面所述方法的部分或者全部步骤。

采用本发明的技术方案，用户在不完全熟悉软件性能的情况下，可以迅速定位到需要调用的功能按钮，并且方便快捷准确。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于语音识别的办公辅助系统的架构示意图

图2是图1所述系统的工作流程的第一个方面的示意图

图3是图1所述系统的工作流程的第二个方面的示意图

图4是基于图1所述系统实现的一种基于语音识别的办公辅助方法的流程示意图

具体实施方式

参见图1，是本发明一个实施例的一种基于语音识别的办公辅助系统的架构示意图。

在图1中，所述系统包括多个办公辅助软件，每个所述办公辅助软件包括多个可调用功能项。

所述语音监测引擎与每个所述办公辅助软件之间进行进程通信。

图2-图3进一步展现了图1所述系统具体工作流程。

在图2中，当至少一个办公辅助软件处于前台运行状态时，所述办公辅助软件的后台运行监测进程发送激活信号给所述语音监测引擎；

基于所述激活信号，在所述办公辅助软件的用户界面上显示激活按钮；

在图3中，响应于用户点击所述激活按钮，所述语音监测引擎建立多个异步线程，每个所述异步线程用于捕获用户在所述处于前台运行状态的办公辅助软件上的当前界面上对于可调用功能项的多个调用操作；

图3中，示出了指令1-指令2-……等多个可调用功能项以及对应的反馈确认倒计时指令。

同时，针对每一个可调用功能项以及对应的反馈确认倒计时指令，提供了对应的确认符与替换提示符。

当用户在倒计时确认指示符结束之前发出替换指令时，所述替换提示符给出当前指令的替换提示，避免了某些情况下的错误推荐。

更进一步的，在上述实施例中，所述语音监测引擎包括语音转化组件、语音切分组件、语音扩词组件；所述语音转化组件将所述用户发出的语音指令转化为文本序列；

所述语音切分组件将所述文本序列进行分词处理，得到第一数量的分词单位；

所述语音扩词组件，基于所述多个分词单位进行扩词处理，得到第二数量的长尾词单位。

所述语音监测引擎对所述语音指令进行处理，具体包括：

所述语音监测引擎基于所述第二数量的长尾词单位和所述多个异步线程捕获的多个调用操作的比对，得出多个推荐的可调用功能项。

接下来参见图4，图4是基于图1所述系统实现的一种基于语音识别的办公辅助方法的流程示意图。

在图4中，给出一种基于语音识别的办公辅助方法，所述方法应用于配置语音输入接口的办公终端，所述办公终端上安装有至少一个办公辅助软件，每个所述办公辅助软件包括多个可调用功能项。

需要注意的是，在图4的实施例中，所述方法包括两个阶段：

第一阶段为步骤s501-s505的训练阶段；第二阶段为步骤s506-s509的执行阶段。

作为优选，当第一阶段满足预定条件时，才进入第二阶段。

这里的预定条件，可以是第一阶段执行了预定次数、超过预定时间段等，确保每个所述异步捕获线程将采集的可调用功能项的调用操作按照所述调用顺序存储到记录数据库中的操作足够多。

具体来说，所述第一阶段执行如下：

s501：在每个所述办公辅助软件的启动进程中注入监测函数；

s502：基于所述监测函数的返回值判断是否存在办公辅助软件处于启动状态；如果是，则建立后台监测进程；

s503：判断是否存在办公辅助软件位于前台运行状态，如果是，则基于所述后台监测进程扩展出多个异步捕获线程；

s504：利用所述多个异步捕获线程采集所述处于前台运行状态的办公辅助软件的当前界面上的可调用功能项的调用操作以及调用顺序；

s505：每个所述异步捕获线程将采集的可调用功能项的调用操作按照所述调用顺序存储到记录数据库中。

在第一阶段结束后，判断是否满足预定条件，如果是，则进入第二阶段，第二阶段执行过程如下：

s506：判断所述语音输入接口是否接收到激活指令，所述激活指令包括预先设置的一段激活语音；

如果是，则在所述语音输入接口和所述后台监测进程之间建立数据管道；

s507：通过所述语音输入接口接收用户输入的语音序列，基于所述语音序列解析出至少一个分词单位；

s508：将所述分词单位通过所述数据管道发送至所述记录数据库；

s509：执行所述记录数据库中与所述分词单位对应的至少一个可调用功能项。

在上述实施例中，所述步骤s503进一步包括：

若所述处于前台运行状态的办公辅助软件退出前台运行状态，则所述后台监测进程收回所述多个异步捕获线程。

所述步骤s507所述的基于所述语音序列解析出至少一个分词单位，进一步包括：

将所述语音序列转化为文本序列，对所述文本序列进行分词处理，得出多个分词单位。

需要指出的是，所述步骤s506建立的所述数据管道为单向数据管道。

数据管道（data-pipeline）技术原本是用于不同数据库（数据源）之间的数据转移的技术，例如数据备份、数据还原等，采用数据管道技术，可以避免进程阻塞或者使用第三方代理进行数据传输。数据管道即是将不同进程连接起来用于数据传输。

单向数据管道管道则是意味着从一个进程到另一个进程之间的单向数据传输。

本实施例首次采用单向数据管道，可以避免多个异步捕获线程本身在运行过程中对于语音输入接口本身的操作的影响。

作为更进一步的优选，虽然未示出，但是所述语音输入接口还可以改进为包括包括分段语音判断组件、分段语音动作提取组件以及分段语音指令识别组件。

更具体的，所述分段语音判断组件用于判断所述用户发出的语音指令（语音序列）是否具备分段属性，若所述语音序列具备分段属性，则激活所述分段语音动作提取组件。

在本发明的各个实施例中，所述分段属性是指所述语音序列包含两种以上的语种属性。例如，当所述语音序列包含至少两种语种语音时，所述语音序列具备分段属性。

例如，用户的语音输入可能是“打开project的pix-fix功能”，用户本意在于想要打开当前表格项目的像素调节功能用于调节某个框的像素值。

此时，所述语音序列包含第一语种语音序列（打开功能）和至少一个第二语种语音序列（project、pix-fix），因此，具备分段属性。

当所述语音序列包含第一语种语音序列和至少一个第二语种语音序列时，调用所述语音插件的所述分段语音动作提取组件提取出所述第一语种语音序列或者第二语种语音序列。

具体而言，作为一个示例，若所述第一语种语音序列的长度小于所述第二语种语音序列的长度，则调用所述语音插件的所述分段语音动作提取组件提取出所述第一语种语音序列；

否则，调用所述语音插件的所述分段语音动作提取组件提取出所述第二语种语音序列。

将所述分段语音动作提取组件提取的所述第一语种语音序列或者第二语种语音序列转化为文字序列后，进行分词处理后，识别出长尾词；

将所述长尾词作为分段语音指令识别组件的输入。

所述分段语音指令识别组件将所述输入的长尾词与所述可调用功能项的历史操作记录对应的操作路径进行比对后，结合所述第一语种语音序列或者第二语种语音序列得出至少一个可调用功能项的执行指令。

通过上述技术方案，本发明能够适用于提到表格操作的便携性，尤其是对于商务混合语种或指令的场合，识别准确度更高。

综上所述，本发明通过语音工具调用实现了表格的多个操作路径的自动匹配；同时，针对混合语种指令，采用分段属性识别的和长尾词生成的方式，得到的匹配关键词更为准确。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴黎敏;谢锦涛;江民财;王学勤
技术所有人：福建马恒达信息科技有限公司
我是此专利的发明人

上一篇：一种车辆控制方法、装置、电子设备和存储介质与流程
上一篇：一种基于毫米波雷达的手势运动探测系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。