一种基于人工智能的语音数据智能管理系统及方法与流程

文档序号：36246417发布日期：2023-12-02 12:31阅读：87来源：国知局

本发明涉及数据管理，具体为一种基于人工智能的语音数据智能管理系统及方法。

背景技术：

1、招聘是人力资源管理中的重要工作之一，为了更充分地提前了解面试者的相关信息，通常会要求面试者上传一段自我介绍以及与应聘岗位相关的指定问题回答的视频，相关人员会提前通过观看视频来了解面试者的信息以帮助在线筛选人才，但是，因受到不同因素，例如：网络信号、环境噪声等影响，上传视频中的语音清晰度不一，需要进行语音数据管理，随着互联网技术和人工智能的快速的发展，将人工智能技术应用在语音数据管理上，能够更好地进行在线人才筛选；

2、然而，现有的语音数据管理方式仍存在一些问题：首先，在面对大量语音清晰度不一的视频数据，对于观看部分语音清晰度低的视频，会消耗并延长相关人员听清、了解视频内容的时间，需要对语音信号做增强处理来解决这一问题，但是，现有技术一般会在开始传输视频数据之前对所有语音信号做增强处理，存在以下弊端：首先，对于部分清晰的语音信号无需处理，现有技术未进行提前筛选；其次，对于大量视频数据，增强处理需要一定的时间，会导致相关人员观看到面试者提交的开始时间有所延迟。

3、所以，人们需要一种基于人工智能的语音数据智能管理系统及方法来解决上述问题。

技术实现思路

1、本发明的目的在于提供一种基于人工智能的语音数据智能管理系统及方法，以解决上述背景技术中提出的问题。

2、为了解决上述技术问题，本发明提供如下技术方案：一种基于人工智能的语音数据智能管理系统，所述系统包括：数据采集模块、数据管理中心、语音数据分析模块、传输方式规划模块和数据传输管理模块；

3、所述数据采集模块的输出端连接所述数据管理中心的输入端，所述数据管理中心的输出端连接所述语音数据分析模块的输入端，所述语音数据分析模块的输出端连接所述传输方式规划模块的输入端，所述传输方式规划模块的输出端连接所述数据传输管理模块的输入端；

4、所述数据采集模块用于采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据，将采集到的全部数据传输到所述数据管理中心；

5、所述数据管理中心用于存储并管理采集到的全部数据；

6、所述语音数据分析模块用于建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长；

7、所述传输方式规划模块用于为当前需要传输至观看人员终端的数据规划传输方式；

8、所述数据传输管理模块用于在选择排序传输数据时，选择最佳的顺序传输数据。

9、进一步的，所述数据采集模块包括视频数据接收单元、语音提取单元和历史数据采集单元；

10、所述视频数据接收单元的输出端连接所述语音提取单元的输入端，所述语音提取单元和历史数据采集单元的输出端连接所述数据管理中心的输入端；

11、所述视频数据接收单元用于接收面试者提交的自我介绍和指定问题回答的视频数据；

12、所述语音提取单元用于提取接收到的视频的语音数据；

13、所述历史数据采集单元用于采集以往若干次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长信息。

14、进一步的，所述语音数据分析模块包括人工智能识别单元、时长预测模型建立单元和观看时长预测单元；

15、所述人工智能识别单元和时长预测模型建立单元的输入端连接所述数据管理中心的输出端，所述人工智能识别单元和时长预测模型建立单元的输出端连接所述观看时长预测单元的输入端；

16、所述人工智能识别单元用于对提取到的语音进行识别，获取不同面试者提交的视频中的语音清晰度；

17、所述时长预测模型建立单元用于调取历史数据，分析观看以往面试者提交的视频需要的工作量，建立视频观看时长预测模型；

18、所述观看时长预测单元用于分析观看当前接收到的面试者提交的视频需要的工作量，将工作量代入视频观看时长预测模型中，预测观看当前视频需要花费的时长。

19、进一步的，所述传输方式规划模块包括清晰度差异分析单元、必要程度分析单元和传输方式选择单元；

20、所述清晰度差异分析单元的输入端连接所述人工智能识别的输出端，所述必要程度分析单元的输入端连接所述清晰度差异分析单元和观看时长预测单元的输出端，所述必要程度分析单元的输出端连接所述传输方式选择单元的输入端；

21、所述清晰度差异分析单元用于分析当前接收到的不同面试者提交的视频中语音的清晰差异程度；

22、所述必要程度分析单元用于结合清晰差异程度和预测到的观看当前视频需要花费的时长分析将当前视频进行排序后再传输到观看人员终端的必要程度；

23、所述传输方式选择单元用于设置必要程度阈值，若必要程度未超出阈值，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若必要程度超出阈值，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端。

24、进一步的，所述数据传输管理模块包括语音数据分类单元、最佳分类规划单元和排序传输管理单元；

25、所述语音数据分类单元的输入端连接所述传输方式选择单元的输出端，所述语音数据分类单元的输出端连接所述最佳分类规划单元的输入端，所述最佳分类规划单元的输出端连接所述排序传输管理单元的输入端；

26、所述语音数据分类单元用于若选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端，将当前接收到的不同面试者提交的视频进行分类；

27、所述最佳分类规划单元用于选择最佳的分类方式，并获取按最佳的分类方式得到的分类结果；

28、所述排序传输管理单元用于按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将第一个类别中的视频优先传输至观看人员终端，并对最后一个类别中视频的语音信号进行增强处理后，最后传输至观看人员终端，利用深度神经网络对语音信号进行增强处理；

29、通过人工智能技术对清晰度偏低的语音信号做增强处理，将增强处理后的数据传输至终端，有利于减少观看人员听清、了解视频内容所要消耗的时间。

30、一种基于人工智能的语音数据智能管理方法，包括以下步骤：

31、z1：采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据；

32、z2：建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长；

33、z3：为当前需要传输至观看人员终端的数据规划传输方式；

34、z4：在选择排序传输数据时，选择最佳的顺序传输数据。

35、进一步的，在步骤z1中：采集当前面试者提交的自我介绍和指定问题回答的视频，获取到当前共需要观看n个面试者提交的视频，获取到当前面试者提交的视频时长集合为t＝{t1，t2，…，tn}，提取当前面试者提交的视频中的语音，进行语音识别后获取到当前不同面试者提交的视频中的语音的清晰度集合为snr＝{snr1，snr2，…，snrn}，采集到以往m次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长；

36、snr指的是语音信噪比，表示语音信号与噪声信号的比值，此处用snr来衡量语音的清晰度。

37、进一步的，在步骤z2中：调取到以往m次中随机一次需要观看的面试者提交的视频时长集合为v＝{v1，v2，…，vk}，从对应视频中提取到的语音的清晰度集合为snr’＝{snr1’，snr2’，…，snrk’}，对应次共需要观看k个面试者提交的视频，根据公式计算以往m次中随机一次观看视频需要的工作量mi，通过相同方式计算得到以往m次观看视频需要的工作量集合为m＝{m1，m2，…，mi，…，mm}，调取到以往m次观看完成所有需要观看的视频花费的时长集合为t＝{t1，t2，…，tm}，对数据点{(m1，t1)，(m2，t2)，…，(mm，tm)}进行直线拟合，建立视频观看时长预测模型：y＝α1*x+α2，其中，α1和α2表示拟合系数，根据下列公式分别求解α1和α2：

38、

39、

40、其中，ti表示以往m次中第i次观看完成所有需要观看的视频花费的时长，根据公式计算观看当前面试者提交的视频需要的工作量n，其中，snre表示从当前的第e个面试者提交的视频中提取到的语音的清晰度，te表示当前的第e个面试者提交的视频时长，将n代入视频观看时长预测模型中：令x＝n，预测得到观看当前面试者提交的视频需要花费的时长为：α1*n+α2；

41、通过大数据技术采集并分析以往观看面试者提交视频的历史数据，建立视频观看时长预测模型，目的在于预测观看当前需要观看的视频需要花费的时长，若需要花费的时长较短，判断观看当前需要观看的视频并不需要较长时间，则没有必要对数据传输顺序进行干预；若需要花费的时长较长，判断观看当前需要观看的视频需要较长时间，需要干预传输顺序来节省观看时间、推进观看进度，并非从需要观看的视频数量这一个参数来训练并建立视频观看时长预测模型，语音清晰度和视频时长也会对观看完成花费的时长造成影响，结合历史视频中语音的清晰度、视频时长训练并建立视频观看时长预测模型，提高了观看当前视频需要花费的时长预测结果的准确度。

42、进一步的，在步骤z3中：根据公式计算当前不同面试者提交的视频中语音的清晰差异程度c，得到将当前面试者提交的视频进行排序后再传输到观看人员终端的必要程度w，w＝c+α1*n+α2，设置必要程度阈值为w，比较w和w：若w≤w，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若w>w，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端；

43、当前语音的清晰差异程度越高说明语音信号间清晰度差异越大，越有必要对部分语音信号做增强处理，观看视频花费时长越长、差异程度越高，判断将视频进行排序后再分批传输至观看人员终端越有必要，排序是为了观看人员尽早接收到语音清晰的视频的同时筛选出部分视频，对视频中提取到的语音信号做增强处理，为不同情形选择合适的数据传输方式，有利于帮助顺利推进面试者提交视频的观看进度。

44、进一步的，在步骤z4中：在w>w时，将当前需要观看的n个面试者提交的视频按视频中提取到的语音的清晰度从大到小的顺序进行排列，将排列后的视频分为f类，前一类中所有视频中提取的语音的清晰度都大于后一类，获取到按随机一种分类方式分类后，得到的f类中每一类视频中提取到的语音的清晰度均值集合为g＝{g1，g2，…，gv，…，gf}，根据公式计算按随机一种分类方式分类后f类参数的离散程度l，计算按不同分类方式分类后f类参数的离散程度，选择离散程度最大的一种分类方式作为最佳的分类方式，按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将处于第一类别中的视频优先传输至观看人员终端，将处于第f个类别中的视频的语音信号进行增强处理后，最后传输至观看人员终端；

45、在选择将视频数据排序后再传输的方式时，将视频按语音的清晰度大小进行分类，选择离散程度最大的分类方式，提高了分类结果的准确性，按最佳的分类方式得到分类结果对应的顺序传输视频，有利于帮助观看人员优先观看到清晰度偏高的视频，在观看的同时对清晰度偏低的视频中的语音信号做增强处理，而非在观看前进行增强处理，避免了相关人员观看到面试者提交的开始时间有所延迟的问题。

46、与现有技术相比，本发明所达到的有益效果是：

47、本发明通过人工智能技术对清晰度偏低的语音信号做增强处理，将增强处理后的数据传输至终端，减少了观看人员听清、了解视频内容所要消耗的时间；

48、通过大数据技术采集并分析以往观看面试者提交视频的历史数据，建立视频观看时长预测模型，预测观看当前需要观看的视频需要花费的时长，若需要花费的时长较短，判断观看当前需要观看的视频并不需要较长时间，则没有必要对数据传输顺序进行干预；若需要花费的时长较长，判断观看当前需要观看的视频需要较长时间，需要干预传输顺序来节省观看时间、推进观看进度，并非从需要观看的视频数量这一个参数来训练并建立视频观看时长预测模型，语音清晰度和视频时长也会对观看完成花费的时长造成影响，结合历史视频中语音的清晰度、视频时长训练并建立视频观看时长预测模型，提高了观看当前视频需要花费的时长预测结果的准确度，依据预测数据和语音清晰差异程度选择合适的数据传输方式，有利于帮助顺利推进面试者提交视频的观看进度；

49、在选择将视频数据排序后再传输的方式时，将视频按语音的清晰度大小进行分类，选择离散程度最大的分类方式，提高了分类结果的准确性，按最佳的分类方式得到分类结果对应的顺序传输视频，有利于帮助观看人员优先观看到清晰度偏高的视频，在观看的同时对清晰度偏低的视频中的语音信号做增强处理，而非在观看前进行增强处理，避免了在观看所有视频前对信号做增强处理相关人员观看到面试者提交的开始时间有所延迟的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：巨琰
技术所有人：无锡爱视智能科技有限责任公司
我是此专利的发明人

上一篇：用于手术机器人的手臂组件的制作方法
下一篇：车辆控制装置、系统、车辆控制方法及存储介质与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！