本发明属于数据处理,具体涉及一种公安一体化大数据管理系统。
背景技术:
1、呼叫中心是通过电话为用户提供咨询服务的服务中心,现代的呼叫中心是 以计算机网络与电话通信技术为基础的综合系统,通过信息整合,能够储存各类警用信息。然而现有基于呼叫中心的公安大数据管理系统无法对呼叫中心获得的警用语音数据进行有效文字识别及储存。
技术实现思路
1、本发明为了解决以上问题,提出了一种公安一体化大数据管理系统。
2、本发明的技术方案是:一种公安一体化大数据管理系统包括语音采集单元、文本转换单元、关键词提取单元和数据上传单元;
3、语音采集单元用于获取用户的警情语音信号,并对警情语音数据进行预处理,生成目标语音信号;
4、文本转换单元用于将目标语音信号转换为标准文本;
5、关键词提取单元用于提取标准文本的关键标题;
6、数据上传单元用于将用户的警情语音信号和标准文本上传至数据库中,并根据标准文本的关键标题对用户的警情语音信号进行分类存储。
7、进一步地,语音采集单元生成目标语音信号包括以下步骤:
8、获取用户的警情语音信号,并将警情语音信号均分为若干个语音信号子序列;
9、计算各个语音信号子序列的修正系数;
10、根据各个语音信号子序列的修正系数,确定异常语音信号子序列;
11、将异常语音信号子序列剔除,将剩余语音信号子序列拼接,生成目标语音信号。
12、上述进一步方案的有益效果是:在本发明中,警情语音信号一般通过用户拨打电话等获得,可能存在较大杂音,所以需对语音信号子序列进行修正,再将修正后的语音信号子序列进行拼接,即可获得最终的目标语音信号。
13、进一步地,语音信号子序列的修正系数p的计算公式为:
14、;
15、式中,xm表示语音信号子序列中第m个子带的信号谱,xm+1表示语音信号子序列中第m+1个子带的信号谱,xm+2表示语音信号子序列中第m+2个子带的信号谱,m表示语音信号子序列的子带个数。
16、进一步地,异常语音信号子序列的确定方法具体为:若语音信号子序列的峰值小于所有语音信号子序列的修正系数之和,则该语音信号子序列为异常语音信号子序列。
17、进一步地,文本转换单元生成标准文本的具体方法为:构建文本识别模型,将目标语音数据输入至文本识别模型中,生成标准文本;
18、文本识别模型包括依次连接的信号输入层、文本提取层和文本输出层;
19、信号输入层用于将目标语音信号输入至文本识别模型中;
20、文本提取层用于识别目标语音信号中的单词;
21、文本输出层用于对文本提取层识别的单词进行拼接,生成标准文本。
22、进一步地,文本提取层损失函数gloss的表达式为:
23、;
24、式中,al表示文本提取层中第l个传输神经元的膜电位值,bn表示文本提取层中第n个加法神经元的膜电位值,al-1表示文本提取层中第l-1个传输神经元的膜电位值,bn-1表示文本提取层中第n-1个加法神经元的膜电位值,c表示任意常数,l表示传输神经元个数,n表示加法神经元个数。
25、上述进一步方案的有益效果是:在本发明中,以传输神经元为例,动作电位是神经元产生的短暂电流脉冲,可以作为传输神经元传递信息的基本单元,所以动作电位的阈值可以作为触发动作电位所需膜电位值。传输神经元和加法神经元的个数相等,即l=n。在文本提取层中,若干个传输神经元和若干个加法神经元依次连接。第一个传输神经元作为文本提取层的输入,最后一个加法神经元作为文本提取层的输出。
26、进一步地,文本输出层损失函数floss的表达式为:
27、;
28、式中,wk表示第k个单词的词向量,k表示单词个数,λk表示第k个单词的权重,gloss表示文本提取层损失函数,conv(·)表示卷积运算。
29、进一步地,关键词提取单元提取关键标题包括以下步骤:
30、提取标准文本中各个单词的词频,生成词频集合;
31、提取标准文本中各个单词的逆文本频率指数,生成逆频率集合;
32、根据词频集合和逆频率集合,生成标准文本中各个单词的词频权重;
33、提取小于词频权重的词频对应的单词,生成标题集合;
34、根据标题集合,生成关键标题。
35、上述进一步方案的有益效果是:在本发明中,在文本分析中,各个单词的词频和逆文本频率直属可以反映单词在文本中的关键程度,因此对单词的词频和逆文本频率进行分析运算可以得到较为重要的单词,将其作为标题集合。利用马尔科夫链作为句子生成器,生成最通顺的标题。
36、进一步地,词频权重θ的计算公式为:
37、;
38、式中,u表示词频集合,v表示逆频率集合,umax表示词频集合中最大词频,umin表示词频集合中最小词频,uave表示词频集合的平均词频,vmax表示逆频率集合中最大逆文本频率指数,vmin表示逆频率集合中最小逆文本频率指数,vave表示逆频率集合的平均逆文本频率指数,c表示任意常数,f0表示单词的词频。
39、进一步地,关键标题的生成方法具体为:利用马尔科夫链生成关键标题。
40、本发明的有益效果是:该公安一体化大数据管理系统可以对通过电话等形式采集的语音信号进行去噪处理,减少通话背景音等带来的噪声影响,还便于后续步骤进行文本提取;同时,本发明通过文本分析,确定文本的标题,并根据文本标题对语音信号进行分类存储,既可以保证语音信号和标准文本同时上传,便于后期快速了解语音对应的内容;还便于后期查找语音信号。因此,本发明有利于完成公安大数据一体化管理,提高工作人员的工作效率,简化工作流程。
1.一种公安一体化大数据管理系统,其特征在于,包括语音采集单元、文本转换单元、关键词提取单元和数据上传单元;
2.根据权利要求1所述的公安一体化大数据管理系统,其特征在于,所述语音采集单元生成目标语音信号包括以下步骤:
3.根据权利要求2所述的公安一体化大数据管理系统,其特征在于,所述语音信号子序列的修正系数p的计算公式为:
4.根据权利要求2所述的公安一体化大数据管理系统,其特征在于,所述异常语音信号子序列的确定方法具体为:若语音信号子序列的峰值小于所有语音信号子序列的修正系数之和,则该语音信号子序列为异常语音信号子序列。
5.根据权利要求1所述的公安一体化大数据管理系统,其特征在于,所述文本转换单元生成标准文本的具体方法为:构建文本识别模型,将目标语音数据输入至文本识别模型中,生成标准文本;
6.根据权利要求5所述的公安一体化大数据管理系统,其特征在于,所述文本提取层损失函数gloss的表达式为:
7.根据权利要求5所述的公安一体化大数据管理系统,其特征在于,所述文本输出层损失函数floss的表达式为:
8.根据权利要求1所述的公安一体化大数据管理系统,其特征在于,所述关键词提取单元提取关键标题包括以下步骤:
9.根据权利要求8所述的公安一体化大数据管理系统,其特征在于,所述词频权重θ的计算公式为:
10.根据权利要求8所述的公安一体化大数据管理系统,其特征在于,所述关键标题的生成方法具体为:利用马尔科夫链生成关键标题。