多源海事信息搜索与冲突处理系统及方法与流程

文档序号:13421984阅读:219来源:国知局
多源海事信息搜索与冲突处理系统及方法与流程

本发明属于海事信息服务领域,具体涉及一种多源海事信息搜索与冲突处理系统及方法。



背景技术:

信息技术的飞速发展,因特网的出现和迅速普及,标志着一个全球性的信息社会正在逐步形成,社会经济和人们生活越来越依赖现代信息技术。海上交通信息对外发布系统的建立,有利于交通动静态信息在最大范围内、最大限度地被航行船舶、港航企业和海事管理部门等所共享和利用,从而实现整个海上交通系统的安全优化运行。

随着网络的推广与普及,网上信息公开已被公认为一种简便高效的信息公开形式。各级海事管理机构也根据各自的情况建立了对外公开的网站,设立了网上信息公开专栏,以信息公开目录、内容,在线咨询,网上论坛等的建设为标志,完成了网上信息公开必须的载体形式。

近年来,我国沿海内河均建立了各种各样的海事广播电台,比如揭阳广播电台“海事之声”栏目以及长江水上安全信息台等。利用广播接收各种航运安全信息已经成为我国内河大小船舶的日常行为,广播的语音信息也已经成为了海事信息公开的主要途径之一。

现在,国内外对海事信息服务的研究很多,但是无论是基于vts的海事信息发布,还是基于vtoss(vesseltrafficoperationssupportsystem)的海事信息系统都不会方便地为用户提供个性化查询方式,船舶驾驶员不能够实时地获知船舶行驶水域的海事信息,在人员不可避免产生疏忽大意的情况下,由于对关键海事信息的缺失有可能造成严重后果。

众所周知,无论是天气信息还是航道信息都有其时效性,有关某一地区二十四小时的天气预报和十二小时的天气预报有很大可能会不相同,更别提有时还会出现气象预警信息。而且网络上的信息和广播中的信息更新频率不同,所以多源信息一定会出现冲突,如何处理出现的冲突,得到准确的海事信息是亟待解决的问题。



技术实现要素:

本发明要解决的技术问题是:提供一种多源海事信息搜索与冲突处理系统及方法,能够根据时间和船舶所处地区为船舶个性定制海事信息,辅助驾驶员安全驾驶船舶。

本发明为解决上述技术问题所采取的技术方案为:一种多源海事信息搜索与冲突处理系统,其特征在于:它包括:

海事信息词库模块,用于存储海事领域的关键词汇;

文字搜索模块,用于搜索网络上关于海事的文字信息数据;

语音输入模块,用于接收需要识别的语音信息数据,并将语音信息数据进行预处理;

语音识别平台模块,用于基于海事信息词库中的海事信息关键词,对接收到的语音信息数据进行识别;

冲突处理模块,用于利用ds证据理论将出现冲突的文字信息数据和语音信息数据进行基本概率分配,得出信度分配函数,最后进行证据组合,解决文字信息数据与语音信息数据出现的冲突;

定位定制模块,用于定位船舶所在地理位置并由此对信息进行挑选;

播报模块,用于播报经过冲突处理后及定位模块挑选后的信息内容。

按上述系统,所述的文字搜索模块具体用于利用基于tf-idf算法的网络爬虫进行爬取,从而搜索网络上关于海事的文字信息数据。

按上述系统,所述的语音识别平台模块包括特征提取模块和模式匹配识别模块;其中,

特征提取模块用于从接收到的语音信息数据中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,得到语音信息数据的发音信息;所述声学模型由海事信息词库模块通过隐马尔科夫模型训练出来;

模式匹配识别模块用于已知一个隐马尔科夫模型和语音信息数据的发音信息,来求这段发音信息包含的最大概率的隐藏状态,隐藏状态为识别出的文字;已知的隐马尔科夫模型则是由海事信息词库模块所包含的词汇训练得到。

按上述系统,所述的定位定制模块具体用于通过船舶自身的定位系统获取到船舶所处水域位置,并在之前不断搜索、处理得到的海事信息中挑选与所处水域相关的海事信息,定制一份当前水域独有的海事信息内容。

按上述系统,所述的播报模块包括文字播报模块和语音播报模块。

一种多源海事信息搜索与冲突处理方法,其特征在于:它包括以下步骤:

文字搜索:搜索网络上关于海事的文字信息数据;

语音输入:接收需要识别的语音信息数据,并将语音信息数据进行预处理;

语音识别:基于海事信息词库中的海事信息关键词,对接收到的语音信息数据进行识别;海事信息词库模块存储了海事领域的关键词汇;

冲突处理:利用ds证据理论将出现冲突的文字信息数据和语音信息数据进行基本概率分配,得出信度分配函数,最后进行证据组合,解决文字信息数据与语音信息数据出现的冲突;

定位定制:定位船舶所在地理位置并由此对信息进行挑选;

播报:播报经过冲突处理后及定位模块挑选后的信息内容。

按上述方法,文字搜索时,利用基于tf-idf算法的网络爬虫进行爬取。

按上述方法,语音识别时,先从接收到的语音信息数据中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,得到语音信息数据的发音信息;所述声学模型由海事信息词库模块通过隐马尔科夫模型训练出来;

然后已知一个隐马尔科夫模型和语音信息数据的发音信息,来求这段发音信息包含的最大概率的隐藏状态,隐藏状态为识别出的文字;已知的隐马尔科夫模型则是由海事信息词库模块所包含的词汇训练得到。

按上述方法,定位定制时,通过船舶自身的定位系统获取到船舶所处水域位置,并在之前不断搜索、处理得到的海事信息中挑选与所处水域相关的海事信息,定制一份当前水域独有的海事信息内容。

按上述方法,播报时,分别采用文字播报和语音播报。

本发明的有益效果为:实时获取网络上以及广播中的各种有关的海事信息,经过基于证据理论的冲突处理以及根据船舶位置进行个性定制挑选之后再播报出来,能够根据时间和船舶所处地区为船舶个性定制海事信息,辅助驾驶员安全驾驶船舶。

附图说明

图1为本发明一实施例的方法流程图。

图2为语音识别过程流程图。

图3为隐马尔科夫模型训练声学模型示意图。

具体实施方式

下面结合具体实例和附图对本发明做进一步说明。

本发明提供一种多源海事信息搜索与冲突处理系统,它包括:

海事信息词库模块,用于存储海事领域的关键词汇。

文字搜索模块,用于搜索网络上关于海事的文字信息数据。所述的文字搜索模块具体用于利用基于tf-idf(termfrequency-inversedocumentfrequency文档词频统计)算法的网络爬虫进行爬取,从而搜索网络上关于海事的文字信息数据。

所述tf-idf改进算法具体包括以下步骤:

以海事信息词库模块中的词作为主题关键字,主题关键字在文档中出现的次数为tf频率,主题关键字在文档中的区分度为idf频率。tf-idf算法的计算公式为:

其中:ωij是第i个词在第j篇文章中的权值;ftf是第i个词汇在第j篇文档中出现的频率,叫作词汇频率;fidf是主题在所有文档中出现的频率,称为反词汇频率。当fidf值越大时,说明这个词汇在所有文档中越容易区别于其他文档,其识别度就越高。从式(1)可以得到:ωij的权值要提高,词汇频率就需要提高。对于反词汇频率,其值越大,说明词汇越集中于部分文档中更容易区分于其他文档。

在此实施例中,利用tf-idf算法的聚焦网络爬虫会根据海事信息词库模块作为主题,不断地在网络上下载相关海事信息,并进行简单地预处理。

语音输入模块,用于接收需要识别的语音信息数据,并将语音信息数据进行预处理。

语音识别平台模块,用于基于海事信息词库中的海事信息关键词,对接收到的语音信息数据进行识别。

所述语音识别平台模块采用的是科大讯飞语音云开放接口,调用讯飞语音云开放接口实际是访问msp(管理服务提供商)平台的服务端,服务端提供http应用、用户管理、语音服务等服务,位于局域网内,对外统一接入internet,为客户端提供唯一的访问点。其中:http服务器负责将客户端发送的服务请求发送至业务服务器,然后由业务服务器按照具体的服务类型进行处理,调用isp语音应用平台获取具体的语音服务,而后把处理结果返回给http服务器,再回复客户端。

所述msp系统主要包括语音应用接口(speechprogramminginterface,spi)、客户端(mobilespeechclient,msc)服务器(mobilespeechserver,mss)和基础支撑(mspinfrastructure)四个层次,这四个逻辑层从用户到服务器操作系统底层,共同构成了完整的msp系统架构。

语音识别平台模块包括特征提取模块和模式匹配识别模块;其中,特征提取模块用于从接收到的语音信息数据中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,得到语音信息数据的发音信息;所述声学模型由海事信息词库模块通过隐马尔科夫模型训练出来;模式匹配识别模块用于已知一个隐马尔科夫模型和语音信息数据的发音信息,来求这段发音信息包含的最大概率的隐藏状态,隐藏状态为识别出的文字;已知的隐马尔科夫模型则是由海事信息词库模块所包含的词汇训练得到。

图3是隐马尔科夫模型训练声学模型示意图,在此实施例中,第一模块,用于用训练数据训练一个隐马尔可夫-混合高斯hmm-gmm模型,该hmm-gmm模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三元组状态,所述hmm-gmm模型通过期望最大em算法获得所述三元组状态的状态转移概率;第二模块,用于基于所述hmm-gmm模型,对所述训练数据语音特征进行强制对齐,获得所述语音特征帧级的三元组状态信息;第三模块,用于对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;第四模块,用于基于所述训练数据语音特征的语音特征帧级状态信息采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。

隐马尔可夫模型(hiddenmarkovmodel,hmm)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,hmm被应用于语音识别,取得重大成功。到了90年代,hmm还被引入计算机文字识别和移动通信核心技术“多用户的检测”。hmm在生物信息科学、故障诊断等领域也开始得到应用。

隐马尔可夫模型(hmm)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:

1.隐含状态s

这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如s1、s2、s3等等)

2.可观测状态o

在模型中与隐含状态相关联,可通过直接观测而得到。(例如o1、o2、o3等等,可观测状态的数目不一定要和隐含状态的数目一致。)

3.初始状态概率矩阵π

表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,p(s1)=p1、p(s2)=p2、p(s3)=p3,则初始状态概率矩阵π=[p1p2p3].

4.隐含状态转移概率矩阵a

描述了hmm模型中各个状态之间的转移概率。其中aij=p(sj|si),1≤i,,j≤n.表示在t时刻、状态为si的条件下,在t+1时刻状态是sj的概率。

5.观测状态转移概率矩阵b(英文名为confusionmatrix,直译为混淆矩阵不太易于从字面理解)。

令n代表隐含状态数目,m代表可观测状态数目,则:bij=p(oi|sj),1≤i≤m,1≤j≤n.表示在t时刻、隐含状态是sj条件下,观察状态为oi的概率。

一般的,可以用λ=(a,b,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

在此实施例中,训练声学模型由以下几步组成:1、建立初始模型。具体地,用训练数据训练一个隐马尔可夫-混合高斯hmm-gmm模型,该hmm-gmm模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三元组状态,所述hmm-gmm模型通过期望最大em算法获得所述三元组状态的状态转移概率;2、获得训练数据的语音特征的语音特征帧级状态信息。具体地,基于所述hmm-gmm模型,对所述训练数据语音特征的三元组状态进行强制对齐,获得所述语音特征帧级状态信息;优选地,所述基于所述hmm-gmm模型,对所述训练数据语音特征的三元组状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:基于所述日hmm-gmm模型,将所述训练数据语音特征与其最可能的三元组状态进行对应,获得所述语音特征帧级状态信息。3、初始化深层神经网络各隐含层权重。具体地,对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;4、更新深层神经网络各隐含层权重。具体地,基于所述训练数据语音特征的三元组状态采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。优选地,所述对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。

在将所述hmm-gmm模型作为声学模型用于语音识别时,基于通过贝叶斯公式将语音特征经深层神经网络生成的后验概率转换为似然概率送入解码器进行解码,解码后获得的文本序列即作为识别到的说话内容。基于所述识别到的说话内容与真实的原始语音的差异可以评估语音识别的效果。根据该效果可以评估语音识别系统中作为声学模型的深层神经网络的性能,在必要时可以考虑对其进行再训练,甚至可以考虑对所述hmm-gmm模型中状态转移概率进行再设计。

冲突处理模块,用于利用ds证据理论将出现冲突的文字信息数据和语音信息数据进行基本概率分配,得出信度分配函数,最后进行证据组合,解决文字信息数据与语音信息数据出现的冲突。

在此实施例中,所述证据理论有以下实施步骤:

假设由网络上得到的天气预报信息显示未来6小时下雨的概率为0.1,不下雨的概率是0.9;而由广播接收到的紧急气象预警信息显示未来6小时下雨的概率是0.9,不下雨的概率是0.1。

那么,由证据理论得出的明天下雨的概率为:

由于给出的两个证据是完全相反的,所以得出的概率是0.5。而在本实施例中,不同的证据会具有不同的权值,根据权值的不同可以得出不同的结果,这样就可以更加准确的得出冲突处理的结果。

所述的权值来自于信息本身的可靠性,初期可以用专家打分,后期可以靠数据反馈,做机器学习。

定位定制模块,用于定位船舶所在地理位置并由此对信息进行挑选。定位定制模块具体用于通过船舶自身的定位系统获取到船舶所处水域位置,并在之前不断搜索、处理得到的海事信息中挑选与所处水域相关的海事信息,定制一份当前水域独有的海事信息内容。

播报模块,用于播报经过冲突处理后及定位模块挑选后的信息内容,包括文字播报模块和语音播报模块。

一种多源海事信息搜索与冲突处理方法,如图1所示,包括以下步骤:

文字搜索:搜索网络上关于海事的文字信息数据;文字搜索时,利用基于tf-idf算法的网络爬虫进行爬取。

语音输入:接收需要识别的语音信息数据,并将语音信息数据进行预处理。

语音识别:基于海事信息词库中的海事信息关键词,对接收到的语音信息数据进行识别;海事信息词库模块存储了海事领域的关键词汇。语音识别时,如图2所示,先从接收到的语音信息数据中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,得到语音信息数据的发音信息;所述声学模型由海事信息词库模块通过隐马尔科夫模型训练出来;然后已知一个隐马尔科夫模型和语音信息数据的发音信息,来求这段发音信息包含的最大概率的隐藏状态,隐藏状态为识别出的文字;已知的隐马尔科夫模型则是由海事信息词库模块所包含的词汇训练得到。

冲突处理:利用ds证据理论将出现冲突的文字信息数据和语音信息数据进行基本概率分配,得出信度分配函数,最后进行证据组合,解决文字信息数据与语音信息数据出现的冲突。

定位定制:定位船舶所在地理位置并由此对信息进行挑选。定位定制时,通过船舶自身的定位系统获取到船舶所处水域位置,并在之前不断搜索、处理得到的海事信息中挑选与所处水域相关的海事信息,定制一份当前水域独有的海事信息内容。

播报:播报经过冲突处理后及定位模块挑选后的信息内容。播报时,分别采用文字播报和语音播报。

本发明可以实时地自动获取有关船舶行驶水域的网络文字海事信息和广播语音海事信息,经过冲突处理后得到最为准确的结果,经过基于位置信息的个性化定制后通过文字和语音的方式将船舶所经过水域的各种海事信息实时播报给驾驶员,为船舶的安全驾驶提供辅助。

以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1