信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法与流程

文档序号:19418852发布日期:2019-12-14 01:13阅读:207来源:国知局
信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法与流程

本发明涉及信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法。



背景技术:

伴随着社交网络服务(sns)、评论网站的普及,参考关于特定的设施、店铺的他人的消息、评价的顾客正在增加。例如,顾客会考虑访问在sns中投稿了正面的消息的设施、利用在评论网站中附有高的评价的店铺。在这样的sns、评论网站中,有时会进行被称为“隐形营销”的行为。所谓“隐形营销”,是如下的行为,即,假扮成一般消费者投稿评论、报导,面向一般消费者进行宣传,使得觉察不到是商品广告,从而人为地使商品或服务流行。因此,仅分析sns、评论网站等互联网上的评价,难以判断在互联网上受到高评价的商品或服务是仅在互联网上流行,还是在现实世界中也实际流行。另一方面,像在引用文献1、2记载的那样,已知有将声音信息文本化并将其作为文字信息而进行识别的声音识别技术。

在先技术文献

专利文献

专利文献1:国际公开wo2008/072413a1号公报

专利文献2:日本特开2016-90891号公报



技术实现要素:

发明要解决的课题

但是,欲使用在专利文献1、2记载的声音识别技术从顾客的声音提取关键词并根据关键词来判断商品或服务是否实际流行,需要对注册关键词的词典数据库进行优化,使得适当地进行该判断。

因此,本发明的课题在于,对词典数据库进行优化,使得能够适当地判断商品或服务是否实际流行。

用于解决课题的技术方案

为了解决上述的课题,本发明相关的信息处理系统具备声音处理装置和信息处理装置。声音处理装置具备:声音收集单元,收集声音;词典数据库,注册关键词;提取单元,从由声音收集单元收集的声音提取注册在词典数据库的关键词;指示单元,制作词典数据库的更新指示;以及第一通信单元,将由提取单元提取的关键词和由指示单元制作的更新指示发送到信息处理装置。信息处理装置具备:第二通信单元,接收从第一通信单元发送的关键词以及更新指示;关键词数据库,存放通过第二通信单元接收的关键词;推测单元,响应于通过第二通信单元接收的更新指示,推测存放在关键词数据库的关键词的关联词;以及词典数据库制作单元,基于存放在关键词数据库的关键词和推测的关联词,制作更新后的词典数据库。第二通信单元将更新后的词典数据库发送到声音处理装置。

发明效果

根据本发明相关的信息处理系统,能够对词典数据库进行优化,使得能够适当地判断商品或服务是否实际流行。

附图说明

图1是本实施方式相关的信息处理系统的结构图。

图2是示出本实施方式相关的关键词提取处理的流程的流程图。

图3是示出本实施方式相关的词典数据库更新处理的流程的流程图。

具体实施方式

以下,参照各图对本发明的实施方式进行说明。在此,设同一附图标记表示同一构成要素,并省略重复的说明。

图1是本发明的实施方式相关的信息处理系统10的结构图。信息处理系统10是用于通过声音识别来判断商品或服务是否实际流行的计算机系统。信息处理系统10具备声音处理装置20和信息处理装置30。声音处理装置20以及信息处理装置30连接为能够通过通信网络40进行通信。

声音处理装置20是用于进行收集顾客的声音并从收集的声音提取关键词的处理的计算机。“关键词”是成为用于通过声音识别来判断商品或服务是否实际流行的指标的单词。在从顾客的声音提取的关键词例如为“方向盘”、“刹车”、“轮胎”等的情况下,能够推测为正在进行与“汽车”相关的话题。声音处理装置20可以是设置在顾客所利用的设施、店铺的计算机,或者也可以是利用设施、店铺的顾客持有的计算机(例如,被称为智能电话的多功能便携式电话机、平板终端等)。

声音处理装置20作为其硬件资源而具备处理器21、存储资源22、通信接口23、以及传声器24。传声器24可以是声音处理装置20的内置传声器,或者也可以是外设传声器(外设型的有线式传声器或无线式的传声器)。例如,连接了外设传声器的平板终端作为声音处理装置20而发挥功能。

处理器21是具备处理算数运算、逻辑运算、比特运算等的算数逻辑运算单元以及各种寄存器(数据寄存器、命令寄存器、通用寄存器等)的cpu(centralprocessingunit,中央处理单元)。处理器21通过解释以及执行存放在存储资源22的计算机程序220,从而对声音处理装置20的动作(例如,声音收集处理、关键词提取处理、通信处理等)进行控制。

存储资源22是物理器件的存储区域提供的逻辑器件,作为存储单元而发挥功能。作为物理器件,例如能够使用硬盘驱动器、固态驱动器、存储卡、光盘驱动器、半导体存储器等计算机可读的记录介质。半导体存储器可以是易失性存储器,或者也可以是非易失性存储器。在存储资源22存储有计算机程序220和词典数据库230。在词典数据库230注册有关键词。

通信接口23经由通信网络40对声音处理装置20与信息处理装置30之间的通信进行控制。通信网络40例如是混合存在有线网络(例如,近距离通信网、广域通信网、或附加价值通信网等)和无线网络(移动通信网、卫星通信网、蓝牙、wifi(wirelessfidelity,无线保真)、hsdpa(highspeeddownlinkpacketaccess,高速下行分组接入)等)的通信网。也可以使对声音处理装置20与信息处理装置30之间的通信协议进行变换的网关网站介于两者之间。

传声器24例如是具备带抛物面的集声板的集声传声器,作为收集声音的声音收集单元而发挥功能。传声器24对利用设施、店铺的顾客的声音进行集声,将集声的声音进行a/d变换,并临时保存在存储资源22的一部分的存储区域(缓冲存储器)。

计算机程序220是用于控制声音处理装置20的动作的程序,具备从主程序之中调用并执行的多个软件模块。这样的软件模块分别是为了执行特定的处理(例如,关键词提取处理、词典数据库更新指示制作处理、通信处理等)而被模块化的子程序。软件模块例如使用过程、子例程、方法、函数、或数据结构等制作。作为被模块化的子程序,计算机程序220具备关键词提取模块221、词典数据库更新指示制作模块222、以及通信模块223。

关键词提取模块221是记述了从由传声器24收集的声音提取与注册在词典数据库230的关键词一致的关键词的处理的子程序。关键词提取模块221将由传声器24收集的声音的信息文本化并将其作为字符串信息而进行识别,通过比较字符串信息和关键词,从而从声音提取关键词。在将声音的信息文本化的处理中,从由传声器24收集的声音的信息检测发声区间,对检测出的发声区间进行基于统计语言模型的模式匹配。统计语言模型例如是用于计算单词的出现分布、继某个单词之后出现的单词的分布等语言表达的出现概率的概率模型。通过声音处理装置20的硬件资源和关键词提取模块221的协作,可实现从由传声器24收集的声音提取注册在词典数据库230的关键词的作为提取单元的功能。

词典数据库更新指示制作模块222是记述了制作用于更新词典数据库230的指示(词典数据库更新指示)的处理的子程序。词典数据库更新指示以给定的契机进行制作。在此,给定的契机可以是词典数据库230的命中率低于预先确定的阈值的时间点,或者也可以是预先确定的恒定间隔。所谓命中率,意味着注册在词典数据库230的全部的关键词之中曾经被判定为包含于顾客的声音的关键词的比例。通过声音处理装置20的硬件资源和词典数据库更新指示制作模块222的协作,可实现制作词典数据库更新指示的作为指示单元的功能。

通信模块223是记述了服从声音处理装置20与信息处理装置30之间的通信协议的通信处理的子程序。通过声音处理装置20的硬件资源和通信模块223的协作,可实现作为通信单元的功能。由关键词提取模块221提取的关键词通过通信接口23发送到信息处理装置30。同样地,由词典数据库更新指示制作模块222制作的词典数据库更新指示通过通信接口23发送到信息处理装置30。

信息处理装置30是如下的计算机,即,通过接收从声音处理装置20发送的关键词并对其进行累积,从而根据累积的关键词来推测话题。推测的话题例如提供给广告商。此外,为了优化词典数据库230,信息处理装置30还进行更新词典数据库230的处理。

信息处理装置30作为其硬件资源而具备处理器31、存储资源32、以及通信接口33。处理器31、存储资源32、以及通信接口33的硬件结构与处理器21、存储资源22、以及通信接口23的硬件结构相同,因此省略其详细的说明。

通信接口33接收从声音处理装置20发送的关键词以及词典数据库更新指示。在存储资源32存储有计算机程序320和关键词数据库330。关键词数据库330存放通过通信接口33接收的关键词。

计算机程序320是用于控制信息处理装置30的动作的程序,具备在主程序之中调用并执行的多个软件模块。这样的软件模块分别是为了执行特定的处理(例如,关联词推测处理、词典数据库更新处理、通信处理等)而被模块化的子程序。作为这样的软件模块,计算机程序320具备推测模块321、词典数据库制作模块322、以及通信模块323。

推测模块321是响应于通过通信接口33接收的词典数据库更新指示而推测存放在关键词数据库330的关键词的关联词的子程序。所谓关键词的关联词,意味着与关键词频繁地同时使用的语句,这样的语句也被称为“共现词”。共现词未必一定意味着同义词。推测模块321例如是应用了人工智能的共现词检索工具。作为这样的共现词检索工具,例如已知有如下的共现词检索工具,即,用成为谷歌、雅虎等的检索结果的上位的网页的内容进行形态素解析,将在同一文件中频繁出现的语句作为共现词进行提示。所谓形态素解析,意味着如下的作业,即,基于对象语言的语法、称为词典的单词的词类等信息,从没有语法性的信息的注释的自然语言的文本数据分解为形态素(在语言上具有意义的最小单位)的串,并判别各个形态素的词类等。通过信息处理装置30的硬件资源和推测模块321的协作,可实现推测关键词的关联词的作为推测单元的功能。

词典数据库制作模块322是响应于通过通信接口33接收的词典数据库更新指示而对词典数据库230进行更新的子程序。词典数据库制作模块322基于存放在关键词数据库330的关键词和由推测模块321推测的关联词,制作更新后的词典数据库230。更新后的词典数据库230将曾经从顾客的声音提取过的关键词及其关联词注册为关键词。将注册在更新前的词典数据库230的关键词中的未从顾客的声音提取过的关键词从更新后的词典数据库230删除。通过重复这样的更新处理,从而能够提高词典数据库230的命中率。通过信息处理装置30的硬件资源和词典数据库制作模块322的协作,可实现制作更新后的词典数据库230的作为词典数据库制作单元的功能。

通信模块323是记述了服从信息处理装置30与声音处理装置20之间的通信协议的通信处理的子程序。通过信息处理装置30的硬件资源和通信模块323的协作,可实现作为通信单元的功能。通信接口33将更新后的词典数据库230发送到声音处理装置20。接收到更新后的词典数据库230的声音处理装置20将更新前的词典数据库230替换为更新后的词典数据库230。

另外,在本说明书中,对声音处理装置20的通信单元和信息处理装置30的通信单元进行区分的情况下,将前者称为第一通信单元,将后者称为第二通信单元。

为了便于说明,在图1中示出了单个声音处理装置20连接于单个信息处理装置30的例子,但是也可以是多个声音处理装置20连接于多个信息处理装置30。此外,也可以是多个声音处理装置20连接于单个信息处理装置30,或者还可以是单个声音处理装置20连接于多个信息处理装置30。

接着,参照图2对关键词提取处理的流程进行说明。

声音处理装置20通过传声器24收集顾客的声音(步骤201)。传声器24可以在声音处理装置20运转的期间持续收集声音,或者也可以间歇性地(以恒定时间间隔)收集声音。接着,声音处理装置20参照词典数据库230(步骤202),从声音提取关键词(步骤203)。声音处理装置20可以在声音处理装置20运转的期间从声音持续提取关键词。接着,声音处理装置20将提取的关键词发送到信息处理装置30(步骤204)。声音处理装置20可以在声音处理装置20运转的期间将关键词持续发送到信息处理装置30,或者也可以间歇性地(以恒定时间间隔)将关键词发送到信息处理装置30。另外,在未从由传声器24收集的声音提取关键词的情况下,不进行向信息处理装置30的关键词的发送。另一方面,信息处理装置30接收从声音处理装置20发送的关键词(步骤205),将接收的关键词注册在关键词数据库330(步骤206)。

接着,参照图3对词典数据库更新处理的流程进行说明。

声音处理装置20以给定的契机制作词典数据库更新指示(步骤301),并将其发送到信息处理装置30(步骤302)。信息处理装置30若接收到词典数据库更新指示(步骤303),则从关键词数据库330获取关键词(步骤304),并推测关键词的关联词(步骤305)。接着,信息处理装置30基于关键词及其关联词制作更新后的词典数据库230(步骤306),并将其发送到声音处理装置20(步骤307)。声音处理装置20若接收到更新后的词典数据库230(步骤308),则通过将更新前的词典数据库230替换为更新后的词典数据库230,从而更新词典数据库230(步骤309)。

像以上说明的那样,通过基于从声音处理装置20收集的声音提取的关键词及其关联词对词典数据库230进行更新,从而能够提高词典数据库230的命中率,该关键词与注册在声音处理装置20的词典数据库230的关键词一致。由此,能够优化词典数据库230,使得能够适当地判断商品或服务是否实际流行。此外,传声器24收集的声音是顾客实际发声的声音,因此不是以互联网上的评价为基础,而是能够以现实社会中的评价为基础来判断商品或服务是否实际流行。此外,通过重复词典数据库230的更新,从而从词典数据库230删除无用的关键词,因此词典数据库230的存储容量可以少。由此,声音处理装置20的小型化以及低功耗化成为可能。

另外,以上说明的各实施方式用于使本发明容易理解,并非用于对本发明进行限定解释。本发明能够在不脱离其主旨的情况下进行变更/改良,并且本发明还包含其等价物。即,本领域技术人员对各实施方式适当地施加了设计变更的实施方式,只要具备本发明的特征,也包含于本发明的范围。此外,只要技术上可行,各实施方式具备的各要素就能够进行组合,将它们进行了组合的实施方式只要包含本发明的特征,就包含于本发明的范围。

附图标记说明

10:信息处理系统,20:声音处理装置,21:处理器,22:存储资源,23:通信接口,24:传声器,30:信息处理装置,31:处理器,32:存储资源,33:通信接口,40:通信网络,220:计算机程序,221:关键词提取模块,222:词典数据库更新指示制作模块,223:通信模块,230:词典数据库,320:计算机程序,321:推测模块,322:词典数据库制作模块,323:通信模块,330:关键词数据库。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1