信息获取方法及装置与流程

文档序号:12124540阅读:244来源:国知局
信息获取方法及装置与流程

本申请涉及信息处理技术领域,具体涉及信息获取技术领域,尤其涉及信息获取方法及装置。



背景技术:

随着网络的发展,海量的信息出现在网络上。网络能够使人们足不出户就能获取到各种信息,提高了人们工作和生活的信息化水平,提高了人们工作和生活的效率。

然而,现有的通过网络搜索信息的方法还存在一些不足。网络上的信息通常是常用的信息,不易从这些信息中查找到某一方面信息的最新进展,具有较大的盲目性,实时性和准确性也不高。



技术实现要素:

本申请提供了信息获取方法及装置,以解决背景技术中提到的技术问题。

第一方面,本申请提供了一种信息获取方法,该方法包括:接收待检测信息,上述待检测信息由终端上的信息应用发出;从上述待检测信息中提取内容信息,上述内容信息包括时间信息、事件信息、位置信息;提取上述内容信息内的有效信息,上述有效信息用于表征上述内容信息的真实性。

在一些实施例中,上述接收待检测信息包括:记录发出上述待检测信息的终端的终端信息和/或上述信息应用的用户信息。

在一些实施例中,上述从上述待检测信息中提取内容信息包括:检测上述待检测信息中是否存在关键词,若有,则提取上述关键词,上述关键词用于组成内容信息。

在一些实施例中,上述提取上述内容信息内的有效信息包括:将上述内容信息分解为至少一个单元词,上述单元词包括以下至少一项:动词、名词、数词和量词;确定上述单元词在上述内容信息中的句子成分及单元词之间的语法关系;根据上述句子成分和语法关系获取有效信息。

在一些实施例中,上述根据上述句子成分和语法关系获取有效信息还包括:当上述句子成分对应的单元词为缩略词时,对上述缩略词补充信息。

在一些实施例中,上述根据上述句子成分和语法关系获取有效信息还包括:对上述有效信息标记等级信息,上述等级信息用于表征上述有效信息的时间要求和/或线下转换量。

在一些实施例中,上述方法还包括:根据上述终端信息和用户信息将上述等级信息发送给终端。

第二方面,本申请提供了一种信息获取装置,该装置包括:信息接收单元,用于接收待检测信息,上述待检测信息由终端上的信息应用发出;信息提取单元,用于从上述待检测信息中提取内容信息,上述内容信息包括时间信息、事件信息、位置信息;信息确认单元,用于提取上述内容信息内的有效信息,上述有效信息用于表征上述内容信息的真实性。

在一些实施例中,上述信息接收单元包括:信息记录子单元,用于记录发出上述待检测信息的终端的终端信息和/或上述信息应用的用户信息。

在一些实施例中,上述信息提取单元包括:内容信息提取子单元,用于检测上述待检测信息中是否存在关键词,若有,则提取上述关键词,上述关键词用于组成内容信息。

在一些实施例中,上述信息确认单元包括:单元词获取子单元,用于将上述内容信息分解为至少一个单元词,上述单元词包括以下至少一项:动词、名词、数词和量词;单元词分析子单元,用于确定上述单元词在上述内容信息中的句子成分及单元词之间的语法关系;有效信息确定子单元,用于根据上述句子成分和语法关系确定有效信息。

在一些实施例中,上述有效信息确定子单元还包括:内容补充模块,用于在上述句子成分对应的单元词为缩略词时,对上述缩略词补充信息。

在一些实施例中,上述有效信息确定子单元还包括:等级信息标记模块,用于对上述有效信息标记等级信息,上述等级信息用于表征上述有效信息的时间要求和/或线下转换量。

在一些实施例中,上述装置还包括:信息发送单元,用于根据上述终端信息和用户信息将上述等级信息发送给终端。

本申请提供的信息获取方法及装置,从接收的待检测信息中提取内容信息,并对内容信息进行准确性检测得到有效信息,使得有效信息具有很高的实时性和准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的信息获取方法的一个实施例的流程图;

图3是根据本申请的信息获取方法的应用场景的一个示意图;

图4是根据本申请的信息获取装置的一个实施例的结构示意图;

图5是根据本申请的服务器的一个实施例的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息获取方法或信息获取装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互,以接收或发送信息等。终端设备101、102、103上可以安装有各种信息处理应用,例如信息搜索应用、信息发布应用等。

终端设备101、102、103可以是运行应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是对终端设备101、102、103发来的信息进行处理的服务器,例如接收终端设备101、102、103发来的待检测信息,进而从信息中提取有效信息的服务器。服务器105可以从待检测信息中提取内容信息,并进一步从内容信息中提取有效信息。

需要说明的是,本申请实施例所提供的信息获取方法一般由服务器105执行,相应地,信息获取装置一般设置于服务器105中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2,其示出了一种信息获取方法的一个实施例的流程图200,该信息获取方法包括:

步骤201,接收待检测信息。

在本实施例中,电子设备(例如图1所示的服务器105)可以通过有线或无线的方式接收终端设备101、102、103发来的待检测信息,并对待检测信息进行信息提取。

终端设备101、102、103上安装有信息搜索应用和信息发布应用。用户可以通过信息搜索应用搜索待检测信息,并由信息发布应用将搜索到的待检测信息发送给服务器105,或者用户直接通过信息发布应用将自己了解到的待检测信息发送给服务器105。终端设备101、102、103上的信息应用可以是各种聊天应用、信息传输应用和/或信息发布应用。相应的,待检测信息可以是文字信息,也可以是语音信息、图片信息和/或视频信息。

服务器105接收终端设备101、102、103发来的待检测信息。当待检测信息是语音信息、图片信息和/或视频信息时,服务器105需要对语音信息进行语音识别操作,对图片信息进行图片识别操作,对视频信息进行语音识别和图像识别操作等,以便将语音信息、图片信息和/或视频信息转换为文字信息。

在本实施例的一些可选的实现方式中,上述接收待检测信息可以包括:记录发出上述待检测信息的终端的终端信息和上述信息应用的用户信息。

服务器105接收终端设备101、102、103发来的待检测信息后,还可以从待检测信息中查询到终端设备101、102、103的终端信息和/或信息应用的用户信息,以便对待检测信息进行标记。

步骤202,从上述待检测信息中提取内容信息。

终端设备101、102、103发来的待检测信息通常是用户按照自己的习惯撰写的文字信息(或将语音信息、图片信息和/或视频信息转换后得到的文字信息),这些文字信息或多或少包含用户的撰写习惯用语,例如:“据我所知”、“我听朋友说”、“你知道么”等。而这些撰写习惯用语在本实施例中属于无用信息。因此,需要从待检测信息中提取出有用的内容信息。

在本实施例的一些可选的实现方式中,上述从上述待检测信息中提取内容信息可以包括:检测上述待检测信息中是否存在关键词,若有,则提取上述关键词,上述关键词用于组成内容信息。

上述内容信息可以包括时间信息、事件信息、位置信息。时间信息、事件信息、位置信息可以通过时间关键词、事件关键词或位置关键词来确定。例如,时间信息用来对事件信息的发生时间进行限定,时间关键词可以是“今天”、“前几天”、“下周六”等;事件信息用于描述事件,事件关键词可以是“开了家公司”、“需要装潢”、“开了家工厂”等;位置信息用来描述事件信息对应的位置,位置关键词可以是“XX大厦一层”、“X地往南3公里”、“X区X街X号楼X层X室”等。将时间信息、时间信息和位置信息组织起来就构成了内容信息。

步骤203,提取上述内容信息内的有效信息。

得到内容信息后,还需要进一步从内容信息中提取出有效信息。这是因为,内容信息包含的时间信息、事件信息和位置信息可能存在错误。例如,当内容信息为:“今天”“XX大厦一层”“开了家公司”,而实际中,“XX大厦”可能不存在,或“XX大厦”存在,但“XX大厦一层”并没有新开的公司,或“XX大厦一层”“开了家公司”,但不是“今天”。因此,还需要从内容信息中提取出符合实际情况的有效信息。上述有效信息用于表征上述内容信息的真实性。需要说明的是,有效信息可以是内容信息中的一部分信息,也可以是内容信息的全部。

在本实施例的一些可选的实现方式中,上述提取上述内容信息内的有效信息可以包括以下步骤:

第一步,将上述内容信息分解为至少一个单元词。

为了将内容信息划分为格式化的表达,可以将内容信息分解为至少一个单元词,单元词包括以下至少一项:动词、名词、数词和量词等。得到单元词之后,就可以根据单元词之间的相互关系对内容信息进行分析。

第二步,确定上述单元词在上述内容信息中的句子成分及单元词之间的语法关系。

获得单元词后,还需要从语法的角度对单元词进行分析,例如,从单元词之间的先后顺序及在内容信息中所起的作用进行分析,进而确定单元词在内容信息中的句子成分和语法关系。

第三步,根据上述句子成分和语法关系获取有效信息。

确定了单元词在内容信息中的句子成分和语法关系后,可以根据句子成分和语法关系判断单元词是否准确有效,当单元词准确有效时,根据句子成分和语法关系可以确定内容信息的有效信息。

在本实施例的一些可选的实现方式中,上述根据上述句子成分和语法关系获取有效信息还可以包括:当上述句子成分对应的单元词为缩略词时,对上述缩略词补充信息。

实际中,用户在通过终端设备101、102、103发送待检测信息时,会将一些缩略词有意无意地加入到待检测信息中,最后导致有效信息中也出现了对应的缩略词。同样的,为了将有效信息划分为准确的表达,需要将这些缩略词还原为未缩略的情况,即,对缩略词进行信息补充。例如:有效信息为“今天”“XX大厦一层”“开了家公司”,其中,“今天”就属于一个缩略词,其对应的补充信息是“某年某月某日”。

在本实施例的一些可选的实现方式中,上述根据上述句子成分和语法关系获取有效信息还可以包括:对上述有效信息标记等级信息,上述等级信息用于表征上述有效信息的时间要求和/或线下转换量。

可以按照时间要求或该有效信息的线下转换量(可以是根据该有效信息得到的收益,还可以是其他形式,具体根据实际情况而定)将有效信息划分为多个等级信息。等级消息越高,说明该有效信息越紧急或越有价值。

在本实施例的一些可选的实现方式中,上述方法还可以包括:根据上述终端信息和用户信息将上述等级信息发送给终端。

当为有效信息标记等级信息后,可以将该等级信息通过终端信息和用户信息发送给终端,以告知该有效信息的用户。

继续参见图3,图3是根据本实施例的信息获取方法的应用场景的一个示意图。在图3的场景中,服务器105接收终端设备101、102、103发来的待检测信息,待检测信息为:“我听朋友说,下周六,在XX大厦的一层会开一家公司,这个公司有可能是卖食品的”。服务器105在接收到该待检测信息后,首先记录终端设备101、102、103的终端信息和对应的用户信息。然后,从待检测信息中分别提取时间关键词、事件关键词和位置关键词,得到内容信息为:“下周六”、“开一家公司”“XX大厦的一层”,而待检测信息中的“我听朋友说”、“这个公司有可能是卖食品的”则不必提取出来。然后将内容信息进行分解为动词、名词、数词和量词等单元词,得到“下周六”、“开”、“一”、“家”、“公司”、“XX大厦”、“一”、“层”。并确定单元词之间的句子成分和语法关系。最后,根据句子成分和语法关系判断内容信息是否正确(可通过网络、电话等方式查询内容信息是否正确),从内容信息中确认出正确的信息得到有效信息,即:“下周六在XX大厦一层开一家公司”。其中,下周六需要补充为具体的年月日,需要根据待检测信息的发出时间进行修改补充。还可以为有效信息标记等级信息,并向发出待检测信息的终端发送等级信息。

本申请提供的信息获取方法,从接收的待检测信息中提取内容信息,并对内容信息进行准确性检测得到有效信息,使得有效信息具有很高的实时性和准确性。

进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种信息获取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图4所示,本实施例上述的信息获取装置400可以包括:信息接收单元401、信息提取单元402和信息确认单元403。其中,信息接收单元401用于接收待检测信息,上述待检测信息由终端上的信息应用发出;信息提取单元402用于从上述待检测信息中提取内容信息,上述内容信息包括时间信息、事件信息、位置信息;信息确认单元403用于提取上述内容信息内的有效信息,上述有效信息用于表征上述内容信息的真实性。

在本实施例的一些可选的实现方式中,上述信息接收单元401可以包括:信息记录子单元(图中未示出)用于记录发出上述待检测信息的终端的终端信息和/或上述信息应用的用户信息。

在本实施例的一些可选的实现方式中,上述信息提取单元402可以包括:内容信息提取子单元(图中未示出)用于检测上述待检测信息中是否存在关键词,若有,则提取上述关键词,上述关键词用于组成内容信息。

在本实施例的一些可选的实现方式中,上述信息确认单元403可以包括:单元词获取子单元(图中未示出)、单元词分析子单元(图中未示出)和有效信息确定子单元(图中未示出)。其中,单元词获取子单元用于将上述内容信息分解为至少一个单元词,上述单元词包括以下至少一项:动词、名词、数词和量词;单元词分析子单元用于确定上述单元词在上述内容信息中的句子成分及单元词之间的语法关系;有效信息确定子单元用于根据上述句子成分和语法关系确定有效信息。

在本实施例的一些可选的实现方式中,上述有效信息确定子单元还可以包括:内容补充模块(图中未示出),用于在上述句子成分对应的单元词为缩略词时,对上述缩略词补充信息。

在本实施例的一些可选的实现方式中,上述有效信息确定子单元还可以包括:等级信息标记模块(图中未示出),用于对上述有效信息标记等级信息,上述等级信息用于表征上述有效信息的时间要求和/或线下转换量。

在本实施例的一些可选的实现方式中,本实施例的信息获取装置400还可以包括:信息发送单元(图中未示出)用于根据上述终端信息和用户信息将上述等级信息发送给终端。

下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。

如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括信息接收单元、信息提取单元和信息确认单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,信息确认单元还可以被描述为“用于确定有效信息的单元”。

作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:接收待检测信息,上述待检测信息由终端上的信息应用发出;从上述待检测信息中提取内容信息,上述内容信息包括时间信息、事件信息、位置信息;提取上述内容信息内的有效信息,上述有效信息用于表征上述内容信息的真实性。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1