信息片段生成方法和装置的制造方法

文档序号:9810508阅读:339来源:国知局
信息片段生成方法和装置的制造方法
【技术领域】
[0001 ]本申请涉及计算机技术领域,具体涉及终端技术领域,尤其涉及信息片段生成方法和装置。
【背景技术】
[0002]随着互联网和信息化技术突飞猛进的发展,使得互联网中包含了海量的信息内容。关键词是指单个媒体在制作使用索引时,所用到的词汇,它可以表达信息的主题内容以及核心内容。关键句是用于反映信息的核心思想内容的句子。然而,使用关键词表达信息,由于主体、受体、关系不明确,不能充分反映信息的核心内容;关键句虽可以反映信息的核心内容,但表述上不够简洁,不能使用户快速、准确的识别核心内容。因此,需要一种既能充分反映信息的核心内容,又表述简洁的信息表达形式。

【发明内容】

[0003]本申请的目的在于提出一种改进的信息片段生成方法和装置,来解决以上【背景技术】部分提到的技术问题。
[0004]第一方面,本申请提供了一种信息片段生成方法,所述方法包括:对获取的信息进行句子切分得到至少一个分句;根据预先设定的论元集合标注所述至少一个分句中的论元;将已标注论元的各个分句进行分词,并将分词后得到的词汇进行词性标注;基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果,对已标注论元的各个分句进行分析,生成主谓宾结构的信息片段。
[0005]在一些实施例中,所述方法还包括:基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。
[0006]在一些实施例中,所述对获取的信息进行句子切分得到至少一个分句,包括:根据获取的信息中的标点符号,将所述信息中的句子进行切分,得到至少一个分句。
[0007]在一些实施例中,所述根据预先设定的论元集合标注所述至少一个分句中的论元,包括:根据所述论元集合建立单词查找树;依据所述单词查找树判断各个分句中是否包含所述论元集合中论元,如果包含,则将该论元进行标注。
[0008]在一些实施例中,所述将已标注论元的各个分句进行分词,包括:利用全切分方法,并结合领域词典将已标注论元的各个分词进行分词,得到至少一个词汇。
[0009]第二方面,本申请提供了一种信息片段生成装置,所述装置包括:切分单元,配置用于对获取的信息进行句子切分得到至少一个分句;标注单元,配置用于根据预先设定的论元集合标注所述至少一个分句中的论元;分词单元,配置用于将已标注论元的各个分句进行分词,并将分词后得到的词汇进行词性标注;生成单元,配置用于基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果,对已标注论元的各个分句进行分析,生成主谓宾结构的信息片段。
[0010]在一些实施例中,所述装置还包括:去除单元,配置用于基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。
[0011]在一些实施例中,所述切分单元进一步配置用于:根据获取的信息中的标点符号,将所述信息中的句子进行切分,得到至少一个分句。
[0012]在一些实施例中,所述标注单元进一步配置用于:根据所述论元集合建立单词查找树;依据所述单词查找树判断各个分句中是否包含所述论元集合中论元,如果包含,则将该论元进行标注。
[0013]在一些实施例中,所述分词单元进一步配置用于:利用全切分方法,并结合领域词典将已标注论元的各个分词进行分词,得到至少一个词汇。
[0014]本申请提供的信息片段生成方法和装置,通过对所获取信息的分句标注论元,而后将已标注论元的分句进行分词,并将分词后得到的词汇进行词性标注,最后基于词汇搭配对集合、标注的论元、以及词性标注结果生成能够充分表达信息的核心内容,且表述简洁的信息片段,从而快速、有效的生成信息片段,实现了信息精确、简洁的表达。
【附图说明】
[0015]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0016]图1是本申请可以应用于其中的示例性系统架构图;
[0017]图2是根据本申请的信息片段生成方法的一个实施例的流程图;
[0018]图3是根据本申请的信息片段生成方法的一个应用场景的示意图;
[0019]图4是根据本申请的信息片段生成方法的又一个实施例的流程图;
[0020]图5是根据本申请的信息片段生成装置的一个实施例的结构示意图;
[0021]图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0022]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0023]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0024]图1示出了可以应用本申请的信息片段生成方法或信息片段生成装置的实施例的示例性系统架构100。
[0025]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0026]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、新闻类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0027]终端设备101、102、103可以是具有显示屏并且支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Aud1 Layer 111,动态影像专家压缩标准音频层面3)、MP4 (Moving PictureExperts Group Aud1 Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0028]服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供信息的后台网页服务器。后台网页服务器可以将互联网上的信息发送给终端设备,也可以将互联网上的信息进行分析等处理后将处理结果发送给终端设备。
[0029]需要说明的是,本申请实施例所提供的信息片段生成方法可以由终端设备101、102、103单独执行,或者也可以由终端设备101、102、103和服务器105共同执行。相应地,信息片段生成装置可以设置于终端设备101、102、103中,也可以将信息片段生成装置的部分单元设置于服务器105中。
[0030]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0031]继续参考图2,示出了根据本申请的信息片段生成方法的一个实施例的流程200。所述的信息片段生成方法,包括以下步骤:
[0032]步骤201,对获取的信息进行句子切分得到至少一个分句。
[0033]在本实施例中,信息片段生成方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以从本地,也可以通过有线连接方式或者无线连接方式从为其提供信息的后台服务器上获取信息。当该信息为文字信息时,上述电子设备可以根据文本段落、字体样式、字体大小等将上述信息进行切分,得到至少一个分句;当该信息为图片信息或语音信息时,上述电子设备可以首先将该信息进行识别生成的文字信息,之后可以根据文本段落、字体样式、字体大小等将上述信息进行切分,得到至少一个分句。
[0034]需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
[0035]在本实施例的一些可选的实现方式中,上述电子设备可以根据获取的信息(例如新闻资讯)中的标点符号,将该信息切分为至少一个分句。在这里,上述标点符号可以是特定的某种标点符号(例如,句号),也可以是信息中出现的全部标点符号。例如,可以将上
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1