一种确定相关对象的方法和装置的制造方法

文档序号:9750946阅读:260来源:国知局
一种确定相关对象的方法和装置的制造方法
【专利说明】一种确定相关对象的方法和装置 【技术领域】
[0001] 本发明涉及计算机数据处理的技术领域,尤其涉及一种确定相关对象的方法和装 置。 【【背景技术】】
[0002] 随着互联网的发展,人们可以从互联网网页、企业网站、或者提供特定信息服务的 数据库等外部数据源获取越来越多的原始数据信息,这些原始数据信息可以为人们提供大 量所需要的内容。然而,由于通过外部数据源所获取的信息数量庞大、单位价值相对较低、 几乎全是以原始语料文档的方式存在,因此如何处理这些原始数据信息以获得人们想要的 内容,或者如何分析原始数据信息中这些内容之间的关系以便为人们提供服务,是目前亟 待解决的问题。
[0003] 现有的处理和分析原始数据信息的方式通常是依据从业或者分析人员的经验,将 采集的原始数据信息通过人工的方式进行分析和判断以提取出有用的内容。
[0004] 但是通过经验分析法进行数据分析,人力成本过高,并且分析结果受限于分析人 员的经验和市场活动范围。 【
【发明内容】

[0005] 本发明提供了一种确定相关对象的方法和装置,用以降低人力成本,提高准确性。
[0006] 具体技术方案如下:
[0007] 本发明提供了一种确定相关对象的方法,所述方法包括:
[0008] 依据对象的原始语料文档确定对象的对象类型和对象主题;
[0009] 按照对象类型聚合对象,得到一个以上的对象簇;
[0010] 依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。
[0011] 根据本发明一优选实施例,所述依据对象的原始语料文档确定对象的对象类型和 对象主题具体包括:
[0012] 从外部数据源获取对象的原始语料文档;
[0013] 从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;
[0014] 将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合 所匹配到的标准对象主题作为对象主题。
[0015] 根据本发明一优选实施例,所述将类型关键词集合所匹配到的标准对象类型作为 对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题具体包括:
[0016] 将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识 库和标准主题分类知识库进行匹配;
[0017] 确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类, 以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;
[0018] 依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
[0019] 根据本发明一优选实施例,按照对象类型聚合对象,得到一个以上的对象簇包括:
[0020] 查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位 置;
[0021] 若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预 设的要求,则确定该各对象属于同一对象簇。
[0022] 根据本发明一优选实施例,采用如下方式确定对象之间的主题相似度:
[0023] 分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
[0024] 确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。
[0025] 根据本发明一优选实施例,周期性地或者受事件触发时,执行所述方法。
[0026] 根据本发明一优选实施例,所述方法还包括:
[0027] 将各对象分别作为待分析对象,执行所述方法;
[0028] 在结果数据库中存储各对象对应的相关对象。
[0029] 根据本发明一优选实施例,所述方法还包括:
[0030] 将用户输入的对象作为待分析对象,执行所述方法,并输出待分析对象的相关对 象。
[0031] 根据本发明一优选实施例,所述方法还包括:
[0032]获取用户输入的对象;
[0033] 查询所述结果数据库,确定并输出与所述输入的对象对应的相关对象。
[0034] 根据本发明一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业 描述、产品服务描述及关系;
[0035]所述对象类型包括公司行业;
[0036] 所述对象主题包括公司提供的产品服务;
[0037] 所述相关对象包括存在竞争关系的公司。
[0038] 本发明还提供了一种确定相关对象的装置,所述装置包括:
[0039] 确定单元,用于依据对象的原始语料文档确定对象的对象类型和对象主题;
[0040] 聚合单元,用于按照对象类型聚合对象,得到一个以上的对象簇;
[0041] 相关对象获得单元,用于依据同一对象簇中对象之间的主题相似度,获得待分析 对象的相关对象。
[0042] 根据本发明一优选实施例,所述确定单元具体包括:
[0043] 原始语料文档获取单元,用于从外部数据源获取对象的原始语料文档;
[0044] 关键词集合提取单元,用于从所述对象的原始语料文档中提取类型关键词集合和 主题关键词集合;
[0045] 匹配单元,用于将类型关键词集合所匹配到的标准对象类型作为对象类型,以及 主题关键词集合所匹配到的标准对象主题作为对象主题。
[0046] 根据本发明一优选实施例,所述匹配单元具体执行以下操作:
[0047] 将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识 库和标准主题分类知识库进行匹配;
[0048] 确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类, 以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;
[0049] 依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
[0050] 根据本发明一优选实施例,所述聚合单元具体执行以下操作:
[0051 ]查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位 置;
[0052] 若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预 设的要求,则确定该各对象属于同一对象簇。
[0053] 根据本发明一优选实施例,所述相关对象获得单元执行如下操作以确定对象之间 的主题相似度:
[0054] 分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
[0055] 确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。
[0056] 根据本发明一优选实施例,周期性地或者受事件触发时,使所述装置执行确定相 关对象的操作。
[0057] 根据本发明一优选实施例,所述装置将各对象分别作为待分析对象,执行确定相 关对象的操作;并且由所述相关对象获得单元将各对象对应的相关对象存储在结果数据库 中。
[0058] 根据本发明一优选实施例,所述装置将用户输入的对象作为待分析对象,执行确 定相关对象的操作,并输出待分析对象的相关对象。
[0059] 根据本发明一优选实施例,所述装置还包括输入单元和输出单元:所述输入单元 用于获取用户输入的对象;所述输出单元用于将由所述相关对象获得单元通过查询所述结 果数据库确定的与所述输入的对象对应的相关对象输出。
[0060] 根据本发明一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业 描述、产品服务描述及关系;
[0061] 所述对象类型包括公司行业;
[0062] 所述对象主题包括公司提供的产品服务;
[0063] 所述相关对象包括存在竞争关系的公司。
[0064] 由以上技术方案可以看出,本发明通过对象类型之间的相通性以及对象主题之间 的相似性,自动实现了待分析对象的相关对象确定,降低了人力成本,且提高了分析准确 性。 【【附图说明】】
[0065] 图1为本发明实施例一提供的一种确定相关对象的方法的流程图;
[0066] 图2为本发明实施例一提供的一种以树形结构来维护的标准行业类型分类示意 图;
[0067] 图3为本发明实施例二提供的一种确定相关对象的装置的结构示意图。 【【具体实施方式】】
[0068] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。
[0069] 本发明的基本思想是依据对象的原始语料文档确定对象的对象类型和对象主题; 按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似 度,确定待分析对象的相关对象。通过上述方式,可以对涉及对象的原始语料文档进行分 析,基于对象类型之间的共通性以及对象主题之间的相似性来确定对象之间的相关程度, 从而深入全面的确定对象之间的关系。
[0070] 实施例一、
[0071] 图1为本发明实施例一提供的一种确定相关对象的方法的流程图,如图1所示,该 方法的流程如下:
[0072] 101、从外部数据源获取对象的原始语料文档。
[0073] 在该步骤中,可以从提供特定信息的互联网网页、企业网站、或者专用数据库等外 部数据源中获取与想要确定相互关系的对象相关的原始语料文档。其中所提供的特定信息 可以包括对确定对象的类型和主题有帮助的信息。
[0074]该原始语料文档可以通过从互联网抓取网页的方式,或者通过企业或特定数据库 直接提供等方式来获得。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1