商业社会网络构建方法及系统的制作方法

文档序号:6603125阅读:196来源:国知局
专利名称:商业社会网络构建方法及系统的制作方法
商业社会网络构建方法及系统
技术领域
本发明涉及一种文本挖掘方法和系统,特别是涉及一种商业社会网络构建方法及 系统。
背景技术
商业社会是一个有机整体,其最活跃实体_企业-并不是独立存在的,它不断地以 各种行动与其他企业发生各种各样的商业关系,使商业社会浑然一体,并因经济规律的调 节而井然有序。获知商业社会的上述状况对企业至关重要,是企业情报系统的核心。为保 持旺盛的生命力,企业无一例外地密切关注商业情报,不惜投入大量人力物力。固然,通过人工访查、情报搜集等渠道,能够逐步获知商业社会的状况,而人工操 作无法克服两个关键问题第一是全面性。互联网内容急剧膨胀,信息量浩大无边,有限人力无法确保信息采 集的全面性。随着互联网的快速发展,这一问题目益严峻,情报采集已经变成人力远远无法 完成的任务。第二是时效性。商业社会日新月异,商业发展一日千里。这些状况反映在网络内 容上,即快速的信息更新。人工操作已暴露出时效性差的问题,情报更新周期越来越长,无 法满足迅速发展的商业需要。财经新闻是商业社会的一个快照,以报道的形式透露出商业实体之间的商业关 系。随着信息披露公正性和时效性的不断提高,海量财经新闻能全面、准确地反映出商业社 会的基本状况。商业社会网络(CSN)系统即以反映上述基本状况而设计的文本挖掘系统。

发明内容有鉴于此,有必要针对上述问题,提供一种信息全面、实时智能的商业社会网络构 建方法。此外,提供一种信息全面、实时智能的商业社会网络构建系统。一种商业社会网络构建方法,包括如下步骤识别输入的财经新闻中的句子和词汇;识别句子中的商业实体;识别句子中商业实体间的商业关系;根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。优选的,所述识别输入的财经新闻中的句子和词汇的步骤具体为以标识语句终 结的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。优选的,所述识别句子中的商业实体具体包括识别句子中商业实体全名;识别句子中商业实体别名;识别和解决句子中的商业实体指代现象。
4
优选的,所述识别句子中商业实体全名的步骤具体为以字符完全匹配方法从句 子中搜索初始构建的商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写 或商业实体系统编号中一种或者两种以上。优选的,所述识别句子中商业实体别名的步骤具体为以近似匹配算法识别商业 实体别名,并以最长匹配策略对其嵌套的商业实体全名进行歧义消解。优选的,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;所述隐马尔 可夫模型采用概率技术测算商业实体别名与商业实体全名之间的对应概率,取对应概率最 大的商业实体全名;所述隐马尔可夫模型采用如下特征测算对应概率别名字符在商业实体全名字符中的位置;别名字符所在词汇的类型,优选的,所述识别和解决句子中的商业实体指代现象采取最短距离回溯方法。优选的,所述识别句子中商业实体间的商业关系采用如下方式识别句子中商业关系关键词识别商业关系;根据商业关系关键词结合其上下文识别商业关系。优选的,所述识别句子中商业关系关键词具体为以完全匹配方式从句子中识别 初始构建的商业关系关键词词典中包含的商业关系关键词。优选的,所述根据商业关系关键词结合其上下文识别商业关系具体为根据商业 关系关键词上下文中出现的否定词或起否定效果的句法成分结合商业关系关键词识别商 业关系。优选的,所述根据识别的商业实体以及商业实体间的商业关系构建商业社会网络 的步骤具体为采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会 网络。一种商业社会网络构建系统,包括财经新闻处理模块,用于识别输入的财经新闻中的句子和词汇;商业实体词典,用于存放商业实体的中文全名、英文全名、中文简称、英文缩写以 及ID中一种或者两种以上;商业实体识别模块,用于识别句子中的商业实体;商业关系关键词词典,用于存放表征商业关系的常用词汇及其表示的商业关系;商业关系识别模块,用于识别句子中商业实体间的商业关系;商业社会网络构建模块,根据识别的商业实体以及商业实体间的商业关系构建商 业社会网络。优选的,所述财经新闻处理模块识别财经新闻中的句子和词汇,以标识语句终结 的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。优选的,所述商业实体识别模块,识别句子中商业实体全名和句子中商业实体别 名,识别和解决句子中的商业实体指代现象;所述商业实体识别模块识别句子中商业实体全名,采用字符完全匹配方式从句子 中搜索所述商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实 体系统编号中一种或者两种以上;
所述商业实体识别模块识别商业实体别名,采用近似匹配算法,并以最长匹配策 略对商业实体别名嵌套的商业实体全名进行歧义消解。优选的,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;所述隐马尔可夫模型采用概率技术测算商业实体全名与别名之间的对应概率,取 对应概率最大的商业实体全名,并采用如下特征测算别名字符在商业实体全名字符中的位置;别名字符所在词汇的类型。优选的,所述商业关系识别模块识别句子中商业关系关键词识别商业关系;或者 根据商业关系关键词结合其上下文识别商业关系;所述商业关系模块识别句子中商业关系关键词,以完全匹配方式从句子中识别所 述商业关系关键词词典中包含的商业关系关键词;所述商业关系模块根据商业关系关键词上下文中出现的否定词或起否定效果的 句法成分结合商业关系关键词识别商业关系。优选的,所述商业关系网络构建模块采取图理论,以商业实体为图的节点,以商业 关系为图的边,构建商业社会网络。上述商业社会网络构建方法及系统,从大规模财经新闻中自动获取被提及的商业 实体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、 智能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析 和企业决策提供了重要依据,节省了大量时间和费用。

图1是一个实施例中商业社会网络构建方法流程图;图2是一个实施例中商业社会网络构建系统结构示意图。
具体实施方式下面结合附图和实施例,对本发明的具体实施方式
作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。图1是一个实施例中商业社会网络构建方法流程图。该商业社会网络构建方法包 括S11 识别输入的财经新闻(集)中的句子和词汇;财经新闻通常为以特定编码表示的自由文本。对中文来说,大都采取了 GB18030 编码标准。该实施例中,主要以GB18030标准为依据,但提供对其他中文编码的兼容性。为准确识别财经新闻中提及的商业实体和商业关系,需要首先识别财经新闻所对 应的自由文本中的句子和词汇,其通过判定自由文本的句子边界和词汇边界来实现。该实 施例中,判定句子边界和词汇边界具体为以标识语句终结的标点符号(句号、分号、问号、 感叹号等)来判定句子边界;采用双向最大匹配策略判定词汇边界。该实施例中,采取双向最大匹配策略判定词汇边界具体为设定词汇最大长度,从 句子两端开始,分别从左到右和从右到左地识别最长词汇,最后取两个结果的并集作为最 终分词结果。例如句子“三眼酒店预订已完成”,设定词汇最大长度为5,其正向分词结果为“三亚| |洒店预定| |已| |完成”,逆向分词结果为“三亚酒店| |预定| |已| |完成”,最后 取交集,双向分词结果为“三亚| |洒店| |预定| |已| |完成”。单向最大匹配容易导致如 下错误若上述例子中句子是有关“三亚酒店”的,由于逆向分词结果将“酒店”与“预订”合 起来成为一个词,就直接导致后续无法识别“三亚酒店”这个商业实体名称;同时,若该句子 是有关“酒店预定”业务,而与“三亚酒店”无关,由于从正向分词结果将“酒店”与“三亚” 合起来成为一个词,后续就再也无法识别“酒店预定”这一业务名称了。双向最大匹配策略 能将句子切分为个数最多的词汇,能便于后续商业实体和商业关系的识别。由于后续语言 文字处理都是基于词汇的,在双向分词结果“三亚| |洒店| |预定”的基础上,完全有机会 在大量文本的基础上通过统计计算,将“三亚酒店”或“酒店预订”识别出来。但,基于单向 分词结果都存在难以更正的错误。句子边界和词汇边界判定后,财经新闻表示成具有一定顺序的句子和词汇。S12 识别句子中的商业实体。构建商业社会网络,需要获知该商业社会中涉及到的商业实体,即要获知财经新 闻中所提及的商业实体,其通过识别财经新闻句子中出现的商业实体的名称来完成。该实 施例中,识别句子中商业实体具体包括(1)识别句子中商业实体全名。围绕特定商业实体进行报道的财经新闻,在首次提及该商业实体时均采取全名, 因此给识别全名提供了重要信息。该实施例中,以完全匹配方式从句子中搜索初始构建的 商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或ID (商业实体系统 编号)。若句子中存在全名则直接识别,若存在中文缩写、英文缩写或ID中的一种或者两 种,则识别并将其对应变为全名。其中,商业实体词典包含有商业实体全名、英文全名、中文简称、英文缩写以及编 号,由人工方式遵循如下规范编制而成ENTITY = {CNAME char (512) ;//《中文全名》ENAME char (512) ;//《英文全名》CSH0RT char (256) ;//《中文简称》ESH0RT char (256) ;//《英文缩写》ID :char(256) ;//《编号》}若商业实体是上市公司,则其系统编号采取“股市ID_股票代码”格式,否则系统 编号采取唯一编码格式。商业实体全名识别成功后,为后续商业实体别名识别提供重要依据。(2)识别句子中商业实体别名。商业实体别名主要是两类不正确的中文简称或不正确的英文缩写,例如“中国工 商银行”的中文简称是“工行”,而其英文缩写是ICBC。中文简称来自全名,而英文缩写来自 英文全名。虽然商业实体词典包含了一个中文简称和一个英文缩写,但只是最常用的。而 在实际财经新闻中,由于记者习惯的差异,可能采用不同的商业实体简称或缩写,导致一些 不正确的简称或缩写。例如,“中国移动股份有限公司”在财经新闻中有时以“中国移动”为
7简称,有时又以“中移动”为简称。因此需要对财经新闻中出现的商业实体别名进行识别。该实施例中,采用近似匹配算法识别商业实体别名,并以最长匹配策略对商业实 体别名嵌套实体全名进行歧义消解。近似匹配算法通过编辑距离来计算商业实体别名和商 业实体全名两字符串的相似度。编辑距离是经典字符串相似性度量方法,它计算从原串转 换到目标串所需要的最少的插入、删除和替换的编辑操作次数。编辑操作次数越少,两字符 串越相似。最长匹配策略是基于字符串长度的匹配策略。该实施例中,以句子中的连续字 符串匹配商业实体词典中的实体全名,最终取匹配到的全名最长的商业实体。近似匹配算法采用隐马尔可夫模型(HMM),以概率技术测算商业实体全名与别名 之间的对应概率对商业实体别名进行识别。HMM采用了如下特征对别名测算对应概率(fl)别名字符在商业实体全名字符中的位置;(f2)别名字符所在词汇的类型(地名、行业名、实体名称后缀)。识别中,首先采用命名实体识别工具将别名识别出来。但此时并不知道该名称是 哪一个商业实体的别名,故根据该别名初步确定多个候选商业实体全名。候选商业实体全 名应满足如下条件(cl)包含别名中的字符;(c2)汉字出现先后次序与别名中对应汉字的次序一致。HMM计算该别名与候选商业实体全名的映射概率,取概率最大者,将别名恢复为商 业实体全名。HMM是经典的概率分析模型,不再赘述其原理和公式。(3)识别和解决句子中的商业实体指代现象。商业实体识别过程中经常出现指代现象。例如句子“近年来,它一直与中国电信保 持密切合作关系。”中的“它”即是一种指代现象。从实际文本中,该句子的前一句是“华为 技术有限公司成立于1988年。”,于是获知“它”实际上代表了 “华为技术有限公司”。该实施例中,采取最短距离法解决指代现象,即取前文中出现的第一个商业实体 名称作为指代的对象。在识别商业实体的全名、别名以及指代现象后,即可获得商业实体名称,从而可以 识别财经新闻中涉及的商业实体S13 识别句子中商业实体间的商业关系。构建商业社会网络,在获知商业社会中涉及到的商业实体后,还需要获知各个商 业实体之间的商业关系。该实施例中,识别句子中商业实体间的商业关系包括如下方式(1)识别句子中商业关系(合作或竞争)关键词识别商业关系。商业关系关键词是表征商业关系的标准汉语词汇(该实施例涉及合作或竞争两 类商业关系)。识别句子中商业关系关键词,以完全匹配方式从句子中识别商业关系关键词 词典中包含的商业关系关键词。商业关系关键词词典包含表征两类商业关系(合作或竞争)的词汇及其所表征的 商业关系,由人工方式遵循如下规范编制而成RKEYW0RD = {CW0RD char (256) ;//《关键词》CRELATION :enum{C00,COM} ;//COO =合作;COM =竞争}
(2)根据商业关系关键词结合其上下文识别商业关系。商业关系关键词的出现表征了商业关系的发生,但仅靠关键词还不能准确识别财 经新闻所要描述的确切商业关系。例如,某表征“合作”的关键词被否定词修饰,导致相反 的商业关系(即“竞争”)。因此,需要结合商业关系关键词上下文中可能出现的否定词或 起否定效果的句法成分才能正确识别商业关系。该实施例中,采用关键词上下文分析技术识别商业关系。上下文分析技术采用共 现分析技术识别两商业实体均出现情况下的商业关系,采取共现分析原理,将含有两个商 业实体的语句上下文及商业关系关键词都提取出来进行统计分析和归纳。具体如下限定两个商业实体之间的商业关系关键词上下文为语句,在两个层面进行上下文 商业关系识别;(1)词汇层面采用依存分析工具将语句中词汇间的语法关系分析出来。若商业关系关键词被否 定词修饰,则其表征的商业关系发生逆转。依存分析为浅层句法分析手段,其识别出句子中不同词汇之间的句法依存关系。 例如句子“微软公司不会与太阳公司竞争”的依存分析结果是
root 微软公司 不会 与 太阳公司 竞争其中,root代表句子,HED代表核心动词关系,SBV代表主谓关系,ADV代表状中关 系,P0B表示介宾关系。由于否定词“不会”修饰了关系关键词“竞争”,起到了置反的作用。 因此必须依据依存关系对商业关系进行调整。本实施例中,在找到关系关键词后,沿着依存关系图,查看是否有否定词修辞该词 汇。如果有,则商业关系置反。(2)句法层面在句法层面上,起否定作用的句法成分主要有两种一是反问句,通常以句中反问 词和句末问号表征。若发现商业关系关键词所在语句为反问句,则将词法层面的商业关系 置反。二是转折复句,以转折或让步连词表征。若发现商业关系关键词所在语句为转折复 句的附句,则将词法层面的商业关系置反。S15:根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。该实施例中,采取图理论定义商业社会网络为有权无向图G = <N, E, ff>其中N代表商业实体,E表示商业关系,W表示商业关系的权重。以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
该实施例中,N是商业实体全集,均定义在商业实体词典中;E是商业关系全集,取 值为“合作”和“竞争”两类之一 ;W表示商业关系的频繁程度,以出现次数累积。此外,提供一种商业社会网络构建系统。图2是一个实施例中的商业社会网络构建系统结构示意图。该商业社会网络构建 系统包括财经新闻处理模块110,商业实体识别模块120,商业关系识别模块130,商业社 会网络构建模块140,财经新闻集150,商业实体词典160,商业关系关键词词典170,商业社 会网络180。财经新闻集150,用于存储用户输入的财经新闻。财经新闻处理模块110,用于识别输入的财经新闻中的句子和词汇。财经新闻通常为以特定编码表示的自由文本。对中文来说,大都采取了 GB18030 编码标准。该实施例中,财经新闻处理模块110对财经新闻进行处理主要以GB18030标准 为依据,但提供对其他中文编码的兼容性。为准确识别财经新闻中提及的商业实体和商业关系,需要首先识别财经新闻所对 应的自由文本中的句子和词汇,财经新闻处理模块110通过判定自由文本的句子边界和词 汇边界来实现。该实施例中,财经新闻处理模块110以标识语句终结的标点符号(句号、分 号、问号、感叹号等)来判定句子边界;采用双向最大匹配策略判定词汇边界。该实施例中,财经新闻处理模块110采取双向最大匹配策略判定词汇边界具体 为设定词汇最大长度,从句子两端开始,分别从左到右和从右到左地识别最长词汇,最后 取两个结果的并集作为最终分词结果。例如句子“三眼酒店预订已完成”,设定词汇最大长 度为5,其正向分词结果为“三亚| |洒店预定| |已| |完成”,逆向分词结果为“三亚酒店| 预定I |已I |完成”,最后取交集,双向分词结果为“三亚| |洒店| |预定| |已| |完成”。单 向最大匹配容易导致如下错误若上述例子中句子是有关“三亚酒店”的,由于逆向分词结 果将“酒店”与“预订”合起来成为一个词,就直接导致后续无法识别“三亚酒店”这个商业 实体名称;同时,若该句子是有关“酒店预定”业务,而与“三亚酒店”无关,由于从正向分词 结果将“酒店”与“三亚”合起来成为一个词,后续就再也无法识别“酒店预定”这一业务名 称了。财经新闻处理模块110采用双向最大匹配策略能将句子切分为个数最多的词汇,能 便于后续商业实体和商业关系的识别。由于后续语言文字处理都是基于词汇的,在双向分 词结果“三亚| |洒店| |预定”的基础上,完全有机会在大量文本的基础上通过统计计算, 将“三亚酒店”或“酒店预订”识别出来。但,基于单向分词结果都存在难以更正的错误。句子边界和词汇边界判定后,财经新闻表示成具有一定顺序的句子和词汇。商业实体识别模块120,用于识别财经新闻句子中提及的商业实体。构建商业社会网络,需要获知该商业社会中涉及到的商业实体,即要获知财经新 闻中所提及的商业实体。商业实体识别模块120通过识别财经新闻句子中出现的商业实体 的名称来完成。该实施例中,商业实体识别模块120识别句子中商业实体具体为(1)识别句子中商业实体全名。围绕特定商业实体进行报道的财经新闻,在首次提及该商业实体时均采取全名, 因此给全名提供了重要信息。该实施例中,商业实体识别模块120以完全匹配方式从句子 中搜索初始构建的商业实体词典160中包含的商业实体全名、英文全名、中文缩写、英文缩 写或ID。若句子中存在全名,商业实体识别模块120直接识别,若存在英文全名、中文缩写、
10英文缩写或ID中的一种或者两种,商业实体识别模块120对其识别并将其对应变为全名。其中,商业实体词典160包含有商业实体全名、英文全名、中文简称、英文缩写以 及编号,由人工方式遵循如下规范编制而成ENTITY = {CNAME char (512) ;//《中文全名》ENAME char (512) ;//《英文全名》CSH0RT char (256) ;//《中文简称》ESH0RT char (256) ;//《英文缩写》ID :char(256) ;//《编号》}若商业实体是上市公司,则其编号采取“股市ID_股票代码”格式,否则采取系统 唯一编码格式。商业实体全名识别成功后,为后续商业实体别名识别提供重要依据。(2)识别句子中商业实体别名。商业实体别名主要是两类不正确的中文简称或不正确的英文缩写,例如“中国工 商银行”的中文简称是“工行”,而其英文缩写是ICBC。中文简称来自全名,而英文缩写来自 英文全名。虽然商业实体词典160包含了一个中文简称和一个英文缩写,但只是最常用的。 而在实际财经新闻中,由于记者习惯的差异,可能采用不同的商业实体简称或缩写,导致一 些不正确的简称或缩写。例如,“中国移动股份有限公司”在财经新闻中有时以“中国移动” 为简称,有时又以“中移动”为简称。因此商业实体识别模块120需要对财经新闻中出现的 商业实体别名进行识别。该实施例中,商业实体识别模块120采用近似匹配算法识别商业实体别名,并以 最长匹配策略对商业实体别名嵌套实体全名进行歧义消解。近似匹配算法通过编辑距离来 计算商业实体别名和商业实体全名两字符串的相似度。编辑距离是经典字符串相似性度量 方法,其计算从原串转换到目标串所需要的最少的插入、删除和替换的编辑操作次数,编辑 操作次数越少,两字符串越相似。最长匹配策略是基于字符串长度的匹配策略。该实施例 中,以句子中的连续字符串匹配商业实体词典中的实体全名,最终取匹配到的全名最长的 商业实体。近似匹配算法采用隐马尔可夫模型(HMM),以概率技术测算全名与简称之间的对 应概率对商业实体别名进行识别。其中,HMM采用了如下特征对别名测算对应概率(fl)别名字符在商业实体全名字符中的位置;(f2)别名字符所在词汇的类型(地名、行业名、实体名称后缀)。识别中,商业实体识别模块120首先采用命名实体识别工具将别名识别出来。但 此时并不知道该名称是哪一个商业实体的别名,故商业实体识别模块120根据该别名初步 确定多个候选商业实体全名。候选商业实体全名应满足如下条件(cl)包含别名中的字符;(c2)汉字出现先后次序与别名中对应汉字的次序一致。HMM计算该商业实体别名与候选商业实体全名的映射概率,取概率最大者,将该别 名恢复为商业实体全名。HMM是经典的概率分析模型,不再赘述其原理和公式。
11
(3)识别和解决句子中的商业实体指代现象。商业实体识别过程中经常出现指代现象。例如句子“近年来,它一直与中国电信保 持密切合作关系。”中的“它”即是一种指代现象。从实际文本中,该句子的前一句是“华为 技术有限公司成立于1988年。”,于是获知“它”实际上代表了 “华为技术有限公司”。该实施例中,商业实体识别模块120采取最短距离法解决指代现象,即取前文中 出现的第一个商业实体名称作为指代的对象。商业实体识别模块120在识别商业实体的全名、别名以及指代现象后,即可获得 商业实体名称,从而可以识别财经新闻中涉及的商业实体商业关系识别模块130,用于识别财经新闻中提及的商业实体间的商业关系构建商业社会网络,在获知商业社会中涉及到的商业实体后,还需要获知各个商 业实体之间的商业关系。该实施例中,商业关系识别模块130识别句子中商业实体间的商 业关系具体包括(1)识别句子中商业关系(合作或竞争)关键词识别商业关系。商业关系关键词是表征商业关系的标准汉语词汇(该实施例涉及合作或竞争两 类商业关系)。商业关系识别模块130识别句子中商业关系关键词,以完全匹配方式从句子 中识别商业关系关键词词典170中包含的商业关系关键词。商业关系关键词词典170包含表征两类商业关系(合作或竞争)的词汇及其所表 征的商业关系,由人工方式遵循如下规范编制而成RKEYW0RD = {CW0RD char (256) ;//《关键词》CRELATION :enum{C00,COM} ;//COO =合作;COM =竞争}(2)根据商业关系关键词结合其上下文识别商业关系。商业关系关键词的出现表征了商业关系的发生,但仅靠关键词还不能准确识别财 经新闻所要描述的确切商业关系。例如,某表征“合作”的关键词被否定词修饰,导致相反 的商业关系(即“竞争”)。因此,需要结合商业关系关键词上下文中可能出现的否定词或 起否定效果的句法成分才能正确识别商业关系。该实施例中,商业关系识别模块130采用 关键词上下文分析技术识别商业关系。上下文分析技术采用共现分析技术识别两商业实体 均出现情况下的商业关系(根据两者之间的商业关系关键词识别),采取共现分析原理,将 含有两个商业实体的语句上下文及商业关系关键词都提取出来进行统计分析和归纳。商业关系识别模块130限定商业关系关键词上下文为语句,在两个层面进行商业 关系识别(1)词汇层面商业关系识别模块130采用依存分析工具将语句中词汇间的语法关系分析出来。 若商业关系关键词被否定词修饰,则其表征的商业关系发生逆转。依存分析为浅层句法分析手段,其识别出句子中不同词汇之间的句法依存关系。 例如句子“微软公司不会与太阳公司竞争”的依存分析结果是
12
root 微软公司 不会 与 太阳公司 竞争其中,root代表句子,HED代表核心动词关系,SBV代表主谓关系,ADV代表状中关 系,P0B表示介宾关系。由于否定词“不会”修饰了关系关键词“竞争”,起到了置反的作用。 因此必须依据依存关系对商业关系进行调整。本实施例中,在找到关系关键词后,沿着依存关系图,查看是否有否定词修辞该词 汇。如果有,则商业关系置反。(2)句法层面在句法层面上,起否定作用的句法成分主要有两种一是反问句,通常以句中反问 词和句末问号表征。商业关系识别模块130若发现商业关系关键词所在语句为反问句,则 将词法层面的商业关系置反。二是转折复句,以转折或让步连词表征。商业关系识别模块 130若发现商业关系关键词所在语句为转折复句的附句,则将词法层面的商业关系置反。商业社会网络构建模块140,用于根据识别的商业实体和商业实体之间的商业关 系构建商业社会网络。该实施例中,商业社会网络构建模块140采取图理论定义商业社会网络为有权无 向图G = <N, E, ff>其中N代表商业实体,E表示商业关系,W表示商业关系的权重。以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。该实施例中,N是商业实体全集,均定义在商业实体词典中;E是商业关系全集,取 值为“合作”和“竞争”两类之一 ;W表示商业关系的频繁程度,以出现次数累积。商业社会网络构建模块140将构建好的商业社会网络输出进行展示。该商业社会网络构建方法及系统,不限定输入财经新闻的数量,输入财经新闻越 多,分析越准确。同时,由于商业关系变幻莫测,瞬息万变。如果财经新闻跨越时间范围较 宽,很可能会在商业关系上自相矛盾,前后不一。因此设定输入财经新闻集中在某个时间区 间范围内。当限定了时间范围后,仍然发生前后不一的现象时,则以最新的商业关系为准。上述商业社会网络构建方法及系统,从大量财经新闻中自动获取被提及的商业实 体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、智 能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析和 企业决策提供了重要依据,节省了大量时间和费用。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
一种商业社会网络构建方法,包括如下步骤识别输入的财经新闻中的句子和词汇;识别句子中的商业实体;识别句子中商业实体间的商业关系;根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
2.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别输入的财经 新闻中的句子和词汇的步骤具体为以标识语句终结的标点符号判定句子边界;采用双向 最大匹配策略判断词汇边界。
3.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别句子中的商 业实体具体包括识别句子中商业实体全名; 识别句子中商业实体别名; 识别和解决句子中的商业实体指代现象。
4.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别句子中商业 实体全名的步骤具体为以字符完全匹配方法从句子中搜索初始构建的商业实体词典中包 含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系统编号中一种或者两种以 上。
5.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别句子中商业 实体别名的步骤具体为以近似匹配算法识别商业实体别名,并以最长匹配策略对其嵌套 的商业实体全名进行歧义消解。
6.根据权利要求5所述的商业社会网络构建方法,其特征在于,所述近似匹配算法采 用隐马尔可夫模型识别商业实体别名;所述隐马尔可夫模型采用概率技术测算商业实体别 名与商业实体全名之间的对应概率,取对应概率最大的商业实体全名;所述隐马尔可夫模型采用如下特征测算对应概率 别名字符在商业实体全名字符中的位置; 别名字符所在词汇的类型。
7.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别和解决句子 中的商业实体指代现象采取最短距离回溯方法。
8.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别句子中商业 实体间的商业关系采用如下方式识别句子中商业关系关键词识别商业关系; 根据商业关系关键词结合其上下文识别商业关系。
9.根据权利要求8所述的商业社会网络构建方法,其特征在于,所述识别句子中商业 关系关键词具体为以完全匹配方式从句子中识别初始构建的商业关系关键词词典中包含 的商业关系关键词。
10.根据权利要求8或9所述的商业社会网络构建方法,其特征在于,所述根据商业关 系关键词结合其上下文识别商业关系具体为根据商业关系关键词上下文中出现的否定词 或起否定效果的句法成分结合商业关系关键词识别商业关系。
11.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述根据识别的商业实体以及商业实体间的商业关系构建商业社会网络的步骤具体为采取图理论,以商业实 体为图的节点,以商业关系为图的边,构建商业社会网络。
12.—种商业社会网络构建系统,其特征在于,包括财经新闻处理模块,用于识别输入的财经新闻中的句子和词汇; 商业实体词典,用于存放商业实体的中文全名、英文全名、中文简称、英文缩写以及ID 中一种或者两种以上;商业实体识别模块,用于识别句子中的商业实体;商业关系关键词词典,用于存放表征商业关系的常用词汇及其表示的商业关系; 商业关系识别模块,用于识别句子中商业实体间的商业关系; 商业社会网络构建模块,根据识别的商业实体以及商业实体间的商业关系构建商业社 会网络。
13.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述财经新闻处理 模块识别财经新闻中的句子和词汇,以标识语句终结的标点符号判定句子边界;采用双向 最大匹配策略判断词汇边界。
14.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业实体识别 模块,识别句子中商业实体全名和句子中商业实体别名,识别和解决句子中的商业实体指 代现象;所述商业实体识别模块识别句子中商业实体全名,采用字符完全匹配方式从句子中搜 索所述商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系 统编号中一种或者两种以上;所述商业实体识别模块识别商业实体别名,采用近似匹配算法,并以最长匹配策略对 商业实体别名嵌套的商业实体全名进行歧义消解。
15.根据权利要求14所述的商业社会网络构建系统,其特征在于,所述近似匹配算法 采用隐马尔可夫模型识别商业实体别名;所述隐马尔可夫模型采用概率技术测算商业实体全名与别名之间的对应概率,取对应 概率最大的商业实体全名,并采用如下特征测算 别名字符在商业实体全名字符中的位置; 别名字符所在词汇的类型。
16.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业关系识别 模块识别句子中商业关系关键词识别商业关系;或者根据商业关系关键词结合其上下文识 别商业关系;所述商业关系模块识别句子中商业关系关键词,以完全匹配方式从句子中识别所述商 业关系关键词词典中包含的商业关系关键词;所述商业关系模块根据商业关系关键词上下文中出现的否定词或起否定效果的句法 成分结合商业关系关键词识别商业关系。
17.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业关系网络 构建模块采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
全文摘要
一种商业社会网络构建方法和系统,该方法包括识别输入的财经新闻中的商业实体;识别句子中商业实体间的商业关系;根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。本发明从大规模财经新闻中自动获取被提及的商业实体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、智能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析和企业决策提供了重要依据,节省了大量时间和费用。
文档编号G06Q30/00GK101853292SQ20101018404
公开日2010年10月6日 申请日期2010年5月18日 优先权日2010年5月18日
发明者刘轶, 夏云庆, 程刚 申请人:深圳市北科瑞讯信息技术有限公司;深港产学研基地产业发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1