专利交易大数据采集和处理方法与流程

文档序号:18009883发布日期:2019-06-25 23:52阅读:447来源:国知局
专利交易大数据采集和处理方法与流程

本发明属于大数据领域,具体为一种专利交易大数据采集和处理方法。



背景技术:

美国有一项关于技术转移的研究,发现通过技术转移,企业的平均收益为55%,而通过技术创新,企业的平均收益仅为22%。因此,我们认为,技术转移是科学技术成果转变成现实生产力并实现其经济价值的根本途径。

知识产权交易,是指知识产权出让主体与知识产权受让主体,根据与知识产权转让有关的法律法规和双方签定的转让合同,将知识产权权利享有者由出让方转移给受让方的法律行为。知识产权市场交易实践中,知识产权转让行为也越来越活跃,从而使知识产权利用率大大提高,也给知识产权权利人带来了转让收益。就企业知识产权管理来说,通过知识产权转让,可以为企业创造利润,从而增强企业经营效益。知识产权转让的价值,可以从知识产权交易与知识产权管理两个层面进行分析。认识知识产权转让的价值与意义,不仅可以为知识产权权利人尤其是企业的知识产权交易提供知识产权转让的新理念,而且也为知识产权管理者重视与促进知识产权转让管理提供新思路。知识产权交易有利于拓宽科技型中小企业融资渠道,有利于科学引导民间资本开拓新的投资领域。知识产权转让不仅可以使知识产权得到充分的利用,不仅可以给出让人与受让人带来收益,而且还可以促进与知识产权业务有关的行业有序、快速发展。通过专利等知识产权交易对于促进科技成果的转化,促进经济的增长意义重大。

目前的知识产权交易信息的采集包括两种。政府及其相关机构获得知识产权交易信息的方式主要是在其管辖范围内范围收集本地科研院所、高校、企事业单位的科知识产权交易信息,构建科技成果库,或者是和其他部门进行科技成果信息整合。而民间机构的知识产权交易信息的采集,主要通过依托政府或者通过网络吸引知识产权的持有方录入。以上两种方法都费时费力,所以实施研发高效的基于大数据的知识产权交易数据系统很有必要性。



技术实现要素:

本发明的目的是提供一种采用大数据的手段采集专利交易信息的专利交易大数据采集和处理方法,通过该方法可以省时省力的完成专利交易信息包括发布时间、发布人、联系方式以及购买和需求信息的采集,从而形成可靠地专利交易信息库,为专利交易平台的建设提供大数据支持。

专利交易大数据采集和处理方法,包括以下步骤:

s1、将即时聊天工具中的群聊信息采集生成原始数据;可是qq群、微信群、或者其他专业的交流群的群聊信息,采集每条群聊信息中的发布人账号、发布时间、发布内容;

s2、对原始数据进行识别提取生成有效数据;

识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;

s3、对有效数据进行标准化提取形成标准数据;

标准化提取包括卖方数据标准化提取和买方数据标准化提取;

s4、对标准数据进行合并归类处理形成最终数据。

卖方数据标准化提取,包括以下步骤:

s311、对于卖方数据中的每一条群聊信息,首先提取每一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;

s312、根据匹配算法匹配每一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;卖方数据中一条群聊信息最终形成一条或者多条卖方标准数据,卖方标准数据包含专利号、专利名称、发布人账号、发布时间;

匹配算法为:识别每一条群聊信息中第一个专利号前的连续汉字数量sq,以及最后一个专利号后的连续汉字数量sh;如果sh小于5,且sq大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。

买方数据标准化提取,包括以下步骤:

s321、设置一级关键词和二级关键词;其中一级关键词可以为买方数据关键词;

s322、买方数据中的每一条群聊信息中含有m个一级关键词并含有n个二级关键词;

如果m=1,n>1,则根据二级关键词形成n个买方信息;否则根据一级关键词形成m个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据。买方标准数据包含发布人账号、发布时间、买方信息。买方数据中一条群聊信息最终形成一条或者多条买方标准数据。

合并归类处理包括以下步骤:

s401、卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;

s402、卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条;

s403、在一定时间段内,不同发布人账号对应多个相同的专利号或者买方信息,则将不同发布人账号标记为一类。

作为优化,在买方数据每一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词。

作为优化,二级关键词包括前置关键词和后置关键词;首先前置关键词确定为二级关键词,如果不含有前置关键则后置关键词确定为二级关键词。

作为优化,根据一级关键词形成相应的m个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成m个买方信息。

作为优化,根据二级关键词形成n个买方信息为:

含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成n个买方信息;

不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成n个买方信息。

作为优化,提取含有预先设定关键词的群聊信息为:

s201、有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;

s202、有效数据中的一条群聊信息,只含有买方数据关键词则提取为买方数据;

s203、有效数据中的一条群聊信息,既含有买方数据关键词又含有卖方数据关键词;

那么,如果买方数据关键词之后没有卖方数据关键词则截取买方数据关键词之后的数据,为买方数据;如果买方数据关键词之后有卖方数据关键词则截取买方数据关键词和第一个卖方数据关键词之间的数据,为买方数据;

剩余数据为卖方数据。

本发明专利交易大数据采集和处理方法,包括识别提取、标准化提取、合并归类处理三个环节,在卖方数据标准化提取过程中采用匹配算法,保证了专利号对应的专利名称的准确性;通过设置一级关键词和二级关键词,以及二级关键词中设置前置关键词和后置关键词,实现了对买方数据标准化提取的精确性;合并归类处理去除了相同多余数据,对同一类进行了标记,减少了数据冗余,提高了精确性。通过以上大数据采集的采用巧妙的构架和算法,提高了数据识别的精确性,减少了无效多余数据,识别有效率高达99%以上,最终形成可靠地具有商业价值的标准化的专利交易大数据信息库。

附图说明

下面结合附图和具体实施方式来详细说明本发明;

图1为本发明专利交易大数据采集和处理方法流程图;

图2为实施例1系统效果图。

具体实施方式

下面给出的实施例拟对本发明作进一步说明,但不能理解为是对本发明保护范围的限制,本领域技术人员根据本发明内容对本发明的一些非本质的改进和调整,仍属于本发明的保护范围。

实施例1:专利交易大数据采集和处理方法,包括以下步骤:

(1)将加入专业的qq群,将群聊信息采集作为原始数据,生成txt文档;每一条群聊信息包括发布人账号、发布时间、发布内容。

(2)读取txt文档,对原始数据进行识别提取生成有效数据;

识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;预先设定关键词中包括卖方数据关键词、买方数据关键词;卖方数据关键词可以为含有13个连续数字;买方数据关键词可以是“求购”、“购买”等字样;

1)有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;

2)有效数据中的一条群聊信息,只含有买方数据关键词则提取为买方数据;

3)有效数据中的一条群聊信息,既含有买方数据关键词又含有卖方数据关键词;

那么,如果买方数据关键词之后没有卖方数据关键词则截取买方数据关键词之后的数据,为买方数据;如果买方数据关键词之后有卖方数据关键词则截取买方数据关键词和第一个卖方数据关键词之间的数据,为买方数据;

剩余数据为卖方数据;

4)不含有任何关键词的为抛弃的无效数据。

(3)对有效数据进行标准化提取形成标准数据;

标准化提取包括卖方数据标准化提取和买方数据标准化提取;

卖方数据标准化提取,包括以下步骤:

a对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;

b根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;卖方标准数据含有发布人账号、发布时间、专利名称、专利号;

匹配算法为:识别一条群聊信息中第一个专利号前的连续汉字数量sq,以及最后一个专利号后的连续汉字数量sh;如果sh小于5,且sq大于6,(取值不限于5/6,也可以根据统计情况进行相应修改)则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。

连续汉字数量是指不含空格,计数汉字数量直到信息结束或者出现第一个非汉字符号。例如:“2018114784667一种汽车座椅位置的方法和装置2018”连续汉字数量sh为14。

买方数据标准化提取,包括以下步骤:

a设置一级关键词和二级关键词;将前面提到的买方数据关键词定义为一级关键词;

二级关键词包括前置关键词和后置关键词;前置关键词为各种连续标号,例如1、…2、…3、…;后置关键词为,发明、实用、外观;

b买方数据中的一条群聊信息中必然含有m个一级关键词并含有n个二级关键词;m大于等于1,n大于等于0;

首先前置关键词确定为二级关键词计算n的值,如果一条群聊信息中不含有前置关键词,则再将后置关键词确定为二级关键词计算n的值,如果一条群聊信息中也不含后置关键词,则n=0;

如果m=1,n>1,则根据二级关键词形成n个买方信息;否则根据一级关键词形成m个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据。

根据一级关键词形成相应的m个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成m个买方信息。

根据二级关键词形成n个买方信息为:含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成n个买方信息;

不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成n个买方信息。

此外,在一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词,通过该步骤可以减少无效数据。

(4)对标准数据进行合并归类处理形成最终数据;

合并归类处理包括以下步骤:

卖方标准数据中存在发布人账号和专利号相同的数据,则只保留发布时间最晚的一条;

卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留发布时间最晚的一条。

如果在一定时间段内,比如一周内,不同发布人账号发布10个以上相同的专利号或者买方信息,则将不同发布人账号标记为一类。

最终将处理后的数据存入数据库。

实施例2:专利交易大数据采集和处理方法,包括以下步骤:

(1)将即时聊天工具中的群聊信息采集生成原始数据;即时聊天工具为微信;加入专业化的群,采集群聊信息作为原始数据;每一条群聊信息包括发布人账号、发布时间、发布内容。

(2)对原始数据进行识别提取生成有效数据;

识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;预先设定关键词中包括卖方数据关键词、买方数据关键词;卖方数据关键词可以为含有13个连续数字或者12个连续数字加点和一个数字;买方数据关键词可以是“求购、购买、急求”;

1)有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;

2)有效数据中的一条群聊信息,只含有买方数据关键词则提取为买方数据;

3)有效数据中的一条群聊信息,既含有买方数据关键词又含有卖方数据关键词;

买方数据关键词之后没有卖方数据关键词则截取买方数据关键词之后的数据,为买方数据;

买方数据关键词之后有卖方数据关键词则截取买方数据关键词和第一个卖方数据关键词之间的数据,为买方数据;

剩余数据为卖方数据;

4)不含有任何关键词的为抛弃的无效数据。

(3)对有效数据进行标准化提取形成标准数据;

标准化提取包括卖方数据标准化提取和买方数据标准化提取;

卖方数据标准化提取,包括以下步骤:

a对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;

b根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;卖方标准数据含有发布人账号、发布时间、专利名称、专利号;

匹配算法为:识别一条群聊信息中第一个专利号前的连续汉字数量sq,以及最后一个专利号后的连续汉字数量sh;如果sh小于5,且sq大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称;

连续汉字数量是指不含空格,计数汉字数量直到信息结束或者出现第一个非汉字符号。例如:“201810998134网络舆情监控方法2018”连续汉字数量sh为8。

买方数据标准化提取,包括以下步骤:

a设置一级关键词和二级关键词;将前面提到的买方数据关键词定义为一级关键词;

b买方数据中的一条群聊信息中含有m个一级关键词并含有n个二级关键词;

如果m=1,n>1,则根据二级关键词形成n个买方信息;否则根据一级关键词形成m个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据。

此外,在一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词,通过该步骤可以减少无效数据。

此外,二级关键词包括前置关键词和后置关键词;前置关键词为各种连续标号,例如1、…2、…3、…;后置关键词为,发明、实用、外观;

首先前置关键词确定为二级关键词,如果不含有前置关键则后置关键词确定为二级关键词。

根据一级关键词形成相应的m个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成m个买方信息。

根据二级关键词形成n个买方信息为:含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成n个买方信息;

不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成n个买方信息。

(4)对标准数据进行合并归类处理形成最终数据;

合并归类处理包括以下步骤:

1)如果卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;

2)如果卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条。

如果在一定时间段内,比如1个月内,不同发布人账号对应5-10个以上相同的专利号或者买方信息,而且该不同发布人账号发布的信息80%以上相同,则将不同发布人账号标记为一类。

以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1