专利信息自动采集方法

文档序号:9349938阅读:747来源:国知局
专利信息自动采集方法
【技术领域】
[0001] 本发明涉及彳目息自动米集,特别是涉及一种专利彳目息自动米集方法。
【背景技术】
[0002] 目前在我国专利信息搜索引擎与工具中,常见的有国家知识产权局专利检索、 Cnpat、S〇〇pat、谷歌专利搜索、百度专利搜索等。但是在这几个网站中,有的需要付费服务、 有的专利数据库更新缓慢。另外在功能和操作上并不能满足用户企业的需求,不能够对查 询出的专利进行批量的管理和分析。
[0003] 专利的检索与专利的数据分析为何在众多科研人员和企业中受到重视?在研发 新产品之前,进行充分的市场调研,查阅有关的科技期刊、杂志等科技资料,这是新产品研 发人员通常要做的事情。但是,为此进行专门的专利检索,却往往会被忽略掉。事实上,检索 专利文献对于科学地确立新产品科研课题至关重要。首先,通过专利检索,可以判断科研立 项的必要性。世界上90 %~95 %的最新技术都记载在专利文献中,进行较为全面的专利检 索,即可确定自己的新产品研发课题是否有必要立项,如若已有相同的新技术申请了专利, 那么再予立项,必然导致研发雷同,浪费人力和财力,并且自己辛辛苦苦研制出的新产品, 还有侵犯他人专利权的风险,必然会受制于人,实在是得不偿失。其次,通过专利检索,研发 人员可以使自己在相关专利技术的基础上,确立新产品研制的起点,避免重复投入和重复 研制,同时可以避免侵权情况的发生。再者,通过专利检索,可以了解竞争对手产品研发的 主导方向,做到知己知彼,从而据此作出正确的决策,确保自己企业在市场竞争中赢得主 动权。
[0004] 因此,现有技术存在缺陷,需要改进。

【发明内容】

[0005] 本发明所要解决的技术问题是,提供一种专利信息自动采集方法。
[0006] 本发明的技术方案如下:一种专利信息自动采集方法,其包括以下步骤:确定采 集对象;设置检索关键词;进行检索并生成表单数据;提供专利链接。
[0007] 例如,所述检索关键词至少包括专利名、摘要、专利类型、专利号、申请号、公开号、 法律状态、申请日、公开日、申请人、专利权人、申请人地址、发明设计人、专利代理机构、代 理人、主分类号其中之一。
[0008] 又如,根据专利链接获取相关专利。
[0009] 优选的,进行检索之前,还根据检索关键词生成检索表达式。
[0010] 优选的,根据检索关键词自动生成检索表达式。
[0011] 优选的,根据预设规则自动根据检索关键词生成检索表达式。
[0012] 优选的,根据检索关键词自动生成检索表达式之后,进行前置检索。
[0013] 优选的,所述前置检索中,判断前置检索得到的检索结果数量是否大于预设阈值, 是则进行拆分。
[0014] 例如,拆分之后进行检索并生成表单数据。
[0015] 优选的,根据专利分类号进行拆分。
[0016] 优选的,在Linux服务器上运行爬虫程序进行检索。
[0017] 优选的,进行检索时,对返回的网站信息进行全局正则表达式匹配。
[0018] 优选的,进行检索之后,把采集到的专利信息生成表单数据,存储在服务器的数据 库中。
[0019] 采用上述方案,本发明通过在本地生成表单数据并提供专利链接,实现了本地化 的专利信息采集管理,还能够在检索时基于主题定制,减少企业、单位人力与设备等投入 的费用,节省物力、时间和金钱上的开销。
【附图说明】
[0020] 图1是本发明一个实施例的示意图。
【具体实施方式】
[0021] 为更好的说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对 本发明作进一步说明。
[0022] 例如,如图1所示,本实施例提供了一种专利信息自动采集方法,其包括以下步 骤:确定采集对象;设置检索关键词;进行检索并生成表单数据;提供专利链接。需要说明 的是,本发明及其各实施例的目的是解决发明提出的问题,实现专利信息自动采集,与专利 信息服务器或者网站等目标采集对象进行信息交互,生成可供本地检索的表单数据,提供 与远端的目标对象的专利数据匹配的专利链接,其属于全部或部分以计算机程序处理流程 为基础,通过计算机执行按上述流程编制的计算机程序,对作为计算机外部对象的目标采 集对象进行信息检索与收集,对作为计算机内部对象的检索关键词、表单数据以及专利连 接进行数据处理,实现了专利信息自动采集的解决方案。对外部数据进行处理与交换,对计 算机系统内部资源进行了分配与归集管理,实现了外部数据传输及内部生成表单数据,不 仅仅涉及一种算法或者数学计算规则或者程序本身或者游戏的规则和方法,因此该本发明 及其各权利要求实质上不仅仅涉及智力活动的规则和方法,属于专利保护的客体。
[0023] 下面继续举例说明本发明。例如,一种专利信息自动采集方法,其包括以下步骤。
[0024] 确定采集对象;例如,根据目标检索网站,确定采集对象;下面各实施例主要以 soopat网站为采集对象,可以理解的是,本发明同样适用于其他类似的专利检索网站,包 括sipo、uspto、5ipatent、patentcloud等。又如,提供选择项,由用户自行选定采集对象。 优选的,还包括步骤:确定采集对象中的子目录项,例如,其后根据所述子目录项设置检索 关键词。这样,可以对一个复杂的目标对象,选取其中一个小范围,例如sipo网站的某一系 列专利的子集,或者soopat网站的专利类型的子集等。
[0025] 设置检索关键词(keyword);例如,所述检索关键词至少包括专利名、摘要、专利 类型、专利号、申请号、公开号、法律状态、申请日、公开日、申请人、专利权人、申请人地址、 发明设计人、专利代理机构、代理人、主分类号其中之一;例如,所述检索关键词包括专利 名、摘要、专利类型、专利号、申请号、公开号、法律状态、申请日、公开日、申请人、专利权人、 申请人地址、发明设计人、专利代理机构、代理人或主分类号,又如,所述检索关键词包括专 利名,以及专利号或申请号;又如,所述检索关键词包括专利代理机构或代理人、以及主分 类号;又如,所述检索关键词包括专利权人、法律状态以及主分类号,以此类推。
[0026] 又如,所述检索关键词为非完整词语,例如,专利名为"太阳能非接触式充电器", 所述检索关键词为"充电器";优选的,所述检索关键词还包括重点标记,用于标记最重要 的、检索结果中必须存在的某一检索关键词,例如,所述重点标记为字符"#"或"$",这样, 在检索时可以精准匹配某一检索关键词,模糊匹配其它检索关键词。例如,检索关键词为 "$LED广东2013",则在检索时精准匹配LED,模糊匹配广东与2013 ;又如,检索关键词为 "#LED碳化硅",则在检索时精准匹配LED,模糊匹配碳化硅;以此类推。这样,可以获得较好 的检索效果。例如,所述检索关键词还包括重点标记,根据检索关键词生成检索表达式时, 在检索表达式写入所述重点标记及其所标记的某一检索关键词,然后进行检索并生成表单 数据,在检索时精准匹配所标记的某一检索关键词,模糊匹配其它检索关键词。
[0027]优选的,还根据检索关键词生成检索表达式。例如,进行检索之前,还根据检索 关键词生成检索表达式。又如,根据检索关键词自动生成检索表达式。例如,自动将多个 检索关键词以"and"("和")的关系,生成检索表达式。又如,自动将多个检索关键词以 "〇r"( "或")的关系,生成检索表达式。优选的,根据预设规则自动根据检索关键词生成检 索表达式。例如,所述预设规则为将各检索关键词以"and"的关系进行组合;又如,所述预 设规则为将前面多个检索关键词以"and"( "和")的关系进行组合,然后以"or"( "或") 的关系加上最后一个检索关键词;例如,自动将前面多个检索关键词以"and"( "和")的 关系进行组合,然后以"or"( "或")的关系加上最后一个检索关键词,生成检索表达式。 又如,所述预设规则为将后面各个检索关键词以"and"( "和")的关系进行组合,然后以 "or"("或")的关系加上前面的第一个检索关键词。又如,所述预设规则为将前面的第一 个检索关键词加入重点标记,将各检索关键词以"and"的关系进行组合。又如,所述预设规 则为将前面的第一个检索关键词加入重点标记,并将后面各个检索关键词以"or"的关系进 行组合,将以"and"的关系与加入重点标记的第一个检索关键词进行组合。
[0028]优选的,根据检索关键词自动生成检索表达式之后,进行前置检索。例如,所述前 置检索中,判断前置检索得到的检索结果数量是否大于预设阈值,是则进行拆分。例如,拆 分之后进行检索并生成表单数据。优选的,根据专利分类号进行拆分。这样,每次检索可 以得到不超过一个最大值的检索结果。例如,所述预设阈值为1〇〇、200、500、1000或10000 等。从而可以避免每次检索结果过多导致表单数据出错或者被采集对象拒绝。又如,所述 前置检索中,判断前置检索得到的检索结果数量是否大于预设阈值,是则根据专利分类号 进行拆分,为每一拆分后的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1