一种汉化的世界专利数据库系统及数据处理方法

文档序号:6464159阅读:195来源:国知局
专利名称:一种汉化的世界专利数据库系统及数据处理方法
技术领域
本发明涉及一种数据库系统及数据处理方法,特别是一种汉化的世界专利 数据库系统及其方法。
技术背景人类的科学技术活动是离不开知识的借鉴,知识的传承。目前一些科技资 源数据库包括国内和国外的科技信息,这些资源对科技人员的科技活动起到了 很大的帮助作用。科技资源数据库中的国外信息居多都是外文(英文)的,4艮 少被翻译成中文。虽然我国大部分科技人员或多或少的受到过英语教育,但是 能流利的阅读英文的人并不多。而且一般人都习惯用母语交流、阅读,因此大 多数科技人员在科研活动中希望能用中文信息。这样国外科技信息若不汉化就 会给使用者带来语言障碍,使许多有价值的外国科技信息得不到有效利用。因 此汉化的科技信息数据库是市场上非常需要的。发明内容为了解决上述现有技术中的问题,本发明提供一种汉化的世界专利数据库系统,该系统包括数据处理服务器、数据库服务器、各国专利数据库和相关 信息数据库,它们通过网络互相联通。各国专利数据库和相关信息数据库可以 是本地的,也可以是网络的。应用服务器包括采集模块、聚类处理模块、标记模块、删除模块、翻译模 块、标准化模块、提取模块和关联模块。采集模块,用于采集各国专利数据,以及与各国专利相关的信息;聚类处 理模块,用于将各国专利的数据处理成专利族数据;标记模块用于标记基本专 利和英文专利;删除才莫块,用于删除专利族记录中无标记专利的部分内容;翻 译模块,用于将非中文的基本专利数据翻译为中文;标准化模块用于将非简体中文的基本专利数据转换为中文;提取模块用于提取基本专利中的公司或申请 人名;关联模块用于按照公司或申请人名,关联聚类数据库与关联数据库中的信息。数据库服务器至少包含三个数据库, 一个是存储着各国专利数据的原始信 息库, 一个是存储着专利族lt据的聚类数据库,再一个是存储着相关信息的关 联数据库。本发明还提供一种汉化数据处理方法,该方法包括以下步骤1. 根据需要从各国专利数据库中采集多个国家的专利数据,然后将它们存 入各国专利数据库。2. 按照优先权信息,将各国专利数据中拥有相同优先权的数据,聚类处理 成专利族数据,然后将它们存入聚类数据库。3. 根据事先确定的优先顺序,在每个专利族中,选择基本专利,并将每个 基本专利打上标记。该优先顺序为中国、台湾地区、香港地区、美国、英国、 欧洲、国际、日本、德国、法国、俄国。4. 根据事先确定的优先顺序,将每个专利族中的一件英文数据打上标记, 标记英文翁:据的优先顺序为欧洲(国际)、美国、英国、澳大利亚、加拿大、 南非。5. 将既不是基本专利又不是英文专利的专利族成员的申请信息、公布信息 和国别信息保留,其余信息删除。6. 从基本专利中筛选出非中文数据进行翻译,并人工校对。7. 从基本专利中筛选出非简体中文的数据进行简体中文的转换。8. 将基本专利中的公司或申请人名提取出来,并按照这些公司或申请人名 在相关信息数据库中下载相关信息,存入关联数据库。9. 将聚类数据库中的信息与关联数据库中的信息,按照公司或申请人名关 联起来。本发明将各个国家、地区的专利信息资源整合在一起,并将其全部汉化, 可以克服国内使用者使用国外专利信息时遇到的语言障碍,从而让国内使用者终达到充分开发利用中国专利信息的目的。


图1为本发明的系统硬件结构2为本发明的应用服务器的功能模块图 图3为本发明的数据处理方法的工作流程图具体实施方式
如图1、 2所示,本发明的系统包括数据处理服务器11,数据库服务器12,各国专利数据库13和相关信息数据库14,它们通过网络15连接起来。由于汉化的各国专利数据库应该包括中国、美国、日本、欧洲、国际等的专利信息,而且应该将这些多种文字的专利信息全部中文化,因此,数据处理 服务器11包括采集模块111、聚类处理模块112、标记模块113、删除模块114、 翻译模块115、标准化模块116、提取模块117和关联模块118,它们用于处理 各种专利信息和相关信息。数据库服务器包括三个数据库原始信息库,用于存储采集的各国专利数 据;聚类数据库,存储着经过聚类处理的、以特定国家专利为基本专利的专利族 数据,这些数据最后全部被处理成为简体中文文字的数据;关联数据库,用于 存储从相关信息数据库14提取出的、与聚类数据库中的公司或个体申请人对应 的相关信息。参加图2、 3,本发明的数据处理方法的较佳实施例包括以下步骤步骤SIOO,采集模块111从各个国家或国际组织的专利数据库中,将它们 的专利数据下载下来,这些国家或国际组织的范围包括美国、日本、欧洲、国 际、英、法、德、俄等。这些国家或组织的专利数据库可以是本地的,也可以 是互联网上的;下载完成后将这些专利数据存入原始专利数据库。步骤SllO,聚类处理模块112按照各个国家或国际组织专利数据中的优先 权信息,即优先申请号、优先申请国别和优先申请日期,对各个国家或国际组织专利数据进行聚类处理,将各国专利数据中拥有相同优先权的专利数据聚在 一起,组成专利族数据。在这些数据中,每个专利族数据为一条记录,因此一 条记录中包含多个不同国家的专利信息。聚类处理完成后,将这些专利族数据 存入聚类数据库。步骤S120,由于每条专利族数据记录中包含的多个不同国家的专利信息是 相同的内容,因此要在其中选择一件专利作为基本专利,然后给它打上标记, 这样按照基本信息检索,可以减少数据库中的冗余信息。基本专利的选择是按照不同国家或组织的优先顺序进行的,优先顺序为中国、台湾地区、香港地 区、美国、英国、欧洲、国际、日本、德国、法国、俄国。例如在一个专利族 记录中,有若干国家的专利数据,先判断是否有中文的,若有,将此专利数据 作上标记;若无,再判断是否有美国的,若有,将此专利数据做上标记,以此类推。步骤S130,为了进行中英文对照浏览专利信息,在每个专利族记录中,选 择一件英文专利,然后为它作个标记。标记英文专利也要有优先顺序,该优先 顺序为EP(W0)、 US、 GB、 AU、 CA、 ZA。如果基本专利是英文的,则无需选择 其他英文数据。步骤S140,为了消除冗余信息,对于专利族中既没有基本专利标记又没有 英文专利标记的数据,只保留申请信息,公布信息和国别信息,其余内容全部 删除。这样,每条专利族记录中仅包括一个中文专利数据,或/和一个英文专利, 以及其他专利的申请,公布和国别信息。步骤S150,由于基本专利是多种文字的,例如英文、日文、德文等,因此要 汉化非中文基本专利;通过翻译模块115从基本专利中选择出非中文的数据, 并将其通过软件自动翻译为中文。由于翻译软件的智能化程度无法与人脑相比,因此由软件翻译的数据还要经过人工校对的程序校对。非中文数据在进行语言 翻译时,只针对其题目文摘等文字内容进行翻译,其余内容均不变化。步骤S160,在中文的基本专利数据中,包括一些非简体中文的数据如台湾、 香港地区的专利数据,因此要通过标准化模块116将非简体中文的基本专利数 据选择出来,并将它们转换为简体中文。步骤S170,提取模块117从聚类数据库中提取基本专利中的公司或申请人信息,并去除重复内容后,存入关联数据库。从相关信息数据库中采集的数据 包括各种类型的科技、经济等信息,例如科技期刊中的、科技图书中的、标 准中的、海关数据库中的信息等,而且这些信息只限于中文的。步骤S180,最后关联模块118按照公司或申请人名,将聚类数据库中的信 息和相关信息数据库中的信息关联起来,成为包括一些科技、经济信息的汉化 世界专利数据库。该库中的信息即可通过计算机提供用户使用。
权利要求
1.一种汉化的世界专利数据库系统,其特征在于它包括数据处理服务器、数据库服务器、各国专利数据库和相关信息数据库,它们通过通讯网络连接;应用服务器包括采集模块,用于采集各国专利数据,以及与各国专利相关的信息;聚类处理模块,用于将各国专利的数据处理成专利族数据;标记模块用于标记基本专利和英文专利;删除模块,用于删除专利族记录中无标记专利的部分内容;翻译模块,用于将非中文的基本专利数据翻译为中文;标准化模块用于将非简体中文的基本专利数据转换为中文;提取模块用于提取基本专利中的公司或申请人名;关联模块用于按照公司或申请人名,关联聚类数据库与关联数据库中的信息;数据库服务器至少包含三个数据库,一个是存储着各国专利数据的原始信息库,一个是存储着专利族数据的聚类数据库,再一个是存储着相关信息的关联数据库。
2. —种汉化数据处理方法,该方法包括以下步骤1) 根据需要从各国专利数据库中采集多个国家的专利数据,然后将它们 存入各国专利数据库;2) 按照优先权信息,将各国专利数据中拥有相同优先权的数据,聚类处 理成专利族数据,然后将它们存入聚类数据库;3) 根据事先确定的优先顺序,在每个专利族中,选择基本专利,并将每 个基本专利打上标记;4) 根据事先确定的优先顺序,将每个专利族中的一件英文数据打上标记;5) 将既不是基本专利又不是英文专利的专利族成员的申请信息、公布信 息和国别信息保留,其余信息删除;6) 从基本专利中筛选出非中文数据进行翻译,并人工校对;7) 从基不卞刑甲!M8) 将基本专利中的公司或申请人名提取出来,并按照这些公司或申请人名在相关信息数据库中下载相关信息,存入关联数据库;9) 将聚类数据库中的信息与关联数据库中的信息,按照公司或申请人名 关联起来。
3. 根据权利要求2所述的方法,其特征在于标记基本专利的优先顺序为 中国、台湾地区、香港地区、美国、英国、欧洲、国际、日本、德国、法国、俄国。
4. 根据权利要求2所述的方法,其特征在于标记英文数据的优先顺序为 欧洲(国际)、美国、英国、澳大利亚、加拿大、南非。
全文摘要
本发明提供一种汉化的世界专利数据库系统,该系统包括数据处理服务器、数据库服务器、各国专利数据库和相关信息数据库,它们通过网络互相联通。应用服务器包括采集模块、聚类处理模块、标记模块、删除模块、翻译模块、标准化模块、提取模块和关联模块。数据库服务器包括存储着各国专利数据的原始信息库,存储着专利族数据的聚类数据库,和存储着相关信息的关联数据库。本发明将各个国家、地区的专利信息资源整合在一起,并将其全部汉化,可以克服国内使用者使用国外专利信息时遇到的语言障碍,从而让国内使用者能够充分利用以及挖掘国外专利信息,同时提高国内专利信息资源实用性,最终达到充分开发利用中国专利信息的目的。
文档编号G06F17/30GK101593192SQ20081011299
公开日2009年12月2日 申请日期2008年5月27日 优先权日2008年5月27日
发明者严荟煌, 刘玉纯, 冉 张 申请人:北京六所和瑞科技发展有限公司;刘玉纯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1