一种具有扫描功能的长术语自动抽取装置的制作方法

文档序号:6347816阅读:262来源:国知局
专利名称:一种具有扫描功能的长术语自动抽取装置的制作方法
技术领域
本实用新型涉及一种术语抽取装置,尤其涉及一种基于混合策略的具有扫描功能 的长术语自动抽取装置。
背景技术
术语自动抽取是信息处理中的一个重要课题。随着新科技、新事物、新现象、新概 念的出现产生了术语,丰富了语言的词汇,当今社会科学发展日新月异,信息技术发展迅 速,网络语言,新兴语言层出不穷,术语的变化越来越多样化,随着长术语的大量涌现,对于 长术语的抽取越来越成为了术语自动抽取的难点和重点,长术语抽取对信息检索、信息抽 取、数据挖掘、机器翻译等自然语言处理课题的研究,了解和把握一个学科领域的发展现 状、未来趋向等具有重要的理论和现实意义。近几年,国内外的一些学者对多字词术语自动抽取进行了广泛的研究。例如,以加 权两个相邻的字来抽取术语;或者,使用互信息来确定词语之间的搭配关系;再或者,利用 术语的前缀信息,只接受前缀是名词的串为术语;以及,利用反映术语的上下文信息的参数 来进行术语抽取,得到了较好的识别结果。分析上述多字词术语自动抽取技术后发现在单独运用上下文信息和互信息来分 析字符串与上下文的结合强度和字符串的内部结合强度时,一般只对双字词的抽取精度比 较高,而多字词的抽取精确度则相对较低。在基于开放语料的术语抽取实验中,双字词的精 度已经达到了 90. 36%,但是三字以上的词的抽取精度只有66. 63%。长术语自身易于隐 藏,连接强度弱,如果运用单一特征来抽取,精度不是很高。由此可见,无论是基于统计学, 还是基于语言学,每种独立的方法都有各自的局限性。特别是对于一些纸质文件,需要先通过扫描仪器扫描并经过识别设备识别后,才 能进行术语的抽取,这样增加了术语抽取的步骤。

实用新型内容本实用新型针对现有技术的弊端,提供了一种具有扫描功能的长术语自动抽取装置。本实用新型所述的具有扫描功能的长术语自动抽取装置,能够实现通过一件仪器 对纸件文件进行术语抽取的目的。本实用新型所述的具有扫描功能的长术语自动抽取装置,还能够实现对术语抽取 模式进行叠加,最终采用混合策略抽取纸件文件中的长术语,并且能够确保抽取高精度的 目的。本实用新型提供了一种具有扫描功能的长术语自动抽取装置,所述装置包括壳 体,所述壳体上具有输入接口和输出接口 ;控制板,其设置在所述壳体内,并且所述控制板 中包括主控制器和通过所述主控制器发出信号进行控制的图像扫描控制电路;所述图像 扫描控制电路包括可编程逻辑控制器、与所述可编程控制器连接的影像传感器、和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连接,包括识别处 理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此 为并联关系的多个输入接口 ;多个模式存储器,其中,各模式存储器具有与所述抽取模式叠 加器的输入接口相结合的输出接口。优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述装置还包括设置 在所述壳体内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通过步进电机 控制电路驱动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述抽取模式叠加器 中的输出接口和输入接口均为USB接口。优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述多个模式存储器 为两个模式存储器,分别保存字符串与上下文结合强度信息和字符串内部结合强度信息。优选的是,所述的具有扫描功能的长术语自动抽取装置中,所述壳体中还包括电 源,其连接至所述控制板。本实用新型所述的长术语自动抽取装置采取上下文信息和互信息结合的混合策 略进行长术语的抽取。由于具有抽取模式叠加装置,也可以采用其它策略组合进行长术语 抽取。其根据长术语的特征,考虑了术语与术语上下文之间的关系,普通术语搭配的前缀、 后缀信息库和术语的词性构成规则进行术语选择;然后再利用互信息计算候选术语的内部 结合强度,以进行术语候选的抽取,得到了较好的抽取结果,避免了现有技术中对于长术语 的遗漏。并且能够通过自带的扫描装置直接对纸件文件进行术语抽取。

图1为本实用新型所述具有扫描功能的长术语自动抽取装置的结构示意图;图2为本实用新型所述具有扫描功能的长术语自动抽取装置中的抽取模式叠加 器的结构示意图。
具体实施方式
以下结合附图对本实用新型做进一步的详细说明,以令本领域技术人员参照说明 书文字能够据以实施。本实用新型所述的具有扫描功能的长术语自动抽取装置,充分考虑字符串与上下 文信息的结合强度、以及字符串内部的结合强度,并依据此两种结合强度的信息来完成长 术语的自动抽取。如图1所示,本实用新型所述的具有扫描功能的长术语自动抽取装置,所述装置 包括壳体,所述壳体上具有输入接口和输出接口 ;控制板,其设置在所述壳体内,并且所 述控制板中包括主控制器和通过所述主控制器发出信号进行控制的图像扫描控制电路; 所述图像扫描控制电路包括可编程逻辑控制器、与所述可编程控制器连接的影像传感器、 和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连接,包 括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口 以及彼此为并联关系的多个输入接口 ;多个模式存储器,其中,各模式存储器具有与所述抽 取模式叠加器的输入接口相结合的输出接口。[0020]在使用中,用户将拟混合的抽取模式所在的各模式存储器硬件插入抽取模式叠加 器中,从而可以选择适当的混合模式。抽取模式叠加器将这些抽取模式进行叠加,作为抽取 文件中长术语的策略。用户通过长术语自动抽取装置中的图像扫描控制电路对待抽取术语 文件进行扫描,扫描后通过识别电路进行识别,再对识别出的文件根据上述叠加出的策略 进行长术语抽取。所述的具有扫描功能的长术语自动抽取装置中,所述装置还包括设置在所述壳体 内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通过步进电机控制电路驱 动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。这样能够带动影像传感 器执行文件的扫描操作。所述的具有扫描功能的长术语自动抽取装置中,所述抽取模式叠加器中的输出接 口和输入接口均为USB接口。所述的具有扫描功能的长术语自动抽取装置中,所述多个模式存储器为两个模式 存储器,分别保存字符串与上下文结合强度信息和字符串内部结合强度信息。所述的具有扫描功能的长术语自动抽取装置中,所述壳体中还包括电源,其连接 至所述控制板。包括长术语输出模块,还包括基于上下文信息抽取候选术语模块及基于互 信息抽取术语模块。尽管本实用新型的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中 所列运用,它完全可以被适用于各种适合本实用新型的领域,对于熟悉本领域的人员而言, 可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本实 用新型并不限于特定的细节和这里示出与描述的图例。
权利要求1.一种具有扫描功能的长术语自动抽取装置,其特征在于,所述装置包括壳体,所述壳体上具有输入接口和输出接口 ;控制板,其设置在所述壳体内,并且所述控制板中包括主控制器和通过所述主控制器 发出信号进行控制的图像扫描控制电路;所述图像扫描控制电路包括可编程逻辑控制器、与所述可编程控制器连接的影像传 感器、和与所述影像传感器连接的模/数转换器;识别电路,其与所述图像扫描控制电路连 接,包括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为 并联关系的多个输入接口;多个模式存储器,其中,各模式存储器具有与所述抽取模式叠加器的输入接口相结合 的输出接口。
2.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述装置 还包括设置在所述壳体内的步进电机和步进电机控制电路,所述主控制器发出脉冲信号通 过步进电机控制电路驱动步进电机工作,所述步进电机通过皮带与所述影像传感器连接。
3.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述抽取 模式叠加器中的输出接口和输入接口均为USB接口。
4.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述多个 模式存储器为两个模式存储器,分别保存字符串与上下文结合强度信息和字符串内部结合 强度信息。
5.如权利要求1所述的具有扫描功能的长术语自动抽取装置,其特征在于,所述壳体 中还包括电源,其连接至所述控制板。
专利摘要本实用新型公开了一种具有扫描功能的长术语自动抽取装置,装置包括壳体,壳体上具有输入接口和输出接口;控制板,其设置在壳体内,并且控制板中包括主控制器和通过主控制器发出信号进行控制的图像扫描控制电路;图像扫描控制电路包括可编程逻辑控制器、与可编程控制器连接的影像传感器、和与影像传感器连接的模/数转换器;识别电路,其与图像扫描控制电路连接,包括识别处理芯片;抽取模式叠加器,其具有叠加处理芯片、一个与主控制器连接的输出接口以及彼此为并联关系的多个输入接口;多个模式存储器。本实用新型的长术语自动抽取装置能直接将纸件文件通过扫描和识别进行术语抽取,并且可以采用抽取模式叠加的混合策略进行术语的抽取。
文档编号G06K9/20GK201917926SQ20102068938
公开日2011年8月3日 申请日期2010年12月30日 优先权日2010年12月30日
发明者梁颖红 申请人:江苏省现代企业信息化应用支撑软件工程技术研发中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1