控制访问计算机系统和注释媒体文件的方法和装置的制作方法

文档序号:6476311阅读:169来源:国知局
专利名称:控制访问计算机系统和注释媒体文件的方法和装置的制作方法
技术领域
本发明一般涉及控制访问计算机系统和注释媒体文件的方法和装置。
背景技术
CAPTCHA是'全自动区分计^I几和人类的图灵观赋(Turing test)"的縮写,它 是一种用来确定用户是人还是计tm的询问-响应测试。这种禾聘在万维网上普遍使 用,而且通常为采用变形文字的图片形式。CAPTCHA可用来保护众多类型棚艮务 项目,包括电子邮件服务、售票服务、社会网络、维客(wikis)和博客(blogs)。 它们通常出现在网站注册表的下部,并且用于例如Hotmail、 Yahoo、 Gmail、 MSN Mail、 PayPal、 TicketMaster、 美国专利及商标局以及其它许多流行网站上,用来 防止自动滥用(例如,为每天获得许多免费电子邮件账户而写入的程序)。 CAPTCHA之所以有效,是因为计算机禾旨不能像人那样阅读扭曲变形的文字。一 麟讲,CAPTCHA会提示用户输入与图片中所提供的波浪状字符相一致的字母、 数字和其它符号,以证明他们是人。
然而,现有技术的CAPTCHA存在某些缺陷。尤其是,现有技术的CAPTCHA 中f顿的图片都是为了专门用作CAPTCHA而AX创建的,而且,为了^fjf用户是 人还是机器人,这些图片的选择不一定很雜。结果,企图鹏现有技术CAPTCHA 系统的垃圾邮件发送者和其它机器人正在越来越能成功使用计算机正确回答 CAPTCHAo为此,需要一种更有效的方^^制作CAPTCHA,而这种CAPTCHA 对于计算机来讲很难回答,但对于人来讲,却又相当容易回答。
全世界每天要破解6000万多次CAPTCHA,每次需要花费大约10秒钟时间来 输AS些歪歪扭扭的字符。这加起来相当于15万多个工时。这项工作极其重要,而 且,几乎毫无疑问,这是计^t几无法进行的。然而,目前,现有技术CAPTCHA除 了用其作为限制访问人类用户的方法外并不能为此项工作提出任何有用的目标。为 此,需要更有效地利用为了破解CAPTCHA而共同花费的大量时间。
此外,计算机时代之前写成的图书或文字正在被全部数字化,(例如,Google 图书计戈诉口互联网档案馆),目的是保存人类知识并使信息能让人们更容易读取、理解。图书页面正在被照相扫描成图片形式,然后使用光学字符识别("OCR")程序
将图片转换为文字。使用OCR禾辨将图片转换为文字是非常有用的,因为图片很
难储存在小容量的设备上,下载成本很高,而且不容易搜索。然而,在这种数字化
处理时遇到的其中一个最大的障碍就是,OCR对所扫描文本的图片中的文字的 识别还很不理想。对于比较老的印刷物,其墨迹已经暗淡,页面变黄,或者,纸张 上存在其它瑕疵,OCR禾,无法识别其中大约20%的文字。与电脑相比,人则更 能准确地抄录这种印刷物。在文字水平上, 一个人可以达到95%以上的准确率。使 用"密钥与验i正"技术的两个人,每个人^4虫输入文字,然后比较两人的差异,他们 在文字水平上可达到99.5%以上的准确率(多人输入时,彼lfc^间的错误并不是完 全互不相干)。不幸的是,抄录者的费用都很高,所以,只有极其重要的文件才人工 抄录。
为此,有关CAPTCHA的方法和装置需要改进,特别是,更需要育嫩提供除可 控制访问计tm系统外的优点的CAPTCHA的方法和装置,诸如将书写文字经济有 效地转换为能够储存并有效搜索的电子形式。本发明的上述和其它优点将在下面更 详细介绍。

发明内容
本发明包括控制访问计穀几系统和注释媒体文件的方法和體。特别是,本发 明不仅可以^f共改进的CAPTCHA,而且,本发明还可以利用CAPTCHA破解的工 作原理并用作其它附加生产性工作。
CAPTCHA包括了一种用来分辨用户是否是人的询问-响应测试。根据本发明, 这种询问可以是(例如)用户必须正确阅读并输入的文字的扭曲或非扭曲图像,这 种询问可以是一个用户必须听见并输入的扭曲的或非扭曲的音频剪辑,这种询问可
以是用户必须识另诉n输入名称的一个物体的扭曲的或非扭曲的图像,或者,这种询
问可以采取其它某种形式。此外,根据本发明的一些实施例,这种询问可以包括一 个或多个部分,这些在下面将要更详细介绍。本发明有时会被称之为 "re-CAPTCHA"。
本发明可以归入计^m软件,当其由处理器运行时,可使处理器根据本发明来 执行某些动作。在一个实施例中,本发明包括通过网络连接的一台计^t几或两台以 上计算机。其中一台或多台计算m^W包含计^m可读指令的存储器,这些指令在被执行时会要求处理器执行本文所述各项任务。
顾名思义,破解CAPTCHA要求人们执行计算机还不能执行的任务。本发明积
极利用了这种人类工作,而且,人们采用这种方式预期可能取得的有用结果包括一
但不限于—识别光学字符识别("OCR") f號无法判读的文字,抄录语音识别禾酵 还不能解读的音频文〗牛,以及其它用途。换句话说,本发明可以通过CAPTCHA有 助于实现对那些数字化处理成本高昂的媒体的数字化。在书写文本的情况下,这意 味着通过CAPTCHA来让人类辨认计算机不能识别的文字。
特别是,本发明可以用 字将旧的印刷材料转录成可以{诸存并能有效搜索的 电子格式。本发明还可以通过使用手写印刷字符或手写草写字符与手写文件一起使 用。关于手写文字,本发明可以用来(例如)转录那些采用其它转录方式成本会很 高的信件和其它文件。手写文字对于光学字符识别("OCR")程序来讲尤其困难, 而本发明可利用,万维网内或其它地方破解CAPTCHA的人们的力量来协助进 行这种处理。尽管"标准的"CAPTCHA显示计##1提供的随机字符图像,但本发明 可以显示来自扫描文本上的文字或扭曲文字图像。然后,对用户输入的答案进行汇 总,以提高数字化处理过禾呈中字符识别能力。
在一些实施例中,为了提高效率,只有那些自动化的光学字符识别("OCR") 禾歸无法识另啲文字被发送到人面前,并且在CAPTCHA中用作询问词。然而,在 其它一些实施例中,本发明并不仅限于自动化的光学字符识别("OCR")程序无法 识别的文字。例如,光学字符识别("OCR")程序正确识别出的文字可以用作本发 明内的"^i正"或'已知'文字,下面将会更详细介绍。
为了會g够进行人和计^m之间的分辨,系统需要能够^i正用户的工作。本发明 的一些实施例采用了一个由两部分组成的询问方式,这个方式是给用户两个词汇, 一个词汇的答案是不知的(又称之为"读取"部分),而另一个词汇的答案是知道的(又 称之为"^i正"部分)。如果用户正确地输入"已知"词汇,系统相信用户也正确地输入 了那个"不知遗'词汇。本发明的这一方面并不限于词汇询问方式,使用音频剪辑的 由两部分组成的询问方式和其它形式的询问方式也都可以与本发明一起使用。
在某种禾號上,本发明将用来引导人们把每天花费在破解数百万CAPTCHA上 的精力放到在统'阅读"书本上。目前,有几个项目正在试图将书本数字化(例如, Google图书计划和互联网档案馆等)。对书本进行扫描,然后,为了使其可供搜索, 再使用OCR ,,将其转换成ASCII文字。尽管OCR ,旨能够在大多数书本上获得极高的准确率,但有许多书的扫描效果很差,这些书已损坏(例如,带有铅笔或钢 笔标记),或者,这些书随着年代久远而实际已经变质到文字严重扭曲变形的程度。
在这种情况下,OCR程序的识别比例很低(例如,见图5)。本发明通过将OCR程 序无法读取的文字以CAPTCHA的形式发送到网上的人的面前,从而提高了书本数 字化的处理过程。
根据本发明的一些实施例,书本扫描页的图像可通过多个OCR ,旨 行处 理。OCR禾歸无法正确阅读的另卩些文字被汇集成包含一个词汇,多个词汇或词汇 的一部分的图像。例如,较长的词汇可以分割成两个或多个部分,而较短的词汇则 可合并到一起。采用OCR S^对文字进行自动分割,其准确性要大大高于识别这 些文字是什么。此外,许多常用的OCR禾歸都^魏个词汇一个置信度得分,该 置信度得分可以用来确定是否正确阅读了该词汇。^这种词汇的图像将用作一个 CAPTCHA (见图6),在下面有时称之为"re-CAPTCHA"。
如果属于带有口语词汇的音频文件时,也可以采用类似的处理方法。音频文件 通过语音识别软件进行处理,不能识别(或者识别的置信度得分较低)的部分则呈 现给用户以便抄录。因为讲话是一个连续的过程,其不同于阅读,在阅读时,文字 是离散的,且由白色空格隔开,为此,提供给用户的声音剪辑将包含几个词汇或整 拘子。不论所^顿的词汇有多少,语音识别软件无法以高置信度处理的音频文件 也可以作为reCAPTCHA处理中询问词的未知部分来使用。
存在一个重要问题,即人们什么时候才能肯定己经正确回答了戶脱CAPTCHA 的询问。根据本发明,人们自己就可以解决这个问题。每次本发明遇到OCR不能
正确读取的新词时,将会连同已经知道答案的另一个词汇的图像一起呈现给用户。
然后,让该用户破解"已知,'(或"验证")词汇和"未知"(或"读取,,)词汇。如果用 户破解了已知答案的已知词汇时,那么就可以假设那个原先未知词汇的答案是正确 的。本发明可以将这个未知词汇呈现给若干个用户,后者以较高置信度来决定原先 的回答是否正确。 一旦许多人都给出同一个未知词汇的相同答案,那么便可以假设 该答案是正确的。
重要的是,本发明可以可靠而有效地防止非人用户的企图。确保本发明坚固性 的一个方法就是确保相同的图像、音频剪辑或其它询问决不会以相同形式呈现两次。 这是因为有可能会写入一个恶意软件禾骄,该禾Mi^收叙匕前识另啲询问词汇并随 同此前确定的正确判读一起存储所述图像(或音频文件)。 一旦出现这种情况,恶意禾Mm就^i入到提供CAPTCHA询问的网站,搜索其文件,以查看该图像(或音频 文件)是否此前曾被正确识别,然后提供该询问的此前存储的正确答案。此后,该 恶意Si^l供戶腿询问(例如,阅读的词汇)的未知部分的完全假想的判读,然后, 存储未知图像(或音频文件)和假想答案,这样,如果该恶意软件随后遇到相同询 问时,就^合出戶诚假想答案。如此周而复始,该恶意软件最乡^i供该询问词汇未 知部分的相同假想答案,结果,提供re-CAPTCHA的计^^l就会向该询问词汇的未 知部分的这个答案错误地给予一个较高置信度。
此外,为了防止"机器人"或自动代理,本发明可以应用多种机制。例如,将未 知词汇的图像发给多个用户,以便获得有关该词汇正确率的置信度。此外,当一个 图像或其它询问提供给多个用户时,在呈现给用户之前,每次都可能会随机扭曲。 因此,相似的图像决不可能多次出现。
本发明的另一个好处是,如果其被自动机器人所鹏率,那么,该机器人可以用 来直麟高被扫描书本或在转录音频文件时的字符识别准确度。逸就是说,在破解 本发明时禾骄精度上的提高会直接转成改进扫描书本内的文字或纪录剪辑内音频的 自动识别。这在以前的CAPTCHA中是不可能的,在原来的CAPTCHA中,图像 都是人工创建的。
总之,本发明可以用来在人和计^m之间进行分辨,并可产生有用信息。计算 机不能判读的符号,诸如图像(或声音剪辑),都呈现纟誠图访问某个网站的用户。 其中一些符号以前曾被识别,而其它符号则以前未被识别。如果访问某个网站的用
户正确地解读了以前识另啲符号,则该用户被假设为是一个人,其所输入的信息也 假想是正确的;如果该用户未能正确地输入正确判读结果,那么,该用户则被假想 为是一台计算机。在向确定是人的若干用户提供未知词汇的询问后,对未知词汇的 判读情7舰行比较,并建立每个判读的置信度。 一旦判读的置信度达到预定水平, 则可假设该判读正确。这样,人们可以获得计^m用户的智力,采集计t^几无法产 生的信息,诸如识另恍学字符识别,歸不能正确识另啲文字,或者转录语音识别程 序不能识另啲语音。为了防止恶意软件对询问中的未知词汇重复提供一个前后一致 但驟的答案,此前识另啲符号和未知词汇在呈现给用户之前会随意扭曲,从而防 止恶意软件重复识别该未知词汇。
本发明可以采用多种不同方式。通自本发明如下详细介绍,本发明的上述和 其它理念、不同形式和优点会清楚地显现出来。


下面参照说明实施例的附图并仅通过示例介绍本发明的实施例,但这并不皿 本发明的限制,附图如下
图1示出了根据本发明的系统的一个实施例。
图2为根据本发明的方法的一个实施例的流程图3为根据本发明的方法的一个实施例的流程图,根据这个实施例,产生读取 部分和验证部分;
图4为根据本发明的一个实施例的流程图,在这个实施例中,对询问的答案用 来补充文件的电子表示形式;
图5示出了从书本上扫描的文字的一个示例。 图6示出了根据本发明的从扫描书本上产生的示例图像; 图7为本发明的工作原理的一个实施例的流程图,该实施例与采用光学字符识 别("OCR")程序的扫描文字一起使用;
图8示出了根据本发明的系统的另一个实施例;
图9为图2所示的确定步骤的一个实施例的流程图10示出了本发明的一个实施例,按照这个实施例,图像采自文件并用作询问 词汇的组成部分。
实施例
图1示出了根据本发明的系统10的一个实施例。系统10包,过网络14连接 到一起的几台计算机12。尽管只示出了一台计算机12带有一个处理器16、储存器 18、输A^置20和输出装置22,但其它计算机12也包括处理器16、存储器18、 输A^置20和输出装置22。此外,系统10包括的计算机12可以多于或少于图1 所示计算机12。
系统10不需要专门用于本发明的工作,而且系统10内的一些计算机12可以由 应用本发明的人们刺OT (例如,试图访问系统10的其它部分的人们),其它计算 机12可以参与控制本发明的{顿和系统10的{柳(例如,根据本发明控帝,户之 间互动、采集和处理翻、并创建或更新繊库咖艮务器),以及一些计tmi2可 以由执行与本发明不相关的其它任务的人们来f顿(例如,通过网络14通信的人们,不受本发明的约束)。
计算机12可以是传统意义上的计算机,诸如通用计算机、服务器或其它类型的 计算机。另外, 一台或多台计算浙12可以仅仅是台输A/输出装置,诸如哑终端,
实现用户与系统10其它部分通信。计算机12可以都相同,也可以不同。计算机12 可以包括(例如)处理器16、存储装置18、输入装置20、输出装置22。
计算机12可以采用不同形式。尽管计算机12通常从人类用户接口角度来介绍 的,但在某种实施例中,计^1几可以包^^接到网络14上的处理器16和存{機置 18,无需任何人机接口装置(诸如,无需键盘20或显示器22)。这种计^mi2可 以(例如)通过网络14对一台或多台其它计算机12进行访问,并可以根据本发明 用来(例如)处理和存储数据或者根据本发明操作和控制处理禾,。根据本发明, 可以4顿不止一个处理器16和存储装置18。在一个实施例中,处理器16和存储装 置18用来根据本发明执行任务,而另一个处理器16和另一个存储装置18则用来建 立、存储、处理和访问根据本发明建立的数据库。也可以使用更多的处理器16和存 储装置18。
网络14可以是(例如)互联网皿种其它公共或私人网络。在其它实施例中, 网络14可以是计算机12之间的直^£接,诸如电缆或导线,无需使用传统的网络 部件。此外,系统IO、计算机12和网络14的数量、类型、相互连接方式和其它特 性可以根据本发明情况变化。
处理器16接收来自输入装置20和/或其它计算机12的输入信息,并提供信号 以控制输出装置22或掛共数据给其它计算机12或系统10的其它部分,或掛共M 以对其进行控制。处理器16还执行如下所述某些功能。处理器16可以执行计^m 可读指令,诸如软件、硬件和固件形式。计算机可读指令在由处理器16执行时可以 使处理器16或其它装置按特定方式工作并可使信号按特定方式处理。计算机可读指 令可以存储(例如)在一个或多个存fil^置18内,其可以(也可以不)由两个或多 个处理器16或其它装置共享。处理器16还可以集成到系统10的其它部分内以控制 系统10各个方面的工作。处理器16可以一起工作,也可以独立工作。
存储器18可以是按任何形式的计算机可读媒,成的任何形式的计算机可读 存储器。例如,存储器18可采用磁性形式、电子形式、光学形式或其它形式存储信 息,并可以与另一个装置构成離,诸如处理器16,或者可以是3拉的,诸如独立 式或可移动存^^置18。存储器18可以是各种形式的媒体18,诸如光盘、磁盘、便携^/可移动存储设备和其它形式。
存储器18可包括计算机可读指令,这些指令在由处理器16执行时可使处理器
16执行如下所述某些功能。存储器18可以与处理器16分开,或者存储器18可以 与处理器16集成在一起。存储器18还可以包括不止一个存储设备,后者可与处理 器16集成在一起,也可以与处理器16分开,或者包括二者。这样,系统10就可根 据本发明按所要求方式工作。
输A^置20可以是體、触難、计##1鼠标、麦克风、或者用户输入信息所 采用的其它形式的装置。
输出装置22可以是视频显示器、扬声器、或向用户输出信息所采用的其它形式 的装置。
根据本发明的系统10可以有多种不同形式。例如,尽管所示系统10是经由网 络14工作,但系统10可以作为一台独立机器与一台或多台计算机12 —起实施,而 不依赖网络14。另外,每台计算机12内可以配置不止一个处理器16、存储器18、 输入装置20和输出装置22。此外,系统10内还可以包括图1未示装置,而且,图 1所示的一些装置也可以略去不用,结合或集成到一个装置内。
本发明是从控制访问"系统'的角度介绍的。控制访问的"系统'一般都是从一台 或多台计算机12的角度介绍的,这些计^m可以(例如)是网络服务器和域其它 设备,作为计算机系统12 —起工作。在通过网络14连接的一组几个计算机12的情 况下,本发明还使用了术语"系统",参考号为10。访问系统10也可以由本发明来 控制,并且纳入由本发明控制访问的计算机系统12内。
图2是根据本发明的方法的一个实施例的流程图。该方法可以归入(例如)计 1可读指令中,这些指令存储在系统10内的一个或多个存储设备18内并由系统 10内的一个或多个处理器16来执行。
该方法的步骤30包括向计算机系统的用户产生一个询问。该询问包括答案已知 的"^i正"部分,和询问的答案未知的"读取"部分。询问可以是(例如)可视询问, 该询问提示用户査看一个图像并给出具体回答。虽然本发明一般都是从可视询问方 面来描述的,但本发明并不仅限于使用可视询问。例如,在本发明的其它不同方式 中,询问可以是音频询问,在这种情况下,提示用户听一段音频录音并给出所需要 的回答。另外,本发明也可以与除可视和音频询问之外的询问一起4顿,诸如可以 按(例如)类似布莱叶盲文方式使用的触觉询问,以及与嗅觉和味觉相关的询问一起使用。
正如此处所述,"已知"和"未知"可以指有关询问相应部分的答案的确定性。相 反,"已知"和"未知"可以不代表确定性,相反可以指有关该答案的置信度。例如, 光学字符识别("OCR")程序一般会产生一个有关图像转换成该图像内字符的电子 表示方式的精确度的置信度得分。这可以(例如)在以字符为基础的字符上进行,
在以词汇为基础的词汇上,或以其它方式进行。经过OCR程序处理的这种置信度
得分可以用来确定一个字符、 一系列字符、词汇,或一系歹l」词汇是否"已知或"未知"。 其它标准也可以用来确定"已知"和"未知"。
步骤32包括提示用户破解询问的验i正部分和询问的读取部分。通过在监视器或 其它输出装置上提供询问的读取部分和验证部分而向用户提示可视询问。读取和验 证部分的呈现可以同时也可以不同时进行。 一麟讲,如果读取部分和^i正部分在 一船卜观上彼此无法分辨时(诸如相同或类似字体、尺寸,以及扭曲禾雖),贝U认为 将会取得最佳效果,尽管本发明并没有这样要求。为此,本发明可以包括修正询问 ^i正部分和询问读取部分中的其中一个或二者的至少一个明显特性。修正步骤可以 是产生询问步骤30的组成部分,或者可以是(例如)在产生步骤30之后和提示用 户步骤32之前所执行的一个独立步骤。
例如,在可视询问中,读取和验i正部分可以采用相同方式扭曲,这样,它们就 具有相似外观。如果读取和魁正部分首先在外观上不相似, 一个的扭曲方式可以不 同于另一个,以便使其外观相似。然而,读取部分和^i正部分并不要求具有相同的 一般外观,且在本发明的一些实施例中,读取部分和验i正部分具有不同的外观,诸 如因读取部分和验证部分的扭曲方式不同所致。
根据本发明的一个实施例,询问的读取部分和验证部分来自相同的源资料,诸 如相同的文件。按照这种方式,格式、字体、时代,和该文件的其它扭曲变形的特 性一般在戶脱两个部分之间是相同的。同理,读取和衞正部分呈现给用户时的顺1 可以是随机变化的。例如,读取部分和衞正部分可以并行呈现,读取部分在某个时 候首先出现,以及^i正部分在其它时间首先出现。
呈现给用户的读取和^i正部分的方式可以多种多样。例如,读取和^i正部分可 以作为一串字符一起使用,或者作为两个或多个不同的词汇或者两个或多个不同的 字符串而分开^顿。例如, 一个较长的词汇可以分割成两个部分或更多部分,或者 两个或更多较短的词汇可以组合到一起。此外,可以使用不止一个读取部分(例如,带有不止一个词汇的读取部分),以及不止一个斷正部分(例如,带有不止一个词汇 的验证部分)。例如, 一些实施例可以使用一个读取部分和两个或多个^i正部分,一
些实施例可以使用两个或多个读取部分和一个^i正部分,以及一些实施例可以使用 两个或多个读取部分和两个或多个^i正部分。
本发明一般从由几个词汇的扭曲图像组成的可视询问角度来描述,尽管本发明 并不仅限于这种询问。例如,这种询问可以是一个或多个数字、其它字符、符号, 或数字、字母、字符或符号的组合形式。例如,本发明可以从一个或多个已知或未 知词汇中提取的几个字符并将这些字符用作询问的组成部分。另外,也可以采用其 它不同方式,例如,诸如包括图片或图纸的询问,用户通过输入图片或图纸中的物 体名称破解这种询问。本发明也可采用其它许多不同的实施方式。
步骤34包括接收来自用户的输入信息。这个输入信息是用户对询问的答复,并
根据询问性质,可以(例如)作为字符的电子表示形式,作为音频数据的电子表示 形式,或者其它形式来提供。例如,如果用户从键盘上输入一个答案,那么来自该
用户的回答可能就是电子形式的ASCII表示形式。
步骤36包括确定用户关于询问验证部分的输入信息是否与询问验i正部分的已 知答案相一致。确定用户关于询问验证部分的输入信息是否与该询问验证部分的已 知答案相一致,这可以采用几种方式进行。例如,可以将用户输入信息与已知答案 进行比较来确定。在另一个实施例中,用户输入信息可以发送到另一个位置,诸女口 网络14内的另一台计算机12,在这里,用户输入信息可以与已知答,行比较, 此后,将结果返回。例如,这样,这些询问的答案可以保存在(例如) 一个或多个 中央储存库。使用本发明的网站服务器或其它计tm可以接收来自中^it存库的询 问,然后再将表示用户建议答案的 发回到中央储存库(或其它某个计算机12)。 中央储存库(或其它计算机12)将提供表示该询问是否已经正确回答并因此而知道 该用户是人还是机器人的信息。也可以实施其它不同方式。
步骤38,当用户关于询问验证部分的输入信息与该询问验证部分的已知答案一 致时,该步骤可从用户关于询问的读取部分中将输入信息识另伪该询问读取部分的 答案。换句话说,如果用户提供了^i正部分的正确答案,那么,就可以假设该用户 是人并可以正确地分辨出该询问的读取部分。因此,用户关于询问读取部分的答案 可以被认定为是该询问读取部分的答案,或可能的答案。如下所述,读取部分可以 不止一次地使用,并可在确定某个特定答案是否正确前,对各个答案进行比较。这样,该用户就可被视为是人,无需确定该询问的未知(或读取部分)的答案 是否准确。换句话说,在决定是否准许该用户访问前,并不需要对用户的答織行 全部检查或验证。然而,正如此处所述,要使用户很难了解所述询问的哪个部分是 读取部分,哪个部分是验证部分,还需要继续做工作。因此,作为用户的人就^t 过破解旨询问而有一次比较轻松而且更偷快的经历(且访问速度更为迅速),无需 去试图猜想为了进入而所需的可能最小的正确答案。
如果用户输入的有关询问^i正部分的信息与该询问验证部分的已知答案一致, 步骤40包括允许用户访问该系统。换句话说,当用户被确定为是人时,便准许该用 户访问。
本发明可以实施的方式很多。例如,如果用户输入的有关询问验证部分的信息 与该询问的验i正部分的已知答案一致时,尽管本发明一般是从允许用户访问角度描 述的,但本发明并不限于此。例如,在准许访问前,可以呈现给用户一些附加测试。
本发明的另一个实施例修正了本发明以便适应用户。例如,用户可以提供他的 或她的国籍或 语言,本发明从而可提供相应语言的询问资料。同样,从用户的 IP地址上,可以确定该用户正在工作的国家,并可以用来提供合适语言的询问。
本发明还可以改善人 过测量如何成功解决询问以及需要多长时间解决的可 能性。人类比较容易破解的询问将会经常重,用,从而提高了人类破解询问的总 成功率。
同样,本发明会考虑评估用户输入信息时的某些"人类"行为。在一些实施例中, 本发明会考虑用户提供答案中预定数量或类型的印刷错误(例如,每个词汇一^4t 误)。
在另一些实施例中,已知的人类行为可以被认为是不^^:迎的。例如,可以了 解有細户的某對言息,诸如他们的ip地址,他们当时工作所在的国家,以及他们
以前{顿CAPTCHA的历史(诸如通过f柳"小甜饼"(cookies))。这样,某些行为 就可以用来辨认不^^迎的人类用户,诸如那些试图生成可出售或提供给垃圾制造 者用户账户的人。例如,如果某个用户在给定时间段内回答CAPTCHA询问的次数 超过了预定数量时,该用户就会被认定为非真正用户。为防止这类用户,可以采取 某些步骤,诸如,在其询问中提供较长的词汇,提供给他们的询问要比正常情况更 扭曲,以及在极端情况下拒绝这些用户继续访问的。
图3是本发明的一个实施例的流程图,在这个实施例中,生成读取部分和^i正部分。本发明的这部分可以用来生成询问的读取部分和i^i正部分。然而,这是个不 做要求的,例如,可以通过其它来源形成询问的读取部分和i^i正部分,而并非如此
处所述。询问的读取部分和验i正部分可以来自于同一个文件,也可以由不同文件或 除了文件之外的其它源材料中产生。该图所示方法可以归入(例如)存储在系统io 内一个或多个存储设备18内并由系统10内一个或多个处理器16来执行的计算机可
读指令中。
步骤50包括创建文件图像的电子表示形式。这可以(例如)通过使用传统扫描 技术对文件进行扫描来实现。该文件可以是(例如) 一张报纸、一本杂志或上面载 有文字的任何其它文件。另外,本发明也可以与其它形式的文本一起使用。例如, 手写体文本(印刷的和草写的),诸如历史名人的信件和笔记,可以与本发明一起作 为原始资料使用。此外,也可以用不带文字的图像的文件,诸如带有数字、其它符 号或图片的文件。
步骤52包括将文件图像的电子表示形式转换成文件字符的电子表示形式。这可 以(例如)通过传统的OCR技术来实现。在一些实施例中,转换步骤可使用不同 OCR技术来多次进行。转换步骤52还可以至少部分地由人类来实现。原始文件的 图像和文本的电子表现形式可以存储在通过系统10内一台或多台计算机访问的一 个或多个存f,置18内。在其它实施例中,图像和文本的电子表示形式可以存储在 不与系统10相连的存储器18内,并采用多种方式来传输,诸如通过可移动或便携 式存储设备18。
步骤54包括产生代表置信度的措施,即文件字符的电子表现形式与该文件确切 一致。"措旎'系指任何方法,或各种方法的结合形式,用舰置信度进行评估,即 文件字符的电子表示形式与该文件确切一致。这种措施用来将文本的各个部分分隔 成与本发明一起{顿的"已知"部分和"未知"部分。这个措施可以采用OCR禾歸、通
过人工审査,或通过其它手段自动生成。例如,在步骤52iOT不止一个OCR技术 时,不同的OCR技术有时会产生图像同一部分的不同字符或各种字符的结合形式。 在本发明的一个实施例中,当产生一个或多个不同字符时,文本的该部分可以被识 别为是'未知的"。在另一些实施例中,如果其在预定数据库一例如辞典一中不出现 时, 一个字符、 一串字符、或一个词汇都可被识另伪是'未知的"。可以使用各种因 素的结合形式,以及它们可以结合并加权而生成代表置信度的"措施,,即文件字符 电子表示形式与该文件确切一致。步骤56包括将文件字符的至少一部分电子表示形式标明为不具有已知答案,该 己知答案基于代表置信度的措施,即文件字符的电子表示形式与该文件确切一致。
尽管一个文件可以只产生"已知"部分或只产生"未知"部分,这是不太可能的, 而且作为询问资料使用的许多文件或其它原始材料都会产生已知部分和未知部分。 为此,下一个步骤可以与本发明一起使用,尽管并不要求与上述步骤一起使用。
步骤58包括将文件字符的至少一部分电子表示形式标明为带有已知答案,该答
案基于代表置信度的措施,即文件字符的电子表示形式与该文件确切一致。
在本发明的一些实施例中,"未知"部分可以变成为"已知"部分。例如,如果用 户持续给出"未知'部分的相同答案,贝何以改变为"已知"部分并相应使用。同样, 如果对'己知"部分的回答一直是错误的,贝u其可以变为"未知"部分。在文件的一部
分被错误地识别为具有较高置信度时,或者当两个或多个OCR技术犯有相同错误 时,上述后一种情 财有可能发生。
可以使用不同的标准餘'已知"部分改为"未知"部分,或将"未知"部分改为"已 知"部分。例如,可以分别^f顿预定数量的正确或非正确答案,预定比例的正确或非 正确答案,或者其它纟示准。
将"已知"部分改为"未知"部分的另一个方法就是'刷新'询问的用户是否太多。 换句话说,CAPTCHA经常会让用户"刷新'或获得另外一个询问,而无需尝i舒万提 供的第一个询问。这是考虑到除了人可以读取的之外询问已经扭曲的情况。如果这 种刷新次数太多,该询问(或者询问的M部分)可以从系统中移除,交由人工审 査。在某些瞎况下,OCR技术会错误地读取非可读文本(诸如文件上的一个污点), 或者图像上应用的文字扭曲太大,结果,甚至连人类都判读不了。这种情况无助于 通过询问来识别用户为人还是机器人,可以采取步骤来识另拼排除这种情况。
图4是本发明一个实施例的淑呈图,根据这个实施例,询问的答案用5W文件 的电子表示形式给予补充。换句话说,当以前的未知词汇(以前用作询问"读取"部 分的图像)的答案确定时,那么,该答案就可以用来改善曾进行图像扫描的文件的 电子表示形式。然而,这并不意歸该图像不再^顿了。相反,还可以继续将该图 像作为某个询问的斷正部分使用,或者按其它方式使用。此外,本发明的这个方面 不做要求,而且在某些实施例中,可以将未知词汇的答案不再用来补充原始文件。 例如,老的文本可以只用作询问原始材料,而无需将该文件转换成代表该文本的电 子形式。该附图所示方法可以归入(例如)系统10中一个或多个存储设备18内所存储
的并由系统10中一个或多个处理器16所执行的计^t几可读指令中。该方法的这一
部分可以(例如)在用户关于所述询问读取部分的ir入信息是该询问读取部分的答 案后再执行。
在步骤60,以该文件相应图像的电子表示形式,提供用户输入的有关询问读取 部分的信息。换句话说,OCR f歸处理后输出的未知信息可以用"已知'答案来替 代。这样,文件文本的实际文本电子转换就会因为用"已知"材料来取代未知的或有 疑问的材料而得到改善。
在步骤62,指定符合用户输入信息的文件的图像带有已知答案。换句话说,既 然该数据"已知",文本的那部分电子形式就可以从标定的"未知"而转换为"己知"。 当然,总是级种情况,即后来会发现"己知"材料可能是不正确的。在这种情况下, 这些材料可以更新和修正。
原始文件文本的电子形式可以存储在由系统10的一台或多台计算机12访问的 一个或多个存储设备18内。在其它实施例中,原始文件的文本的电子形式可以存储 在不与系统IO相连的存储器18内,而新确定盼'已知"数据可以采用多种方式传输, 诸如经由移动或便携式存储设备18。
图5示出了从书本扫描的文本的一个示例。通过OCR引擎与其相连的ASCII 字符是"*niis aged pntkm at society were distinguished from."本发明可以将该扫描文 本的一部分或全部用作询问的组成部分,以便控制访问系统IO。在将扫描文本用作 询问后,本发明还可以用来识别与图像相符的文本。
图6示出了根据本发明从扫描书本上产生的CAPTCHA图像示例。创建 CAPTCHA图像的方法剤艮多种,此处所示方 封又是示例性的,并不是限制性的。
图7为本发明使用情况的一个实施例,是与光学字符识别("OCR")程序所扫 描的文本结合使用。尽管所示实施例是关于使用文本的可视询问,但相同的普通处 理程序可以与使用非文本的可视询问,或与非可视询问一起使用。
步骤70示出了用作询问资料来源的书或其它文件。该文件可以是需要进行数字 文M换的,或者其可以是不大重要但却可以作为本发明有用原始资料的文件。该 文本可以是(例如)机械印刷的或手写的。
步骤72示出了光学字符识别("OCR")程序或其它处理方法,这些程序用来 将文件70的图像转换为电子形式。OCR程序72还可提供附加处乱诸如确认图像已经正确转换为文本的置信度,以及提供文字图像分离。
步骤74示出了 OCR程序72无》去正确读取的词汇的图像。这禾中图像将与本发 明一起用作询问的读取部分。OCR禾旨72不能正确读取的词汇最终可通过本发明 来识别,并用作询问的验证部分,如下面所述。
步骤76确定特定图像的用户生成的答案是否已知。换句话说,该图像是否以前 曾用作询问的读取部分,如果是这样的话,该图像曾被正确识别的置信度是否足够。
如果确定某^f寺定图像的用户产生的答案是不知的,那么,该图像则会被扭曲 成如步骤78所示,作为询问的读取部分使用。
步骤80示出了所创造的并提供给用户的询问。该询问包括i卖取部分(未知图像) 和验证部分(己知图像)。
步骤82示出了用户输入的信息的处理过程。如果正确回答了询问的验证(或己 知)部分,则假设该询问的读取(或未知)部分是正确的。
步骤84示出了被保留的读取部分的答案。相同图像在确定图像答案是否已知之 前可多次用作询问的读取部分。
再回到步骤76,如果某1^寺定图像的用户产生答案被确定是已知的,那么,该 图像可用作询问的验证部分。
步骤86示出了图像的扭曲情况,该图像现将用作询问的验i正部分。在这个示例 中,步骤86和88所示扭曲形式不同于步骤78和步骤80中同一个词汇的图像的扭 曲方式。例如,这可以防止非人类用户逃避本发明所提供的防护。
步骤88示出了用作询问验证部分图像。在这个实施例中,这个具体询问仅包括 了验i正部分,未包,取部分。在其它实施例中,该询问可以包J歸取部分和^i正 部分,而且,^i正部分可以4顿以前未知但现在已知的图像。
图8示出了根据本发明的系统10的另一个实施例。在该系统中,计算机12/100 由一个未知用户使用,计算机12/102用作该用户希望访问的网络服务器或其它某台 计^t几或系统,计算机12/104则在本发明工作时f顿并称之为"CAPTCHA计算机"。 未知用户的计算机12/100在试图访问寄宿在网站服务器12/102上的网站。 CAPTCHA计^t几12/104持有用作询问的图像、音频文件或其它 资料。网站月艮 务器12/102可以通过(例如)注册CAPTCHA计算机12/104和增加其自己网站的 几行代码的方式来应用本发明,从而使得网站服务器12/102可以访问此前已知询问 (验i正部分)和此前未知询问(读取部分)。本发明的系统10可以用于处理OCR技术不能判读的大量符号。这样,本发明
系统10可以作为一个大规模系统10来实施,该系统(例如)可在旨互联网内提 供所有CAPTCHA中相当大一部分服务。
可以实施许多不同的实施例和不同方式。例如,尽管在所示系统10中示出了一
台CAPTCHA计算机104,但可以使用不止一台CAPTCHA计算机104,以便提供 一个更具分布特点的系统10。在另一些实施例中,不需要单独的CAPTCHA计算 机12/104,相反,网站服务器12/102可以包含根据本发明工作所必需的所有数据, 因此,网站服务器12/102也是CAPTCHA计算机12/104。此外,尽管所示系统10 只示出了一个网站服务器102以及只示出了一台用户计算机100,但系统10可以包 括不止一个网站服务器12/102 (为一个或多个网站服务)和不止一台用户计算机 12/100 (为一个或多个用户服务)。实际上, 一般情况下,本发明可与许多用户12/100 和许多不同网站12/102 —起使用。
本发明也可以采用其它许多不同方式。例如,目前CAPTCHA实施所遇到的一 个主要问風就是视障用户的访问问题,因为这些用户无法阅读文本的扭曲图像。虽 然本发明一般都是围绕视觉询问介绍的,但本发明也包括非视觉询问的应用,因此, 本发明考虑到了提高视障用户的可访问性。特别是,本发明的实施也可以选择采用 音频或其它非视觉方式,而非视觉方式在原则上类似于此处所述视觉方式。例如, 收集声音剪辑(例如,过去的广播节目、录音讲话,或者电视节目),而语音识别软 件不能理解的词汇则用于音步员询问。这样,破解音频询问的人也可以执行字^档 音频文件的任务。这个系统将提高网站的整体可访问性,这些网站目前都没有 CAPTCHA的音频选择方案。
本说明书所公开的系统10具有可访问性的附加优点。通过提高印刷材料的数字 化处理过程,将有助于视障人员更能利用这些文件,因为视障人员无法看至lj扫描页 的图像,但从转录成电子形式的那些文本中受益。例如,在扫描文件转录成ASCII
文件后,视障用户可以通过會,大声阅读AScn文件的程序(已经普遍应用)来访 问这些文件。
针对图8所示实施例,图9为图2所示的确定步骤36的一个实施例流程图。特 别是,尽管确定步骤36可以由接收用户输入信息的计算机12/102皿行,但确定 步骤36 (图2)也可以由另一台计算机12/104至少部分地实施。
步骤106包括了向另一台计算机12/104发送代表用户12/100输入信息的数据的计算机12/102。
步骤108包括接te答信息的计算机12/102,这些应皆信息表示用户12/100输 入的有关询问验证部分的信息是否与询问验证部分的已知答案一致。
图IO示出了本发明的使用情况的一个实施例,在这个实施例中,图像来自一个 文件并用作询问的组成部分。这个实施例以及本文所述其它实施例都是在说明本发 明,并不是限制性的。
总之,文件的一部分文字110用作询问的源材料。该文件可以是JOTOCR扫 描成电子形式的文件,以便通过互联网使用,或其它电子应用形式,或者,是一个 除了作为询问的源材料外未考虑其它用途的文件。在这个实施例中,文件中的大多 数词汇都可以有效扫描,且OCR技术准确地将这些词汇的图像转换成代表性文本。 然而,至少一个词汇112未能被OCR ,歸准确识别。这个文字112就是'moming (早晨)",尽管该词汇112的图像不足以让OCR正确读取。该词汇112被认定为 OCR禾聘无法识别的词汇,因此,是一个可作为询问4顿附艮好的候选词汇。该词 汇114的图像魏过线条和其它方式扭曲的,它被作为由"读取"和^i正两锦分组 成的询问116的"读取"部分而呈现给用户。因为OCR技术未能识别出"moming (早 晨)",单词"upon (在..丄面)"作为验证词汇也在询问中出现,目的是确定用户
是否输入正确答案。
下面,详细介绍这个实施例。我们首先从扫描页110的图像开始介绍。两个不 同的OCR禾旨在图像110上运行,其各自输出信息彼此比较并与英文词典进行比 较。两个OCR禾聘识别为不同的或者英文词典没有的任何词汇112,都会标注为"可 疑,词汇。这些词汇通常都是OCR,聘未能正确识别的词汇。然后,这些可疑词汇 112中的每一个词汇都会置于一个图j象上,再次扭曲,并随同己知答案的另一个词 汇一起用作CAPTCHA询问116的组成部分。
为了降低自动化禾號随意猜想正确答案的概论,衞正词汇的^ffi频率在统一, 所以,例如,单词"you"和"abridged"的出现概率相同。此外,为了说明是人工體, 每个可疑的词汇都被发送给多个不同用户。首先,它是作为一个读取文字显示的。 如果用户输入的相关衞正词汇的答案正确,该用户的另一个答案则会作为读取词汇 的似乎有理的猜想被记载下来。 一旦某个词汇被系统认为是似乎有理的猜想,该词 汇则会作为其它询问中的斷正词汇来4顿。斷正词汇的答案用来获,雜 匕前人类 猜想的进一步置信度。例如,如果前两次人类猜想彼此一致,那么该词汇就会被标明识别正确,并会从系统10中撤出。如果在人类用户给出的答案之间出现不一致时, 本发明会将该词汇发送给更多的人,并挑出"得票数,最多的答案,即,人给出的每 个答案记作一个投票,而OCR给出每个猜想则记作半个投票。如果答案之间没有 出现大多数得票,则该词汇再发送给更多用户,直到出现大多数得票为止。确定读 取词汇被正确识另啲时间的具体瞎况是变化的,例如,根据确定读取词汇被正确识 别的时间而所要求的确信度,在不同应用情况下,标准会不同。
文本中所有可疑词汇都被系统辨认后,还要应用一个后处理步骤。因为人类用
户会犯许多小的但可以预观啲错误,为此,这个处理是必要的。许多用户输入询问 内的两个词汇时不空一格,或者省略大写和标点符号。此外,使用不同键盘布置的 人常常会输入意料不到的字符,例如,土耳其人常常会输入字符"1"(顶上无点),
而不是输入"i"。另外,用户^fiJ作打字稿,诸如置换字符,这也慰艮常见的王膽。
劍门魏过多种方式说明这離误。首先,我们将一系列转换应用妾,户的最初输
入上。例如,如果输入时没有^ffi空格,劍门^i式图通过将其中一个词汇作为一个
子串来匹配以确定空格在什么位置。其次,在调整多个用户的输入信息时,劍门应 考虑典型的人工误差,诸如小写字母、置换字符以及用鹏上附近的另一个字f辣 取代一个字符。第三,使用"书本专用"单词汇频率来确定某个词汇猜想的最大可能 性。还有,可以接受的错误范围是变化的,很可能会因为用途不同以及应用标准不
同而不同。
本发明已经作为一种操作系统10来实施,这已使得我们可收集许多使用结果。 通aj3a^teEfen^^f共一个免费的CAPTCHA网站服务,从而可以有效利用。 参看图8,要求保护防止自动滥用的网站102可以获得一个免费而可靠的CAPTCHA 实施方式。网站102业主在其网站102上简单地增加HTML代码,显示从我们服务 器104处直接获得的CAPTCHA询问图像。当用户100输入了 CAPTCHA询问的 答案时,网站102就会接触劍门的服务器104来确定该答案是否为所显示谜团的正 确答案。在2007年5月25日,开始^ffl reCAPTCHA服务。自那时起,10000多 个网站已经开始f顿这项月艮务,到2007年11月25日,系统每天收到300多万个 CAPTCHA询问的答案。
第一个发现是,使用CAPTCHA禾MJ^识别单词汇的准确程度等同于单独输入文 本的两个录入者。从存档的五个不同年份(1860,1865,1908,1935和1970)的纽约 日射艮(h加:〃nvtim謡m)中随ai^择了 50篇扫描文章样品并进行手工抄录,目的是在逐个单词汇的基础上i啊古通过本发明识别未知词汇的准确性。如果该算法正确 地辨认了旨词汇,每个词汇被视为一个"Wt (得分)",而如果任何字母有错,则 每个词汇被视为一次'miss (失分)"。从中可以看出,错误率的确定是失分数除以 总词汇数。为了与标准OCR禾號的错误率进行比较,通过相同禾號对OCR的结果 进行了测试。
本发明在单词级别上可以达到99.5%以上的准确率,而标准的OCR程序的7隹确 率仅为82%。 99.5%的准确率等于使用"密钥和验证"转录技术的准确率,S卩两个专 业抄录人#^虫输入的数据。有趣的是,文章的人工抄录(为了测量本发明的准确度, 这些文章*跌集作为"真实基破')原来出现的错误率要大于本发明所出现的错误率。 本发明可以达至啲准确率可与两个人#4虫抄录的准确對目比,这个瞎况和我们的直 觉正好相反,其原因包括如下两点。首先,人工抄录者可以利用前后文之间的关系 (紧靠其前后的文字),而本发明所呈现的词汇则是它们本身所显示的。第二,只有 "可疑"的词汇与本发明一起4顿,这意P縛两个不同的OCR禾將和一个词典的应用 足以以很高的概率确定OCR不能正确辨认的那些词汇。
另一个发现是,本发明构成了一种可行的机制,可获得大量人类脑力劳动情况。 在根据本发明的系统10运行仅仅六个月后,人类已经破解了 2亿5千万多个 CAPTCHA,正确辨认了1亿5千万多个可疑词汇。假设每本书10万词汇,这相当 于手工抄录了 7500多本书(根据我们计算, 一本书中大约20%的词汇被标为可疑 词汇)。系统10继续很^X火迎,转录率目前每天150万可疑词汇以上,大约每天75 本书。通过传统手段实现这^I率需要500多人每周40个小时辨认词汇的工作队伍。
首先,与产生其自己的随意扭曲字符的传统CAPTCHA相比,其更可靠。可以 建立能够读取由大多数现有技术CAPTCHA产生的扭曲文本的算法。例如,参见 K. Chellapilla, P. Y Simard, ^顿机器知识来破解视觉人类互动^i正(HIP) (Using Machine Learning to Break Visual Human Interaction Proofs (HIPs))。神经信息处理系统 第18届年会(Eighteenth Annual Conference on Neural Information Processing Systems), HEPS2004 ; G Mori, J. Malik.对抗杂线中物体的识别破解视觉 GAPTGHA(Recognizing Objects in Adversariial Clutter: Breaking a Visual CAPTGHA); 正EE计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition), CVPR2003,第134-144页,以及A. Thayananthan, B. Stenger, P. H. S. Torr, R. Cipolla:形状上下文和复杂背景下的倒角匹配(Shape Context and ChamferMatching in Cluttered Scenes),正EE计^^几视觉与模式识别会议(DBEE Conference on Computer Vision and Recognition), CVPR2003,第127-133页。这方面的一个主要原 因是,已有技术CAFTCHA中字符的人工扭曲来自于可能变换的有限分布。因此, 粒机器学习算法是可行的,艮卩在经过一定培训后,就可以识别扭曲字符。另一方 面,本发明所显示的词汇带有两种类型的扭曲。首先,也是最重要的,自然扭曲来 自于随着时间推移己经褪色的基本文本,以及来自于扫描过程中的噪声所致。第二 存在人工变换类似于已有技术CAPTCHA所使用的那些变换。为此,本发明的扭曲 分布在很大程度上限制很少,而且,更3佳采用机器学习算纟^捕获。此外,本发明 仅显示OCR禾骄可能识别不了的词汇。实际上,这些都是计^l几":^佳破解"的词汇, 因此,也是识别用户是人还是机器人的可能最有效的方式。
采用本发明的网站的第二个理由是,虽然本发明提供了两个词汇,而不只是一 个词汇,但对于用户来讲,破解本发明中的询问所花费的时间并不多于破解现有技 术CAPTCHA。现有技术CAPTCHA提供了6到8个随t腿择的字符,其输入所花 费的时间等于输入两个英文词汇。
如前BM,本发明还可以作为音频询问来实施,以适用于视障用户。盲人使用"屏 幕阅读器"来浏览网站,"屏幕阅读器"是阅读呈现给用户的屏幕内容的程序。因为屏 幕阅读器本身是程序,顾名思义,它们不能阅读呈现给其用户的已有技术的 CAPTCHAo为此,基于扭曲词汇的己有技术CAPTCHA使f射见障人群无法自由浏 览网站。尽管已有技术CAPTCHA的大多数实施方式都忽略了这个问题,但本发明 可以让用户听到音频询问。例如,音频询问可以是一种带有8个随机扭曲的数字的 声音剪辑,当然也可以^柳多于8个或少于8个数字的声音剪辑。这些数字来自于 专门为此目的而录审啲装载许多数字的数字库,或者来自于其它音频材料,其采用 的方式类似于使用文件作为视觉询问资料来源的方式。根据本发明的音频 CAPTCHA也可以实施,也旨gii行语音转录。同样,与视觉CAPTCHA用来转录文 本的方式相同,音频CAPTCHA可以用来转录话音。虽然自动语音识别技术发展很 快,但获得近乎完善准确性的唯一方法还是人。
此处所提供的结果仅仅证明了一个更普遍的想法船"浪费"的人工处理能力 可以用来解决计算机尚不能解决的问题。在以前的工作中,己经表明,这种处理能 力通过计穀几游戏而获得人们磁些游戏,结果,集体执行了计算机尚未执行的 任务。例如,参见L.vonAhn的"有意义的游戏"(GamesWithAPurpose),正EE计算机杂志,2006年6月,第96-98页;L. vonAhn,L.Dabbish的"用电子游戏为图片加 f蔬"(Labeling Images with a Computer Game),美国计算机协会有关计算系统中人的 因素的^i义,CHI2004,第319-326页;以及L. vonAhn,R.Liu,M.Blum.Peekaboom: 图片中目标定位的游戏(A Game for Locating Objects in Images),美国计算机协会有 关计算系统中人的因素的^i义,CHI2006,第55-64页。此处,我们说明了 CAPTCHA 构成了"再次《顿"浪费的计算能力的另一种方法。 一个相关的但不同的工作领域就 是ASIRRA (限制进A^动物影像辨识)(J. Elson, J. Douceur, J. Howell. Asirra: —种 与兴趣相关联的人工图像分类的CAPTCHA (A CAPTCHA that Exploits Interest —Aligned Manual Image Categorization),美国计^^几协^i十算机和通信安全^i义,CCS 2007),其介绍了 CAPTCHA可以用于人道主义目的。在他们的系统中,向用户提 供了猫和狗的图片,用户必须确定那些是猫,那些是狗。这种人道主义做法是,这 些图片来自动物it)i所如果用户喜欢这些猫或狗中其中的一个,他们贝何以领养 它们。
尽管本发明一般来讲都是就具体实施例和实施方式来描述的,但本发明可适用 于许多其它不同方式和实施例。本发明的这些和其它不同方式和修改是可以的并且 是能构想到的,而且,意图是上述说明和所附权利要求都覆盖了这些修改范围和不 同实施方式。
权利要求
1、一种控制访问系统(12,102)的方法,其包括向系统(12,102)的用户产生(30)一个询问,其中,该询问包括该询问的已知答案的验证部分;以及该询问的未知答案的读取部分;提示(32)用户破解该询问的验证部分和该询问的读取部分;接收(34)来自用户的输入信息;确定(36)用户关于该询问验证部分的输入信息是否与该询问验证部分的已知答案相一致;以及如果用户关于该询问验证部分的输入信息与该询问验证部分的已知答案一致时,从用户关于该询问的读取部分中将输入信息识别(38)为该询问的读取部分的答案。
2、 根据权利要求1所述的方法,其中,确定(36)用户关于该询问验证部分的输入信息是否与该询问验i正部分的已知答案相一致,该步骤包括向另一台计^m (12, 104)发送(104)代表自用户处收至啲输入信息的 数据;接收(106)表示确定步骤的应答4言息,即确定用户关于该询问验证部分的 输入信息是否与该询问验证部分的已知答案相一致。
3、 根据权利要求1所述的方法,如果用户关于该询问验证部分的输入信息与该询 问衞正部分的己矢口答案一致时,进一步包括允许(40)用户访问计算机系统(12, 102)。
4、 根据权利要求3戶脱的方法,进一步包括允许(40)用户访问计^m系统(12, 102),无需确定用户关于该询问读取部分的输入信息是否正确。
5、 根据权利要求1所述的方法,进一步包括修正该询问验i正部分和该询问读取部 分中至少一个的至少一个明显特性。
6、 根据权利要求1所述的方法,其中,该询问是多个字符的图像。
7、 根据权利要求1所述的方法,在产生一个询问前,进一步包括创建(50) —个文件图像的电子表示形式;将该文件的图像的电子表示形式转换(52)为该文件的字符的电子表示形式;产生(54)代表置信度的措施,即该文件的字符的电子表示形式与该文件 确切一致;指定(56)该文件的字符的至少一部分电子表示形式不具有基于代表置信 度的措施的已知答案,即该文件的字符的电子表示形式与该文件确切一致。
8、 根据权利要求7所述的方法,在产生(54) —个措施后,进一步包括确定(58) 该文件的字符的至少一部分电子表现形式具有基于代表置信度的措施的已知答 案,即该文件的字符的电子表示形式与该文件确切一致。
9、 根据权利要求1所述的方法,其中,该询问包括音响录音。
10、 根据权利要求1戶腿的方法,其中,该询问的读取部分在该询问的衞正部分之 前出现。
11、 根据权利要求1戶腿的方法,其中,该询问的斷正部分在该询问的读取部分之 前出现。
12、 根据权利要求7戶舰的方法,如果用户关于该询问的飽正部分的输入信息与该 询问的验i正部分的己知答案一致时,在确定(38)用户关于该询问的读取部分 的输入信息为该询问的读取部分的答案后,进一步包括以该文件的相应图像的电子表示形式,提供(60)用户的关于该询问的读 取部分的输入信息;指定(62)符合用户输入信息的该文件的图像具有已知答案。
13、 计算机可读指令,在由处理器(16)执行时,这些指令可让处理器(16)执行 如下工作产生(30) —个纟封十算机系统(10)用户的询问,其中,该询问包括该询问的已知答案的i^i正部分;该询问的未知答案的读取部分; 提示(32)用户破解该询问的验i正部分和该询问的读取部分; 接收(34)来自用户的输入信息;确定(36)用户关于该询问验^E部分的输入信息是否与该询问验证部分的 己知答案相一致;如果用户的关于该询问验证部分的输入信息与该询问验证部分的已知答案 一致时,从用户的关于该询问的读取部分中将输入信息认定(38)为该询问的 读取部分的答案。
14、 根据权利要求13所述的计算机可读指令,在产生(30) —个询问前,进一步包 括创建(50) —个文件的图像的电子表示形式;将该文件的图像的电子表示形式转换(52)为该文件的字符的电子表示形式;产生(54)代表置信度的一个措施,即该文件的字符的电子表示形式与该 文件确切一致。
15、 根据权利要求14所述的计^a可读指令,在产生(54) —个措施后,进一步包 括确定该文件的字符的至少一部分电子表示形式为带有一个基于代表置信度 的措施的己知答案,即该文件的字符的电子表示形式与该文件确切一致。
16、 根据权利要求14所述的计算机可读指令,如果用户关于该询问的验i正部分的输 入信息与该询问的验证部分的已知答案一致,在确定(38)用户关于该询问的 读取部分的输入信息作为该询问的读取部分的答案后,进一步包括以该文件的相应图像的电子表示形式,提供(60)用户关于该询问的读耳又 部分的输入信息;指定(62)符合用户f俞入信息的该文件的图像为带有已知答案。
17、 根据权禾腰求13戶腿的计算机可读指令,其中,计算机可读指令体现在计^a可读媒体上。
18、 一个系统(10),其包括一个网络(14); 多台计算机(12),其中至少其中一台计算机(12,100)正在由试图^A系统(10)内另一台计算机(12,102)的用户使用;至少其中一台计算机(12,102)包括处理器(16)和存储器(18),而且, 其中,存储器(18)包括计算机可读指令,这些指令在由处理器(16)执行时 会让处理器(16)执行如下工作向用户正在使用的计算机(12,100)产生一个询问,其中,该询问包括 该询问的已知答案的^i正部分; 该询问的未知答案的读取部分;提示用户的计算机(12,100)破解该询问的验证部分和该询问的读取 部分;接收来自用户的计算机(12,102)的输入信息;确定(36)用户的计算机(12,102)关于该询问的验证部分的输入信 息是否与该询问的验证部分的已知答案相一致;如果用户的计算机(12,102)关于该询问的验证部分的输入信息与该 询问的^i正部分的已知答案相一致时,/細户的计^tL (12,102)关于该 询问的读取部分中将输入信息认定(38)为该询问的读取部分的答案。
19、 根据权利要求18所述的系统(10),进一步包括装有处理器(16)和存储器(18) 的计^m (12),其中,戶诚存储器(18)包括计^l几可读指令,这些指令在由 处理器(16)执行时会让处理器(16)执行如下工作仓健(50) —个文件的图像的电子表示形式;将该文件的图像的电子表示形式转换(52)为该文件的字符电子表示形式; 产生(54) —个代表置信度的措施,即所述文件的字符的电子表示形式与 该文件确切一致;指定(56)所述文件的字符的至少一部分电子表示形式不具有基于代表所 述置信度的措施的已知答案,即所述文件的字符的电子表示形式与所述文件确切一致。
20、 根据权利要求19所述的系统(10),其中,创建(50)、转换(52),产生(54) 和指定(56)都是在生成(30) —个询问之前进行。
21、 根据权利要求19所述的系统(10),其中,至少其中一台计算机(12)包括处 理器(16)和存储器(18),而且其中,该存储器(18)包括计算机可读指令, 这些指令在由处理器(16)执行时会让处理器(16)执行如下工作以该文件的相应图像的电子表示形式,提供(60)用户的计算机(12,100) 关于该询问读取部分的输入信息;指定(62)对应于用户计算机(12,100)输入信息的文件的图像具有已知答案。
22、 根据权利要求21所述的系统(10),其中,如果用户计算机(12,100)关于该 询问验证部分的输入信息与该询问验证部分的已知答案一致时,从用户计算机(12,100)关于该询问的读取部分中将输入信息识别(38)为该询问读取部分 的答案后,实施提供(60)和指定(62)步骤。
全文摘要
控制访问计算机系统(12)和注释媒体文件的方法和装置。一个实施例包括一种方法,该方法包括向用户产生(30)一个询问,其中,该询问包括一个验证部分和一个读取部分。所述方法还包括提示(32)用户破解该询问的验证部分和该询问的读取部分;接收(34)来自用户的输入信息;确定(36)用户关于该询问验证部分的输入信息是否与该询问验证部分的已知答案相一致;以及如果用户关于该询问验证部分的输入信息与该询问验证部分的已知答案一致时,从用户关于该询问的读取部分中将输入信息识别(38)为该询问的读取部分的答案。
文档编号G06F17/30GK101622620SQ200880002917
公开日2010年1月6日 申请日期2008年1月23日 优先权日2007年1月23日
发明者卢斯·范恩, 本杰明·D.·茂尔, 迈纽尔·布拉姆 申请人:卡内基梅隆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1