新兴缺陷和安全监视系统的制作方法

文档序号:16050756发布日期:2018-11-24 11:15阅读:151来源:国知局
这是2016年4月5日提交的、题名为“emergingdefectandsafetysurveillancesystem”的美国临时申请no.62/318,663的非临时申请,其全部内容通过引用并入本文中。发明的背景(1)
技术领域
:本发明涉及一种用于识别商业产品中的缺陷和安全问题的系统,并且更具体地说,涉及一种用于通过连续监测在线数据来识别商业产品中的缺陷和安全问题的系统。(2)
背景技术
:使用在线用户生成数据来识别新兴事件的任务以前已由研究人员使用多种方法来解决。由于数据的时间性质,该任务对于其它挖掘任务显示出了额外的挑战(参见并入参考文献列表,参考文献no.3)。最近有关该主题的工作倾向于重点关注来自社交媒体网站twitter的特定数据挖掘。通常来说,针对此任务的方法尝试利用文本特征和时间信息以及从数据引发的网络结构来检测新兴事件(参见参考文献no.3和no.5)。然而,当过滤到商业产品(例如,车辆)级缺陷发现时,弗吉尼亚理工学院和州立大学(virginiatech)的一组研究人员已经进行了关于该主题的唯一先前发表的工作。该小组专注于分析web论坛数据。该小组就这一主题创作了一系列论文。在初始论文中(参见参考文献no.2),三个汽车web论坛被抓取(scraped)以获取与产品缺陷相关的信息。雇用由毕业生和本科生组成的小组以从每个论坛手动标记1500个线程,以获取有关潜在车辆缺陷以及缺陷的潜在严重性的信息。研究人员得出结论,情绪分析对于分析论坛数据和预测车辆缺陷是无效的,而相反产生了在车辆缺陷相关的帖子中更为普遍的“汽车烟雾词(automotivesmokewords)”的列表。建议使用这些烟雾词过滤出可以被用于识别未知缺陷或未来召回事件的论坛帖子。参考文献no.1稍微不那么热门,并且仅关注使用自动化方法在汽车web论坛中选择具有所提及车辆部件类别的用户发布的问题。参考文献no.1中提到的技术可能是未来所关注的,但只是识别有关车辆缺陷的新兴事件的总体任务的附件。最近的出版物(参见参考文献no.11)涉及使用参考文献no.2中的烟雾词,以及其它文本特征,来使用机器学习技术预测未来召回。作者尝试预测针对一给定车型的召回是否会在一给定年内发生。由于对通常提供用于评估分类任务性能的许多指标的遗漏或模糊报告,因而,分类器的性能很难完全评估。尽管如此,基于所提供的报告以及车辆被召回与未被召回的年份比例,认为参考文献no.11中公开的系统将产生许多误报,导致这对于终端用户来说是有问题的。此外,未训练分类器来预测部件级的召回(即,它们不会尝试预测哪个部件将被召回)。相反的是,可能被召回的部件的建议根据它们在所标记论坛帖子中提及的频率来生成。根据在参考文献no.11中提供的图,观察到虽然可能被召回的建议部件与被召回的实际部件存在一些交叠,但交叠的量非常有限,而且大多数建议都是无关的。因此,再次地,这种方法对于终端用户来说不是有效的。总之,以前关于商业产品(例如,车辆)缺陷发现的工作受限于上述研究小组(参考文献no.2)。该工作受限,而且仅将web论坛数据作为数据源进行探索。因此,持续需要一种使用社交媒体和其它形式的在线数据来预测未知缺陷和召回的存在的系统。技术实现要素:本发明涉及一种用于识别商业产品中的缺陷和安全问题的系统,并且更具体地说,涉及一种用于通过连续监测在线数据来识别商业产品中的缺陷和安全问题的系统。所述系统包括一个或更多个处理器和编码有可执行指令的非暂时性计算机可读介质,使得当执行所述可执行指令时,所述一个或更多个处理器执行多个操作。所述系统融合从一组异类数据源提取的数据,根据融合后的数据来识别一组消费品数据。根据所述一组消费品数据,生成与多个消费品有关的消费者问题的基线分布。针对特定消费品,根据所述基线分布确定偏差值。最后,基于所述偏差值,识别针对有关所述特定消费品的将来消费者问题的至少一个指示符。将所述至少一个指示符报告给系统分析员。在另一方面,所述消费者问题是安全和/或缺陷投诉。在另一方面,所述系统针对多个消费品并且针对特定消费品,确定估计概率质量函数(pmf)值。聚合估计pmf值,并且将至少一个估计pmf值用作消费品缺陷和/或潜在召回事件的指示符。在另一方面,将多个消费者问题建模为二项分布,并且进行二项测试,在所述二项测试中,低分数表示消费品缺陷和/或潜在召回事件。在另一方面,所述一组异类数据源包括论坛数据、来自内容聚合站点的信息、在线社交媒体以及在线投诉资源中的至少两个。在另一方面,识别有关车辆缺陷和安全的紧急事件。在另一方面,所述至少一个指示符是下降的车辆发动机效率。最后,本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令可由具有一个或更多个处理器的计算机来执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的动作。附图说明根据下面结合参照附图对本发明各个方面的详细描述,本发明的目的、特征以及优点将更清楚,在附图中:图1是描绘根据本公开的一些实施方式的、用于识别商业产品中的缺陷和安全问题的系统的部件的框图;图2是根据本公开的一些实施方式的计算机程序产品的图;图3是例示根据本公开的一些实施方式的、用于识别商业产品中的缺陷和安全问题的系统的流程图;图4例示了根据本公开的一些实施方式的、从汽车论坛爬取的子论坛列表;图5例示了根据本公开的一些实施方式的、用于提取与车辆安全和缺陷相关的推文(tweet)的关键字列表;图6是例示根据本公开的一些实施方式的、twitter共同提及的车辆品牌和火灾相关关键术语的曲线图;图7是例示根据本公开的一些实施方式的、twitter共同提及的特定车辆品牌和车辆部件术语的曲线图;图8例示了根据本公开的实施方式的统计估计模块的概述;图9是例示根据本公开的一些实施方式的按量值排序的所计算p值的曲线图;图10是根据本公开的一些实施方式的、通过所观察频率的差异来例示针对车辆的二十个最有问题的消费者问题的表格;图11是根据本公开的一些实施方式的、通过二项测试来例示针对车辆的二十个最有问题的消费者问题的表格;以及图12是根据本公开的一些实施方式的、示出来自在线社交媒体和消费者报告站点的分析结果的仪表板的图。具体实施方式本发明涉及一种用于识别商业产品中的缺陷和安全问题的系统,并且更具体地说,涉及一种用于通过连续监测在线数据来识别商业产品中的缺陷和安全问题的系统。呈现以下描述以使本领域普通技术人员能够进行和使用本发明并将其并入特定应用的背景中。各种修改例以及不同应用方面的多种用途对于本领域技术人员来说是显而易见的,并且本文定义的一般原理可以被应用于广泛的方面。因此,本发明不旨在限于所呈现的方面,而是符合与本文所公开原理和新颖特征相一致的最广范围。在下面的详细描述中,阐述了许多具体细节,以便提供对本发明的更详尽理解。然而,本领域技术人员应当明白,本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下,公知结构和装置以框图形式而不是详细示出,以便避免使本发明模糊。将读者的注意引向与本说明书同时提交的所有文件和文档,并且所述文件和文档可以利用本说明书开放以供公众查阅,所有这些文件和文档的内容通过引用并入本文中。本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以用起到相同作用、等同或相似目的的另选特征来代替,除非另外加以明确规定。因此,除非另外加以明确规定。所公开的每个特征仅仅是通用系列的等同或相似特征中的一个示例。此外,权利要求书中没有明确陈述“用于”执行指定功能“的装置”或“用于”执行特定功能“的步骤”的任何元素不被解释为如在35u.s.c.section112,paragraph6中规定的“装置”或“步骤”条款。具体地说,在本文的权利要求书中使用“…的步骤”或“……的动作”不旨在援引35u.s.c.112,paragraph6的规定。在详细描述本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明各个主要方面的描述。随后,介绍向读者提供了对本发明的一般理解。最后,提供本发明各个实施方式的具体细节以给出对具体方面的理解。(1)并入参考文献的列表贯穿本申请引用且并入以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入本文,就像在此完全陈述的一样。这些参考文献通过参照如下对应文献参考号而在本申请中被引用。1.a,s,abrahams,j.jiao,w.fan,g.a.wang,andz.zhang.what’sbuzzingintheblizzardofbuzz?automotivecomponentisolationinsocialmediapostings.decisionsupportsystems,55(4):871-882,2013.2.a.s.abrahams,j.jiao,g.a.wang,andw.fan.vehicledefectdiscoveryfromsocialmedia.decisionsupportsystems,54(1):87-97,2012.3.c.c.aggarwalandk.subbian.eventdetectioninsocialsteams.insdm,volume12,pages624-635.siam,2012.4.h.becker,m.naaman,andl.gravano.beyondtrendingtopics:real-worldeventidentificationontwitter.icwsm,11:438-441,2011.5.m.cataldi,l.dicaro,andc.schifanella.emergingtopicdetectionontwitterbasedontemporalandsocialtermsevaluation.inproceedingsofthetenthinternationalworkshoponmultimediadatamining,page4.acm,2010.6.r.compton,d.jurgens,andd.allen.geotaggingonehundredmilliontwitteraccountswithtotalvariationminimization,in2014ieeeinternationalconferenceonbigdata,bigdata2014,washington,dc,usa,october27-30,2014,pages393-401,2014.7.h.kwak,c.lee,h.park,ands.moon.whatistwitter,asocialnetworkoranewsmedia?inproceedingsofthe19thinternationalconferenceonworldwideweb,www’10,pages591-600,newyork,ny,usa,2010.acm.8.m.mathioudakisandn.koudas.twittermonitor:trenddetectionoverthetwitterstream.inproceedingsofthe2010acmsigmodinternationalconferenceonmanagementofdata,pages1155-1158.acm,2010.9.t.sakaki,m.okazaki,andy.matsuo.earthquakeshakestwitterusers;real-timeeventdetectionbysocialsensors.inproceedingsofthe19thinternationalconferenceonworldwideweb,www’10,pages851-860,newyork,ny,usa,210.acm.10.j.wengandb.-s.lee.eventdetectionintwitter.icwsm,11:401-408,2011.11.x.zhang,s.niu,d.zhang,g.a.wang,andw.fan.predictingvehiclerecallswithuser-generatedcontents;atextminingapproach.inintelligenceandsecurityinformatics-pacificasiaworkshop,paisi2015,hochiminhcity,vietnam,may19,2015.proceedings,pages41-50,2015.(2)主要方面本发明的各个实施方式包括三个“主要”方面。第一方面是一种用于识别商业产品中的缺陷和安全问题的系统。该系统通常以计算机系统操作软件的形式或以“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是通常以软件的形式使用数据处理系统(计算机)进行操作的一种方法。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在诸如光学存储装置(例如,光盘(cd)或数字万用盘(dvd))或诸如软盘或磁带的磁存储装置的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制示例包括:硬盘、只读存储器(rom),以及闪存型存储器。这些方面将在下面被更详细地描述。图1中提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,所述指令使计算机系统100执行特定动作并展现特定行为,如本文所描述的。计算机系统100可以包括被配置成传送信息的地址/数据总线12。另外,一个或更多个数据处理单元(诸如,处理器104(或多个处理器)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如,并行处理器、专用集成电路(asic)、可编程逻辑阵列(pla)、复杂可编程逻辑器件(cpld)或现场可编程门阵列(fpga)。计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储单元106(例如,随机存取存储器(“ram”)、静态ram、动态ram等),其中,易失性存储单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储单元108(例如,只读存储器(“rom”)、可编程rom(“prom”)、可擦除可编程rom(“eprom”)、电可擦除可编程rom(“eeprom”)、闪速存储器等),其中,非易失性存储单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元获得的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如,接口110)。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统接口连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是字母数字输入装置(诸如,键盘),其可以包括字母数字和/或功能键。另选地,输入装置112可以是除字母数字输入装置之外的其它输入装置。在一方面,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面,光标控制装置114使用诸如鼠标、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现。前述尽管如此,但在一方面,诸如响应于与输入装置112相关联的特殊键和键序列命令的使用,光标控制装置114经由来自输入装置112的输入而被引导和/或激活。在另选方面,光标控制装置114被配置成通过语音命令指引或引导。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储装置(诸如,存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“hdd”)、软盘、光盘只读存储器(“cd-rom”)、数字万用盘(“dvd”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一方面,显示装置118可以包括阴极射线管(“crt”)、液晶显示器(“lcd”)、场发射显示器(“fed”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制示例并不严格受限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用由计算机执行的计算机可执行指令(诸如,程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方案中,这样的程序模块包括被设置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外,一方面提供了本技术的一个或更多个方面通过利用一个或更多个分布式计算环境(诸如任务由通过通信网络链接的远程处理装置执行的环境,或者诸如各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中的环境)来实现。图2中描绘了具体实施本发明的计算机程序产品(即,存储装置)的例示图。该计算机程序产品被描绘为软盘200或诸如cd或dvd的光盘202。然而,如先前提到,该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常表示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个分离软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。该“指令”被存储在任何非暂时性计算机可读介质上(诸如,存储在计算机的存储器中或软盘、cd-rom以及闪存驱动器上)。无论如何,这些指令被编码在非暂时性计算机可读介质上。(3)介绍描述了一种自动化系统,该自动化系统通过连续收集和监测公开可用的在线数据来识别有关商业产品(例如,车辆)缺陷和相关安全问题的新兴趋势。根据本公开的实施方式的系统提供了一种用于整合异类开源数据(其包括社交媒体、汽车爱好者论坛以及在线消费者报告站点)的智能数据收集模块。基于所收集的数据,该系统提供伴随车辆的任何正在发生的消费者问题(诸如,与召回有关的那些问题)的实时检测。更重要的是,本文描述的系统能够在新兴安全相关趋势在向普通公众普及之前识别针对它们的早期指示符。这是通过统计方法实现的,该方法根据异类数据源估计观察车辆缺陷部件的基线分布,并随后识别不规则性。还描述了web界面来演示整个集成系统。关于采用在线数据来分析和预测车辆召回以及与车辆缺陷有关的其它事件的先前工作仅集中在web论坛数据上。本文描述的系统超越了现有技术,采用来自多个异类源的数据,除了收集传统web论坛数据以外,还收集来自内容聚合站点(例如,reddit)、社交网络服务(例如,twitter)以及主题在线投诉资源(例如,汽车投诉网站)的信息。利用多个不同的数据源有许多优势。一个直接的优势是,这些站点具有不同的用户基础,允许人们从不同人群收集信息。另一个优势是,所利用的新资源中的一些允许人们收集更高质量的数据,因为所收集的信息立即针对给定问题,并且具有关于潜在问题的高度详细信息。这样的数据允许人们执行超出先前研究人员所进行的分析。显著地,根据本公开的实施方式的系统允许终端用户通过采用通过从多个在线源收集数据而获得的信息来监测车辆缺陷的影响。该系统使得人们能够将棘手的问题精确定位到特定车辆型号、年份以及一般类别车辆部件(例如,发动机问题、燃料系统问题)的水平。下面,将对这些方面中的每一个进行详细描述。(4)各个实施方式的具体细节图3描绘了形成本文所述系统的核心的部件。如上所述,根据本公开的实施方式的系统通过从多个异类在线源302捕获数据来执行实时事件和新兴趋势的检测(元素300)。在一个实施方式中,该系统检测并评估有问题的车辆缺陷和潜在的未来车辆召回。异类在线源302范围从传统web论坛数据(例如,车辆论坛304)到社交网络服务(即,在线社交媒体306)、内容聚合站点308、消费者报告站点310以及其它源312(例如,企业数据)。来自不同异类在线源302的所收集的信息被融合在一起以提供关于与分析员相关的潜在召回的多个级别的信息。有关来自消费者报告站点310的数据的统计分析是用于识别关于车辆缺陷和车辆安全的紧急事件的主要方法(元素300)。来自异类在线源302的其它信息源被用于补充该数据以提供有关问题性质的附加信息。(4.1)智能数据收集(4.1.1)在线社交媒体(元素306)已经表明在线社交媒体306和微博平台在真实世界事件跟踪和监测中是有用的。具体来说,twitter被表明非常相关,正如其已经在文献中进行了广泛研究(参见参考文献no.4和no.7-9)。出于本文所述发明的目的,twitter数据经由订阅gnipltwitterdecahose服务来获得,其包含10%的随机公共推文样本。gnip数据流被实时递送至根据本公开的实施方式的系统,并被存储在跨多节点和多核集群部署的haddop分布式文件系统中,该haddop分布式文件系统具有太字节规模的组合存储器。例如,可以利用具有1824个中央处理单元(cpu)核心、3520千兆字节(3.52太字节(tb))的组合存储器以及总计超过1.2拍字节(pb)的数据存储部的多核计算集群。(4.1.2)论坛(元素304)除了在线社交媒体302,还从供汽车爱好者和汽车故障排除的web论坛304获得数据。构建网络爬虫(webcrawler)314,其能够从包含在所有感兴趣的子论坛中的web论坛304(和异类在线源302)提取所有先前的帖子。还捕获附件信息(诸如,发布时间、用户名以及线程标题)。然后将该数据以标准化格式存储以供将来用于终端用户。网络爬虫314能够选择性地爬行各个子论坛,并且可以通过命令行提示单独运行。另外,在网络爬虫314中爬行不同的论坛线程之间可以并入可选延迟,以防止由于来自一个源的大流量而导致的因特网协议(ip)地址的可能阻塞。网络爬虫314已经被用于成功收集来自先前网站的所有相关帖子,这些帖子可以追溯到十多年。图4显示已经针对各个站点(即,chevrolet和通用汽车(gm))爬行的子论坛列表。通过标记在识别到潜在车辆质量问题之后提及特定车辆型号和年份的帖子,可以将这些帖子用于向终端用户提供有关车辆消费者问题的附加细节。此外,另外潜在有使用帖子的回复结构来识别特别有影响力的用户或领域专家,以获得有关潜在问题的另外深刻理解。(4.1.3)内容聚合站点(元素308)可以访问内容聚合站点308reddit的多年公开可用的完整帖子数据,其具有用于车辆维修和车辆爱好者的许多特定的公告栏(“subreddits”)。通过使用大型数据处理工具(诸如,googlebigquery),可以轻松访问该数据。该数据可以更加像论坛数据(元素304)一样用作辅助数据源,以向端用户提供有关车辆问题的附加细节。(4.1.4)消费者报告站点(元素310)还使用爬虫314(或专用抓取器)爬取针对车辆相关投诉的消费者报告站点310。web爬虫314检查网页的结构和布局,并基于html(超文本标记语言)标签来提取特定信息。有关车辆投诉的信息从两个不同级别的网站提取。在一个级别上,针对给定车辆型号和年份,提取按部件类型(例如,发动机)分组的一般投诉类别的投诉数量。在另一级别上,针对有多少用户报告类似特定投诉,提取具有给定数值分数的那些相同投诉的更具体描述。另外,提取有关使用相同源针对给定车辆型号和年份的nhtsa(国家公路交通安全管理局)投诉的聚合信息。web爬虫314能够选择性地提取针对特定品牌的信息,并且还可以被设置成自动忽略具有低于给定阈值的投诉数量的型号。抓取器(web爬虫314)已经成功用于收集针对所有四个当前gm品牌的相关投诉数据。此外,人们可以容易地使用web爬虫314来提取关于竞争对手汽车制造商品牌的投诉信息。关于其它制造商型号的可靠性的这种信息可以证明在将来用于质量控制或市场营销目的方面是有用的。(4.2)算法描述(4.2.1)实时事件检测给出twitter帖子的大量收集,根据本公开的实施方式的系统在每个帖子中搜索1)提及产品(例如,车辆)品牌(例如,“雪佛兰(chevrolet)”、“卡迪拉克(cadillac)”、“本田(honda)”、“丰田(toyota)”),和2)一组精心挑选的安全和缺陷相关关键字。从本质上讲,该流水线是一系列过滤器,其用于实时连续监测和检测来自大数据流的感兴趣事件。通过两个过滤器(品牌过滤器和关键字过滤器)的帖子被认为涉及有关车辆安全和缺陷的问题。针对基于关键字的过滤器的基本假设是,相关词语会在事件展开时显示使用量的增加(参见参考文献no.10)。因此,如果相关关键字显示出表观计数上的突发,则可以标识事件。在一个实施方式中,该系统关注于两个关键字列表。第一列表包含具有火灾相关语义的词语(例如,火(fire)、火焰(flame)、熔化(melt))。第二列表包含从2015年nhtsa缺陷调查数据库3中收集的词语。第二列表包括数据库中提到的最常见有缺陷部件(例如、安全气囊、刹车、转向)。图5中示出了两个列表的完整关键字。应注意到,第一列表(元素500)尝试识别一般的火灾相关安全事件,并且第二列表(组元502)关注于寻找与特定车辆部件有关的安全事件。图6是从2014年1月到2014年6月共同提及的车辆品牌和火灾相关关键字的时间系列曲线图。与各种车辆安全事件对应的多个尖峰可以从该时间系列观察到。例如,识别了丰田(粗线600)的两次重大召回,这与fjcruiser燃油管不当引起的火灾隐患/事件发生有关。类似地,观察到雪佛兰(实心非粗线602)的几个尖峰,这与由于火灾风险而导致在多辆卡车和运动型多用途车(suv)型号上的召回有关。图7描绘了品牌“雪佛兰”和多种车辆部件的共同提及的时间系列。在六月看到针对“安全气囊”的大的尖峰(元素700),其与雪佛兰cruze的针对潜在安全气囊故障的大规模召回有关。根据本公开的实施方式的检测系统的一个重要方面是可以精确地识别社交媒体发布/警告来自的地理位置。这通过利用先前工作中识别的twitter用户的大型地理位置数据库来实现(参见参考文献no.6)。认为,由本文所述系统生成的空间-时间信息对于商业操作是至关重要的。(4.2.2)新兴趋势检测(元素300)以下部分包括对根据本公开的实施方式的系统如何能够在新兴安全相关趋势向公众普及之前识别针对它们的早期指示符的描述。在一个实施方式中,检测与车辆缺陷相关的新兴事件的主要方法是通过对来自消费者报告站点310的数据的统计分析(即,统计估计模块318)。收集数据的所有年份和型号的汽车投诉类型的相对频率被用于生成针对特定类型投诉应当预期多久一次的基线分布。针对每年和型号,计算针对该特定年份和型号的投诉的相对频率。发现所有年份和型号之间的投诉类型分布与专门针对2006年malibu的投诉类型的分布存在显著差异。使用所估计分布来计算两个指标,所述两个指标指示针对给定型号和年份的车辆部件类别是否存在潜在问题。针对第一指标(指标1),调查针对特定年份和型号的投诉以及针对所有年份和型号的投诉的估计概率质量函数(pmf)。然后,这些值被聚合,该指标所采取的高值用作指示潜在问题。具体来说,针对第一指标,确定针对所有年份和型号聚合的投诉类型的所观察相对频率与针对特定年份和型号的投诉类型的所观察相对频率之间的差值。然后,该差值被聚合,并且将最大值(绝对值)用作指示潜在问题。针对第二指标(指标2),按给定类别出现的投诉数量被建模为二项分布(binomialdistribution),并进行二项测试(binomialtest)。这通过假设到来的投诉遵循独立的bernoulli过程来实现,其中,如果投诉落在所区别类别则成功,而如果投诉落在另一类别则失败。假设给定型号和年份在类别c具有x个所观察的投诉和横跨所有类别的n个投诉。设pc是横跨所有年份和型号,针对给定类别c的投诉的相对频率。设xc是一个随机变量,其表示针对给定型号和年份的在类别c的投诉数量,其中,横跨所有类别的投诉总数为n,假设其遵循具有固定试验数n和未知成功概率θ的二项分布。针对第二指标,调查如果xc~binom(pc,n),则上尾(upper-tail)事件{xc≥x}的概率。所得分数是针对具有以下假设的单侧二项测试的p值;h0:θ=pcha:θ>pc,其中,低分数表示车辆缺陷和/或潜在召回事件。图8示出了用于检测新兴趋势的统计估计模块318的概述。根据从相关车辆帖子的数据库获得的数据800(图3,元素316),确定针对所有车辆年份和型号的基线pmf(元素802)。执行针对特定车辆型号和年份的查询804,并且针对该特定车辆型号和年份确定相对于该基线pmf的偏差(指标1和2)(元素806)。接下来,确定绝对差(指标1)和二项概率(指标2)(元素808),如上所述。基于所确定指标,基于缺陷(投诉)生成警告(指示符)(元素810)。最后,该警告被发送给系统分析员(元素812)。系统分析员812可以是自然人,或者另选地,可以是中央服务器,其被配置成接受缺陷警告并向特定消费者发出通知。图9是例示第二指标的计算值的曲线图,其中,该曲线(由不同的线型表示(例如,虚线、实线))中的每一段表示不同的间隔。该曲线图例示了根据使用第二指标计算的量值(magnitude)排序的事件的累积概率分布(cdf)。cdf曲线的形状符合典型的二项分布。该线(实线图案、虚线图案)的各个区段表示cdf的不同范围。此外,图9中的曲线绘图表明该指标能够过滤出特别成问题的某些类别的车辆部件(即,测试具有足够的能力)。认为,其它指标也可以对未来的应用有用,诸如,似然比或f-发散(例如,kullback-leibler发散、χ2发散、hellinger距离),尽管它们尚未被测试。应注意到,由于针对某些类别的低预期计数,因此,两个概率分布之间的自然χ2拟合优度测试似乎不会立即用于根据本公开的实施方式的任务,从而需要针对适当应用的类别的折叠(collapse)。基于分布的形状(即,变化模式),存在足够的分离能力对正常相对于有问题的车辆部件类别进行排序和分类。(4.2.3)方法评估通过检查车辆型号、年份以及通过上述两个指标返回的部件类别的20个最有问题的分组,完成对认为应当能够预先识别的多个车辆缺陷/召回的识别。这些包括2004、2005以及2006年雪佛兰malibu的动力转向召回、2006年雪佛兰cobalt的动力转向召回、2008年别克enclave的变速器问题以及2006年trailblazer的故障燃油表。图10和图11分别是呈现根据利用第一指标和第二指标进行验证的结果的表。通过其它源的这些投诉的进一步检查应当快速确认存在这些给出问题。(4.3)web界面为了促进用户自适应和跨群体/组织/社区的知识共享,使用tableau4(由位于1621n34thst.,seattle,wa98103的tableau开发)的前端web界面被开发以基于根据本公开的实施方式的方法使该结果和分析可视化。图12描绘了专门为twitter社交媒体平台(后仪表板1200)和消费者报告平台(前仪表板1202)构建的两个示例tableau仪表板。每个仪表板中显示了各种信息收集。例如,社交媒体仪表板(元素1200)显示关于安全问题的相关帖子的聚合时间系列1204、社交媒体帖子的地理分布1206、以及在所提取帖子中讨论的车辆部件的百分比1208。类似地,消费者报告仪表板(元素1202)显示关于车辆特定型号和年份的投诉(元素1210)、针对各种品牌的有缺陷部件的分布(元素1212)以及不同部件的投诉数量变化(元素1214)。总之,本文所述发明是端到端系统,其用于识别有关所发布的车辆缺陷和相关安全的新兴趋势,并且调查潜在的未来车辆召回。根据本公开的实施方式的系统能够识别特定类别车辆部件级别的问题。此外,该系统还并入来自在线用户生成内容的异类源的数据。尽管车辆出于例示目的而加以使用,但本领域技术人员可以理解,该系统可以另选地应用于可能受缺陷和/或安全问题影响的任何类型的消费品。该系统适用于监测各种产品的新兴趋势,范围从消费品和商品(例如,电子产品、家用电器)到商业和工业设备(例如,飞机、大型机械)。在伴随无处不在的计算和网络连接的日益连接的世界中,任何产品都有极其罕见的在线痕迹。例如,如果有人对监测电子产品(例如,摄像机、电视机)的趋势感兴趣,那么可以在线探索超过数十家零售商网站。另外,还有来自betterbusinessbureaus的数据和要结合分析的、来自地区政府机构的其它细粒度统计数据。一旦收集到该数据,本文所述统计估计方法就可以无缝地应用于该应用。类似的权利要求可以扩展到存在物理传感器而不是“人体传感器”的情境。例如,存在跨飞机部署的多个传感器、船只以及不同类型的车辆上。作为非限制示例,车辆传感器可以监测为车辆提供动力需要多少燃料。随着时间的推移燃料量的增加表明下降的发动机效率,发动机将需要维护。另外,检测即将发生的故障并通知用户(例如,机组人员、地面站)的传感器是物理传感器的非限制示例。此外,可以实时识别异常事件(例如,制动操作的问题)并主动对潜在性能问题采取行动(例如,为车辆操作者生成视觉或听觉警告)的车辆传感器适用于本文所述发明。“投诉”以来自这些传感器的错误消息的形式生成。根据本公开的实施方式的估计基线误差分布和偏差的方法提供关于新兴缺陷和/或故障的有价值线索。根据本公开的实施方式的系统在诸如车辆制造公司的制造公司中具有新兴事件检测、产品召回管理、质量控制以及品牌管理方面的应用。另外,在航空航天领域,本文所述发明提供了朝着质量控制、多模式传感器融合(即,组合来自多个传感器类型(例如,发动机传感器、温度传感器)的信号)、健康管理(例如,飞机健康监测)以及乘客满意度(例如,客舱、乘员系统)的应用。最后,虽然已经根据几个实施方式描述了本发明,但本领域普通技术人员应当容易地认识到本发明在其它环境中可以具有其它应用。应注意到,许多实施方式和实施方案都是可以的。此外,下面的权利要求绝不是旨在将本发明的范围限制成上述具体实施方式。另外,“用于…的装置”的任何陈述都旨在唤起对元件和权利要求的装置加功能的解读,而不具体使用陈述“用于…的装置”的任何元件不旨在被解读为装置加功能元件,即使权利要求以其它方式包括了词语“装置”。此外,虽然已经按次序陈述了方法步骤,但该方法步骤可以按任何希望次序发生并且落入本发明的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1