用于自动分析或使用数据的计算机实施的方法与流程

文档序号:34855160发布日期:2023-07-22 17:44阅读:184来源:国知局
用于自动分析或使用数据的计算机实施的方法与流程

本发明的领域涉及一种用于自动分析或使用数据的计算机实施的方法;一个实施方式是语音助手,其能够分析、解释和作用于自然语言口头和文本输入。


背景技术:

1、自然语言(nl)是为人类进化的语言,诸如英语。尽管计算机处理自然语言的能力取得了重大进步,但计算机仍然无法深度理解自然语言的含义并在内部使用该含义。

2、出于此原因,大多数计算机应用程序通常使用结构化数据来存储它们需要处理的信息——例如关系数据库:设计方案、填充数据库和编写代码来处理数据库中的字段。如果应用程序对所需数据类型具有有限的要求,则使用结构化数据可以良好工作。但是,一些应用程序自然需要极其广泛、异构的数据集合才能良好工作。这意味着所需的方案将必须庞大,使得构建和编码此类应用程序不切实际。我们在本文将此类应用程序称为hub应用程序(异构和不合理的广泛)。

3、hub应用程序的示例包括用于管理人的一般健康数据的应用程序,其中存在数千测试、数千医疗条件和数千症状。另一个相关的应用程序可以是营养跟踪应用程序,其中存在成千上万种可以摄入的物质和食物,每种物质和食物对身体都有不同代谢影响。

4、另一个示例是将潜在候选人的简历与工作规范匹配的应用程序:原理上,此类应用程序将需要结构化数据来表示可能对任何角色、每种类型的经验、每种类型的先前工作有价值的每项技能。

5、会计是另一个应用程序,其中大量异构数据将是有价值的:完美的会计应用程序将表示每种类型的合同、每种类型的服务。

6、实际上,这些应用程序中的一些(如果存在)用有限的方案工作,这些方案无法涵盖其理想特性的全部范围。例如,健康应用程序通常像这样工作,忽略它们未涵盖的许多类型的数据,而是最终变得狭窄——将应用程序限制到健康状况内的仅某些竖直线。

7、应用程序还可以使用自然语言或用自然语言扩充有限的方案——诸如当前的简历匹配应用程序,其可以以结构化形式表示一些关键技能,但在其他情况下很大程度上依赖于对书面简历的关键字搜索或统计自然语言处理(nlp)技术。

8、在会计的情况下,交易由有限的结构化数据表示——在具有自然语言名称的虚拟分类账上的借方和贷方。自然语言名称的含义以及因此这些交易表示的内容通常对应用程序是不透明的。虚拟分类账通常将不同类型的交易组合在一起,但无法表示可能重要的语义差异。

9、应用程序何时成为hub应用程序没有确切阈值,但是使用手动创建的方案构建应用程序的难度随着表的数量的增加不仅仅是线性增长,因为管理这些表以及维护它们的代码变得越来越难做。

10、如果存在计算机可以完全处理和理解但也具有极其广泛范围的表示数据的语言或方式,则这些问题可以得到解决。

11、在常规人工智能(ai)中,统计机器学习(ml)——尤其是深度学习(dl)——已被广泛使用。这提供了很多问题的重大进展。尽管取得了进展,但无法以对人类用户有意义的方式解释结果,因为解是可能涉及数十亿权重的计算结果。也可以说系统缺乏对数据的“现实”理解,或者至少这种理解与人类用户将理解它的方式非常不同。

12、相关技术的讨论

13、2019年7月18日关于cyc的维基百科页面指出,cyc是世界上寿命最长的人工智能项目,试图组装全面的本体和知识库,其跨越关于世界如何工作的基本概念和“经验法则”(思考常识性知识,但更多地关注很少被写下来或说出来的事物,与人们可能在互联网上的某个地方找到或经由搜索引擎或维基百科检索到的事实形成对比),目的是使ai应用程序能够执行类似人类的推理,并在面对非预先设想的新情况时不那么“脆弱”。

14、2019年7月18日关于cyc的维基百科页面指出,cyc项目的目标是以机器可用的形式编纂构成人类常识的数百万条知识;这需要一路上(1)开发充分表达的表示语言cycl,(2)开发跨越所有人类概念的本体,下至某个适当的详细信息水平,(3)开发基于该本体框架的知识库,包括关于这些概念的所有人类知识,下至某个适当的详细信息水平,以及(4)开发比当时的常规专家系统中使用的那些快得多的推断引擎,以便能够推断出与人类鉴于他们对世界的理解能够进行的相同类型和深度的结论的。

15、2019年7月18日关于cyc的维基百科页面指出,cyc的大部分知识,除了数学和游戏,默认情况下都是真实的;例如,cyc知道,作为默认,父母爱他们的孩子,当你开心时,你会微笑,迈出你的第一步是大的成就,当你爱的人有大的成就时让你开心,并且只有成年人才有孩子;当被问到标题为“有人看着他的女儿迈出她的第一步”的图片是否包含微笑的成年人时,cyc可以逻辑地推断回答是肯定的,并通过使用来自其知识库的这五点知识逐步展示逻辑论证来“示出它的工作”:这些是用语言cycl表述的,该语言基于谓词演算,并且具有与lisp编程语言的句法类似的句法。

16、2019年7月18日关于cyc的维基百科页面指出,cyc项目已经被描述为“人工智能史上最具争议的努力之一”;卢米诺索(luminoso)的ceo凯瑟琳·豪沃希(catherinehavasi),说cyc是ibm的watson的前身项目;机器学习科学家佩德羅.多明戈斯(pedrodomingos)将该项目称为“灾难性失败”,原因有若干个,包括产生任何可行结果所需的无穷无尽的数据量以及cyc不能自行进化;乔治梅森(george mason)大学的经济学教授罗宾·汉森(robin hanson)给出了更为平衡的分析:“当然,cyc项目因其许多特定选择而受到批评。人们抱怨它的类似逻辑和类似语言的表示,抱怨它选择原型案例来构建(例如,百科全书文章),抱怨它专注于回答而不是动作,抱怨它重新构建与维护遗留系统对比的频率,以及抱怨私用与发布所有内容的对比。但任何像这样的大项目都将产生这样的争议,并且它的任何选择都不明显是严重错误。他们必须从某个地方开始,并且在我看来,他们现在已经收集了在规模、范围和整合程度上非常惊人的知识库。其他架构可能更好地工作,但如果知道很多东西差不多像莱纳特(lenat)认为的那样重要,我希望ai认真尝试导入cyc的知识,将其翻译为新表示。没有任何其他来源能与cyc的规模、范围和整合程度差不多。”

17、真知(true knowledge)系统使用结构化知识和推断提供开放域问题回答。在真知系统中,知识库中的知识以单个统一格式表示:称为“事实”的指定实体对之间的指定关系。事实和关系本身是头等的实体,因此完全支持关于事实的事实和关于关系的特性的事实(tunstall-pedoe,w.(2010).true knowledge:open-domain question answering usingstructured knowledge and inference.ai magazine,31(3),80-92.https://doi.org/10.1609/aimag.v31i3.2298)。


技术实现思路

1、根据本发明的第一方面,一种用于自动分析或使用数据的计算机实施的方法包括以下步骤:

2、(a)在存储器中存储符合机器可读语言的数据的结构化机器可读表示(“机器表示”);机器表示包括:针对人机界面的用户言语或文本输入的表示;

3、(b)自动处理机器表示以分析用户言语或文本输入。

4、在第二方面中,一种被配置为分析数据的基于计算机的系统,该系统被配置为:

5、(a)在存储器中存储符合机器可读语言的数据的结构化机器可读表示;数据的结构化机器可读表示包括:针对人机界面的用户言语或文本输入的表示;

6、(b)自动处理结构化表示以对针对人机界面的用户言语或文本输入进行分析。

7、本发明的这些方面可以在语音助手或聊天机器人中实施;实现的技术优势是能够更广泛且更快地扩展语音助手或聊天机器人的能力;本发明使语音助手和聊天机器人能够回答范围更广的问题,并且更准确地进行回答;本发明使语音助手或聊天机器人更容易使用大量不同自然语言工作。

8、一个解释点:连词“或”不应被狭义地解释为表示相互排斥性,而应包括包容性。因此,短语“用户言语或文本输入”意味着“用户言语本身,或用户文本本身,或用户言语和用户文本”。当连词“或”表示排他性时,使用短语“或者…或者”。

9、机器可读语言非常具有表达力,但也非常简单;简单性需要更少的计算机处理,并且因此递送更快的性能。本发明的进一步细节在所附权利要求中。

10、根据本发明的另一方面,提供了一种计算机系统,其包括处理器和存储器,处理器被配置为回答问题,处理器被配置为使用处理语言,其中语义节点以处理语言表示,语义节点包括语义节点之间的语义链接,其中语义链接本身是语义节点,其中每个语义节点标记一个具体含义,其中语义节点的组合定义语义节点,其中可以嵌套以处理语言的表达式,其中问题以处理语言表示,其中推理步骤以处理语言表示以表示推理步骤的语义,其中计算单元以处理语言表示,其中存储器被配置为存储以处理语言的表示,并且其中处理器被配置为使用推理步骤、计算单元和语义节点回答问题,并将对问题的回答存储在存储器中。

11、一个优势是,因为语义节点之间的语义链接本身就是语义节点,所以语义链接和语义节点不需要以明显不同的方式进行处理,这简化了处理,这加快了响应时间,这是一种技术效果。

12、一个优势是,因为语义节点以处理语言非常广泛地使用,所以处理语言的处理被加快,这加快了响应时间,这是一种技术效果。

13、技术效果在计算机系统的架构层面操作;也就是说,无论正在处理的数据如何,都会产生效果。

14、技术效果导致计算机系统以新方式操作,因为计算机比使用现有技术方法更快地找到对问题的回答,因为语义节点以处理语言非常广泛地使用,这意味着处理语言的处理被加快。

15、处理语言有助于本发明的技术特征,因为它产生技术效果:处理处理语言的处理器具有以下效果,即计算机比使用现有技术方法更快地找到对问题的回答,因为语义节点以处理语言非常广泛地使用,这意味着处理语言的处理被加快。

16、计算机系统可以被配置为输出对问题的回答。

17、计算机系统可以被配置为将对问题的回答输出到显示设备。

18、计算机系统可以是这样的一种系统:其中以处理语言的表达式可以嵌套而没有对处理语言固有的限制。

19、计算机系统可以是这样的一种系统:其中语义节点各自包括唯一标识符。

20、计算机系统可以是这样的一种系统:其中计算单元是语义节点。

21、计算机系统可以是这样的一种系统:其中问题用下列项以处理语言表示:包括语义节点的段落,该语义节点将该段落识别为问题;表示被提问的未知实体的零个、一个或多个的语义节点的列表;以及表示零个、一个或多个未知实体的上下文中的问题的语义的至少一个进一步的段落。

22、计算机系统可以是这样的一种系统:其中处理语言是通用语言。

23、计算机系统可以是这样的一种系统:其中处理语言不是自然语言。

24、计算机系统可以是这样的一种系统:其中问题涉及对文档或网页的搜索和分析,其中语义节点包括存储在文档存储区中的文档或网页的至少部分的表示。

25、计算机系统可以是这样的一种系统:其中问题涉及使用以处理语言被表示为语义节点的地图数据的基于位置的搜索。

26、计算机系统可以是这样的一种系统:其中问题涉及对定义的广告或新闻的搜索,其中语义节点包括广告、新闻文章或其他信息项的表示。

27、计算机系统可以是这样的一种系统:其中问题涉及对新闻主题的概要的请求,其中语义节点包括来自多个源的新闻的表示,例如以提供新闻的概要或聚合。

28、计算机系统可以是这样的一种系统:其中问题涉及对人之间的兼容性匹配的请求,其中针对多个人,语义节点包括定义人的一个或多个属性的个人信息的表示。

29、计算机系统可以是这样的一种系统:其中问题涉及遵守防止辱骂性或非法社交媒体帖子的要求,其中语义节点包括社交媒体帖子帖的表示。

30、计算机系统可以是这样的一种系统:其中问题涉及分析顾客评论,其中语义节点包括顾客评论的表示。

31、计算机系统可以是这样的一种系统:其中问题涉及用户的产品请求,其中语义节点包括产品描述和用户产品请求的表示。

32、计算机系统可以是这样的一种系统:其中问题涉及工作搜索,其中语义节点包括工作描述和求职者的技能和经验的表示,以确定哪些求职者匹配工作描述,或者以确定哪些工作描述匹配求职者的技能和经验。

33、计算机系统可以是这样的一种系统:其中问题涉及个体的健康,其中语义节点包括与个体相关的健康数据、以及与人类相关的健康数据。

34、计算机系统可以是这样的一种系统:其中问题涉及营养,其中语义节点包括食物和饮料的营养数据。

35、计算机系统可以是这样的一种系统:其中问题涉及会计或财务,其中语义节点包括财务或会计信息的表示。

36、计算机系统可以是这样的一种系统:其中问题由语音助手或聊天机器人接收,其中语义节点包括针对人机界面的用户言语输入的表示并且包括人机界面本身的表示。

37、根据本发明的进一步的方面,提供了一种计算机实施的方法,该方法使用包括处理器和存储器的计算机系统,处理器被配置为使用处理语言,其中语义节点以处理语言表示,语义节点包括语义节点之间的语义链接,其中语义链接本身是语义节点,其中每个语义节点标记一个具体含义,其中语义节点的组合定义语义节点,其中可以嵌套以处理语言的表达式,其中问题以处理语言表示,其中推理步骤以处理语言表示以表示推理步骤的语义,其中计算单元以处理语言表示,其中存储器被配置为存储以处理语言的表示,该方法包括以下步骤:

38、(i)处理器使用推理步骤、计算单元和语义节点回答问题,以及

39、(ii)处理器将对问题的回答存储在存储器中。

40、优势包括本发明的先前方面的优势。

41、方法可以是这样一种方法,其中问题用下列项以处理语言表示:包括语义节点的段落,该语义节点将该段落识别为问题;表示被提问的未知实体的零个、一个或多个的语义节点的列表;以及表示零个、一个或多个未知实体的上下文中的问题的语义的至少一个进一步的段落。

42、方法可以是这样一种方法,其中识别问题中的未知项并且选择构成问题的主体的段落以用于进一步分析;处理开始于来自问题的主体和选择的未知项的段落列表;选择段落列表中的第一段落以进行处理;处理单个段落包括三种方法:使用静态存储的处理语言段落、利用计算单元以及利用从推理生成的处理语言:

43、其中第一种方法是在段落存储区中查找是否存在可以与正在处理的段落直接映射的任何段落;如果段落与段落存储区中的段落具有确切相同的结构,除了未知项之外的所有节点都匹配,则未知项匹配到的值是有效结果;

44、第二种方法是检查是否可以通过执行计算单元来发现任何结果;检查该段落是否与计算单元描述中的任何段落匹配;正在处理的段落中的所有非未知节点必须匹配计算描述中的对应的位置中的相同节点或与计算输入未知项对齐;正在处理的未知项必须与描述中的输出未知项对齐;然后调用计算单元以获得经处理的段落的未知项的有效输出值;

45、第三种方法是看是否可以通过应用任何推理步骤来证明该段落;搜索推理步骤以寻找在何处推理段落的第二半部中的段落可以与正在处理的段落统一;除了焦点段落或推理段落中的未知项之外,所有节点和结构在两个段落之间必须相等;如果找到这样的推理段落,则意味着该推理步骤可以证明段落正在处理;在与推理段落匹配时,使用多阶段过程以首先找到经处理的段落中的未知项的任何映射;其次,通过与正在处理的段落的映射找到推理段落中使用的未知项的映射;然后可以将该映射应用于推理段落的前半部以生成段落列表,如果这些段落列表可以与已知或生成的处理语言和为它们找到的映射相匹配,则将证明并找到焦点段落的有效映射;然后可以递归地找到段落列表的解。

46、方法可以使用本发明的先前方面的任何方面的计算机系统。

47、可以组合本发明的方面。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1