使用人工智能从视频中捕获、索引和提取数字工作流的系统和方法与流程

文档序号：33621768发布日期：2023-03-25 12:20阅读：132来源：国知局

使用人工智能从视频中捕获、索引和提取数字工作流的系统和方法
1.相关申请的交叉引用本技术要求2020年3月2日提交的美国临时专利申请第62/984035号的优先权，其公开内容通过引用整体并入本文。
技术领域
2.本发明涉及一种用于捕获和编辑视频的系统和方法，并且更具体地，涉及一种用于使用人工智能(在此为ai)从视频中捕获、索引和提取数字处理步骤(例如工作流程)的系统和方法。

背景技术：

3.在常规工作或商业环境，例如工业企业中，可提供需要专业技能来操作、维护和/或修理的设备。通常情况下，这些专业技能必须由设备操作员通过教学、培训和/或日常经验随着时间而培养。培养这种专业技能和执行这种技能的知识库可能需要数年时间。通常，技能和知识必须通过一代又一代的设备操作员从专家或高级操作员传递给新手或初级操作员。术语“操作员”并不旨在是限制性的，它包括那些在日常操作期间操作机器的个人，而且也包括任何其他与设备有关的个人，例如那些在维护、修理、升级或替换这种设备方面熟练的个人。最终，这种经验导致更有效的设备操作和与之相关联的任务，提高质量，更快地执行任务等。因此，有经验的劳动力通常是许多企业或其他操作的关键组成部分。
4.然而，在世界大部分地区，设备复杂性的增加和有经验劳动力可用性的差距的扩大对工业企业和其它类型的企业或操作造成负面影响。这些影响包括例如:低效的任务执行；以次优质量执行任务；因错误而返工；专家和新手之间的协作较差；由于专家的可用性和差旅费而导致任务延迟；昂贵且耗时的培训。
5.传统上，并且在今天的大多数情况下，技术专门知识（know-how）在静态文件中捕获，并通过印刷纸张或pdf分发，例如用于提供工作说明，以及记录和报告发现。然而，这种知识转移可能会遭遇低效率、高成本、冗长的培训、低质量和生产力损失。一些最新技术提供了纸质体验的数字复制；以及其他技术提供多媒体或ar解决方案，这些解决方案依赖于新兴的硬件和软件技术，以及需要在内容创作方面进行更高的投资。因此，这些传统的知识转移过程存在显著效率低下以及与之相关联的问题。
6.本发明的目的是克服这些问题。

技术实现要素：

7.已经开发了一种ai(人工智能)系统，该系统使用被称为stephanie的ai模块作为参考。本发明的系统捕获、索引和提取用于设计、制造、操作、维护和维修产品、机器和设备的复杂技术专门知识的数字工作流程，并将数字工作流程转变为类似gps地图的分步交互式工作流程指导。虽然本发明的ai系统特别适用于工业企业，但是本发明的ai系统也可用
于提取非工业工作流程，例如类似地基于专业技能集和知识库执行的其他过程和任务流程。因此，对工作流程的引用不一定局限于在工业企业中遇到的那些。
8.一般而言，ai系统可包括多个系统模块，用于分析各种操作的工作流程，生成工作流程输出，以及发布工作流程指导，并将此数据并入此类操作，以提高工作流程的性能。这些系统模块包括但不限于工作流程捕获器或捕获模块、工作流程索引器或索引模块、工作流程构建器或构建模块、工作流程导航器或导航模块以及技能分析器或分析器模块。工作流程索引器或索引模块可以在其中并入ai模块，该ai模块使用ai来分析所捕获的数据并对其进行索引以用于后续处理，其中各个模块继而可以与ai模块通信，该ai模块分析数据并在模块之间传送数据。其他模块可以并入本发明的ai系统。
9.更具体地，所述ai系统使用工作流程采集系统，当专家在空间环境中实际执行他们工作或任务时，所述工作流程采集系统捕获并数字化专家的知识和工作流程。工作流程采集系统包括一个或多个视频输入设备，例如从多个视角捕获视频的摄像机，包括但不限于侧视和视点(pov)，其中摄像机可以是头戴式、眼戴式或肩戴式的。ai系统还可以包括其他数据收集设备，以进一步补充视频和音频数据。ai stephanie系统及其ai模块分析和索引音频和视频的每一帧以及任何其他捕获的数据，以使用一种或多种ai方法从捕获的视频和数据中提取工作流程内容，例如对象、活动和状态，所述ai方法例如nlp(自然语言处理)或计算机视觉，例如对象检测和活动识别。
10.提取的数字工作流程（其包括分步信息）优选存储在基于云的企业知识存储库中，其可用于教授和培训这些技术行业的工人，并帮助加快学习新技能的个人的学习曲线，例如取代更高级工人的那些个人。授权用户可以随时随地访问作为交互式教程视频（interactive how-to-videos）的这些数字工作流程内容，并以自己的节奏进行学习。
11.更详细地说，本发明通过提供ai(人工智能)系统克服了用于记录技术专门知识的已知系统的缺点，所述ai(人工智能)系统捕获、索引和提取用于设计、制造、操作、维护和维修产品、机器和设备的复杂技术专门知识的数字工作流程，并将数字工作流程转变为类似gps地图的分步交互式工作流程指导。通常，工作流程涉及在物理空间环境中执行的多个相关步骤。这些可以在商业或工业环境或其他类型的操作和物理环境中执行。
12.工作流程捕获模块是形成ai stephanie系统的一部分的工作流程采集系统，当专家在工作或操作环境中实际执行它们的工作时，该工作流程采集系统捕获并数字化专家的知识和工作流程。工作流程采集系统包括一个或多个数据输入设备，例如从多个视角捕获视频的摄像机，包括但不限于侧视和视点(pov),其中摄像机可以是头戴式、眼戴式或肩戴式的。工作流程捕获器还可以输入或接受现有的视频、图表、手册、说明、培训计划和任何其他可能已经开发的文档化信息，以便历史地将知识从专家传递给新手。
13.所述工作流程采集系统捕获执行其个人工作流程模式的个人的物理运动和音频指令或评论，并将数字化的工作流程数据传递至ai模块。例如，物理运动和音频指令可以在执行各种任务或工作或其他技术专门知识时执行，并且可以包括对每个人来说可能是独特的步骤。同样地，这些任务可以在不同的个人之间不同地执行，并且本发明的ai系统能够捕获工作流程，并且知道它如何既是在行业内使用的普通或标准化知识，而且又是个人的独特或主观知识和专门知识，其中主观知识库可以扩展、偏离或不同于普通或标准化知识库。
14.这些任务可涉及来自一个或多个人的物理运动和音频，以及还可涉及使用诸如工
具和其他装置和设备等对象来执行任务。虽然主要类型的捕获数据来自视频和音频数据的收集，但是将会认识到，也可以使用捕获其他类型的输入数据的其他输入设备，其他类型的输入数据例如在对象中或在对象周围的定时数据和传感器数据，其可以涉及执行任务的个人和与其相关联的对象的运动、位置、定向或其他属性。这个信息中的一些或全部被工作流程采集系统捕获，其中视觉、音频和其他性能数据被数字化以传递到ai模块。
15.优选地，所述工作流程是无脚本的，并利用个人的专业知识和技术专门知识自然执行。换句话说，工作流程是由个人自然执行的，不依赖于事先准备好的脚本。实际上，个人通过由过去的训练和经验决定的意识流来执行任务。ai系统并不试图指导个人，而是试图从个人那里学习来教导更多的新手。
16.ai系统的ai模块分析输入数据，并优选对视频的每一帧进行索引，包括其音频部分，以使用ai方法，例如nlp(自然语言处理)或计算机视觉，例如对象检测和活动识别，从视频中提取数字工作流程内容，例如对象、活动和状态。优选地，ai模块分析、编辑和组织数字工作流程内容，并且可以使用数字工作流程内容自动生成分步交互式教程视频，或者生成视频的子成分，其可以被单独编辑和组织。
17.在经ai模块处理后，专家可使用工作流程构建器查阅自动提取的数字工作流程内容，例如分步信息，并可如果需要的话进行编辑或更改。可以对交互式教程视频的初始版本或数字工作流程内容执行编辑，以校正、修订和/或组织数字工作流程内容，用于交互式教程视频的最终版本的制作。专家还可以插入附加的图表或说明，以用补充培训数据来补充收集的工作流程数据。
18.一旦使用工作流程构建器完成查阅后，将数字工作流程内容发布至基于云的企业知识库或其他数据存储介质，可使用工作流程导航模块从远程查看模块(例如计算机等)访问该企业知识库或其他数据存储介质。诸如学生和工人等授权用户可以通过导航模块的适当查看模块随时随地访问作为交互式教程视频的这些数字工作流程内容，并以自己的节奏学习，以教授和培训熟练的行业，并且帮助加快他们的学习曲线。
19.本发明的ai系统10提倡的信念是，对于知识、对于决策和对于执行来说，人是任何公司的最大资产。而且，尽管有机器人的承诺，但在可预见的未来，专家知识仍然是最有价值的。在未来的许多年里，在大多数制造业的装配、检查、服务和物流任务中，人将继续比任何机器人更灵活、更快速地进行培训和部署。有经验的工人体现了累积的程序性知识的财富，但随着较老一代人的退休，这种深刻的专有技术有从公司和机构中流失的危险。公司和机构将招聘越来越多的年轻一代，他们将期望新技术为他们供应足够的信息，使他们立即变得富有成效，而不是通过传统的培训课程学习。本发明将促进向新一代连接的数字技术人员的过渡，并旨在提供一个关键的平台，以通过协助他们的劳动力和实现知情和优化的执行来为公司和其它机构服务。
20.如本文所公开的，ai系统使用各种工具和方法作为工作流程采集系统，以捕获专家专门知识，包括视频、音频、图像、图表、文本描述、注释等。ai stephanie系统的ai模块将专门知识索引，并创建数字工作流程，该工作流程指导新手用户用包括但不限于以下内容的特征来完成工作流程。工作流程说明被翻译成多种语言，供不同语言的用户使用。交互式图表可用于向用户说明关键概念。交互式图表允许用户在工作流程期间输入数据。收集的数据用于进一步改进ai。可以搜索与工作流程相关联的对象和动作。搜索历史用于改进ai
并进一步增强工作流程指导。
21.通过阅读以下说明书和检查附图，本发明的其他目标和目的及其变化将变得显而易见。
附图说明
22.图1是工作流程数字化系统和过程的示意图，该系统和过程用于数字化工作流程，并生成适于向其他人传递知识的索引和编辑的工作流程数据。
23.图2是表示本发明的系统和过程的流程图。
24.图3示出了作为本发明系统一部分提供的导航模块的图形用户界面(gui或ui)。
25.图4示出了带有视频播放器的特定工作流程视图的ui。
26.图5示出了具有由ai模块识别并包含在索引的工作流程数据中的多个工作流程步骤的ui。
27.图6示出了显示搜索特征和搜索结果的ui。
28.图7示出了显示选定工作流程步骤以供用户查看的ui。
29.图8示出了代表在工作流程步骤中用于特定任务和活动的视觉搜索的ui。
30.图9说明了次级信息搜索的显示。
31.图10说明了ui的语言选择和字幕特征。
32.图11说明了带字幕执行的工作流程步骤的视频数据。
33.图12a图解地说明了本发明的模块，包括工作流程索引器模块、ai模块、构建器模块和导航模块。
34.图12b图解地说明了用于本发明系统和过程的ai平台解决方案，其捕获、索引和共享从专家到其他人的知识转移的专有技术。
35.图13说明了本发明的系统和过程及其主要阶段。
36.图14a示出了工作流程捕获器设备的第一视图，该设备被操作用于捕获包括音频和视频数据的工作流程数据。
37.图14b示出了其第二视图。
38.图15a说明了由ai模块执行的索引阶段或过程。
39.图15b说明了通过ai模块处理的视频、音频和文本数据的表示。
40.图16说明了具有构建模块的图形用户界面的显示设备，用于查阅和编辑由ai模块生成的索引工作流程数据，其中ui包括文本框、视频播放器和与多个工作流程步骤相关联的多个视觉指示器。
41.图17a说明了构建模块的ui，其示出了具有选定的一个工作流程步骤的视频播放器。
42.图17b说明了示出工作流程步骤列表或子集的ui。
43.图17c示出了具有搜索特征的ui。
44.图18示出了构建模块的ui的管理屏幕，其允许用户可视化和管理例如为组织捕获/创建的工作流程。
45.图19a示出了构建模块的ui，其显示了可编辑文本框和视频播放器，其中示出了工作流程步骤的文本。
46.图19b示出了具有多个特征的构建模块的ui，包括文本框、视频播放器、工作流程步骤列表和与工作流程步骤相关联的视频片段群。
47.图19c示出了具有放大的视频播放器和按时间顺序排列的视频片段的ui。
48.图20a示出了具有视频播放器和步骤导航辅助的ui。
49.图20b示出了具有选定翻译和字幕特征的语言特征的ui。
50.图20c示出了显示与工作流程步骤相关的次级多媒体内容的ui。
51.图20d示出了具有步骤菜单界面的ui。
52.图20e示出了具有搜索特征和搜索结果的ui，关键词被高亮。
53.在下面的描述中，只是为了方便和参考，将使用某些术语，并且将不进行限制。例如，“向上”、“向下”、“向右”和“向左”等词是指所参考的附图中的方向。“向内”和“向外”等词将分别指朝向和远离布置及其指定部分的几何中心的方向。所述术语将包括具体提到的词、其派生词和类似含义的词。
具体实施方式
54.参考本文所述的本发明，提供了一种创造性的ai(人工智能)系统10(参见图1)，该系统定义了一种工作流程数字化系统，其捕获、索引和提取用于设计、制造、操作、维护和维修产品、机器和设备的复杂技术专门知识的数字工作流程，并将该数字工作流程变成类似gps地图的、分步的交互式工作流程指导。一般来说，工作流程涉及在一个物理空间环境中执行的多个相关步骤。虽然本发明的ai系统或工作流程数字化系统10特别适用于工业企业，但本发明的ai系统10也可用于提取非工业工作流程，诸如类似地基于专门技能集合和知识库的其他过程和任务流。因此，对工作流程的引用不一定局限于工业企业中遇到的那些工作流程，而是可以引用与工作有关的和与工作无关的过程步骤，无论它们是否是利用辅助对象还是没有利用次级对象来执行的。例如，工作流程也可以包括使用软件的过程步骤或执行特定物理活动的一系列方法步骤。此外，ai系统10对于与各种对象（诸如产品、机器和设备）相关联的工作流程特别有用，尽管可以理解这种工作流程可能仅仅涉及人工或物理技术的系统本身。
55.在专家们在工作环境中实际执行他们的工作时，构成ai stephanie系统的一部分的工作流程采集系统12捕获并数字化专家们的知识和工作流程。工作流程采集系统12也可以被称为工作流程捕获器或捕获模块。工作流程采集系统或工作流程捕获器12包括一个或多个数据输入设备13，诸如从多个视角捕获视频的摄像机，包括但不限于侧视和视点（pov），其中摄像机可以是头戴式、眼戴式或肩戴式的（参见图1（步骤1））。在步骤1中，数据输入设备13可以由专家和/或与专家一起工作的操作员使用，以便在专家工作或执行任务时记录工作流程，以基本上记录工作流程的教程视频。
56.在步骤2中，提供工作流程索引器或索引模块14，其优选地包括ai模块15，在这里一般被称为ai stephanie。工作流程采集系统12捕获诸如专家等个人执行其个人工作流程模式的物理动作和音频指令或评论，并将数字化的工作流程数据传递到工作流程索引模块14及其ai模块15。例如，物理运动和音频指令可以在执行各种任务或工作或其他技术专门知识时被执行，并且可以包括可能是每个人独有的步骤。因此，这些任务可能在不同的个人之间以不同的方式来执行。这些任务可能涉及来自一个或多个人的身体运动和音频，并且
还可能涉及使用诸如工具和其他装置和设备的对象来执行任务。虽然所收集的数据的主要类型来自于步骤1期间的视频和音频数据的收集，但可以认识到，也可以使用其他输入设备，这些设备捕获其他类型的输入数据，诸如在对象中或在对象周围的定时数据和传感器数据，其涉及执行任务的个人和与其相关联的对象的运动、位置、定向或其他属性。所有这些信息都被工作流程采集系统12捕获，其中视觉、音频和其他性能数据被数字化，以便传递到ai模块15以在步骤2中进行处理。
57.优选地，工作流程是无脚本的，并是使用个人的专业知识和专门知识自然执行。换句话说，工作流程由个人自然执行的，不依赖于事先准备好的脚本。实际上，个人通过由过去的训练和经验所支配的意识流来执行任务。ai系统10并不试图指导个人，而是试图从个人那里学习，以教导更多的新手。
58.工作流程索引模块14的ai模块15分析输入数据并索引视频的每一帧，包括其音频部分，以使用ai方法（诸如nlp（自然语言处理）或计算机视觉（诸如对象检测和活动识别）从所捕获的视频中提取数字工作流程内容，诸如对象、活动和状态以及任何其他数据（参见图1（步骤2））。数字工作流程内容可以包括与所捕获的音频和视频有关的音频和视频数据的子集或传递到ai模块15进行处理的其他数据。优选地，ai模块15分析、编辑和组织数字工作流程内容，并使用数字工作流程内容自动生成一个分步的交互式教程视频，或生成视频的子成分，其可以被单独地编辑和组织。这个自动生成的分步视频和每个视频步骤可以由人类用户或编辑进一步查阅、编辑和组织。在由ai模块15处理之后，对所捕获的数据进行分析、处理和索引，并将互动式教程视频发布到工作流程构建器或构建模块16，它可以在计算机或其他显示设备的显示器17上操作和显示。通过工作流程构建器16，专家可以查阅自动提取的数字工作流程内容，诸如分步信息，并且可以在需要时进行编辑或修订。如所述，所提取的工作流程内容优选地作为互动式教程视频发布到工作流程构建器16，并且专家可以使用工作流程构建器16查阅、编辑和发布经编辑的最终视频。编辑可以在互动式教程视频的初始版本上执行，或者对数字工作流程内容进行编辑，以校正、修订和/或组织数字工作流程内容，以制作互动式教程视频的最终版本。专家还可以插入附加的图表或说明（参见图1（步骤3）），以通过使用工作流程构建器16用补充训练数据对所收集的工作流程数据进行补充，以形成新手和其他人可以使用的数字工作流程内容，以便学习工作流程和与其相关联的专门知识。
59.一旦在步骤3中完成查阅，就将数字工作流程内容从工作流程构建器或构建模块16发布到基于云的企业知识库或门户或其他数据存储介质18，可从远程查看模块（诸如显示工作流程导航器或导航模块20的一台或多台远程计算机19或类似的计算机访问该基于云的企业知识库或门户或其他数据存储介质18。该数据存储库（或门户或介质）18可以形成索引模块14的一部分，或可由索引模块14访问，以便随后分析索引的工作流程数据的任何变化或由工作流程导航器20生成的使用数据。通过使用工作流程导航器20，授权用户（诸如学生和工人）可以随时随地通过合适的查看模块访问作为交互式教程视频的这些数字工作流程内容，并以自己的节奏学习，以教导和培训技术工人，并帮助他们加快学习曲线。（参见图1（步骤4））。结果，学生和工人通过互动式教程视频及时地学习新技能。
60.在图1的步骤5中，来自工作流程导航器模块20的使用数据可以作为反馈提供给ai模块15，以改进ai系统10。
61.本发明的ai系统10提倡的信念是，对于知识、对于决策和对于执行来说，人是任何公司或操作的最大资产。而且，尽管有机器人的承诺，但在可预见的未来，专家知识仍然是最有价值的。在未来的许多年里，在大多数制造业的装配、检查、服务和物流任务中，人将继续比任何机器人更灵活、更快速地进行培训和部署。有经验的工人体现了累积的程序性知识的财富，但随着后续几代人的退休，这种深刻的专有技术有从公司中流失的危险。公司将招聘越来越多的年轻一代，他们将期望新技术为他们供应足够的信息，使他们立即变得富有成效，而不是通过传统的培训课程学习。本发明的ai系统10将促进向新一代连接的数字技术人员的过渡，并旨在提供一个关键的平台，以通过协助他们的劳动力和实现知情和优化的执行来为公司服务。
62.更详细地说，图2中说明了ai stephanie系统10的逻辑图。ai系统10使用各种工具和方法作为工作流程采集系统12来捕获专家专门知识，包括在流程图步骤21中的视频、音频、图像、图表、文本描述、注释等。在步骤22中，ai stephanie系统10的ai模块15对专门知识进行索引，并创建数字工作流程（步骤23），其指导新手用户利用包括但不限于以下几点的特征完成工作流程。在步骤23中，为了不同语言的用户，将工作流程说明翻译成多种语言，优选地由ai模块15或工作流程索引器14的翻译模块来翻译。交互式指导（步骤25）和交互式图示（步骤26）可以用于向用户24说明关键概念。交互式指导和图表允许用户在工作流程编辑期间由允许用户输入的工作流程构建器16输入数据（步骤27）。如数据流箭头28所指示的，所收集的数据被用来进一步改进ai模块14。当同时使用工作流程构建器16和工作流程导航模块20时，与工作流程相关联的对象和行动可以通过动作搜索特征（步骤29）和对象搜索特征（步骤30）进行搜索。搜索历史被用来改进ai并进一步加强工作流程指导，这也由数据流箭头28指示。
63.关于导航模块20的更多细节，图3示出了第一屏幕或图形用户界面（gui），其显示了学生或学习者的初始ui 31（用户界面）。本发明的ai系统10使用多个最终用户界面，以优化知识转移和对系统用户的培训。ui 31通过显示设备19访问企业专门知识知识库或门户18（图1），其中图3示出了在用户登录查看模块或显示设备19（诸如计算机）的企业专门知识门户18后，工作流程列表视图32被显示，该视图示出了一个或多个针对特定用户的相关工作流程33-36。在列表视图中，使用卡片格式将每个工作流程33-36呈现给用户。各个工作流程33-36的每个卡片包括关于工作流程33-36的基本信息，诸如标题、专家视频演示的长度、以及各个工作流程33-36的步骤数。显示在ui 31上的每个工作流程33-36的卡片有效地定义了一个访问按钮，该按钮可以被点击、触摸或以其他方式激活以将用户链接或重定向到下一个适当的ui屏幕。
64.因此，图3说明了ui 31上的工作流程列表视图。每个工作流程33-36链接到一个视频播放器，其允许用户导航到下一个或上一个步骤。还提供了文本搜索命令框38，用于对由ai系统10生成的工作流程信息的数据进行关键字搜索。还提供了语音搜索特征，其允许用户提供语音命令来搜索工作流程信息，例如，如何完成某个任务或找到工作流程中的某个对象或动作。
65.如上所述，ai模块15分析输入数据并索引所捕获的视频的每一帧，包括其捕获的音频部分，以使用ai方法（诸如nlp（自然语言处理）或计算机视觉（诸如对象检测和活动识别），从视频中提取数字工作流程内容或步骤数据，诸如对象、活动和状态。因此，工作流程
信息不仅包括从音频部分转换的文本数据，还包括由视频分析识别的附加数据，然后其可以使用文本搜索特征或语音搜索特征进行关键词搜索。工作流程和各个步骤可以用工作流程信息进行标记，并对这个信息进行搜索以识别特定的工作流程。然后，结果可以显示在例如工作流程列表视图中。一旦识别并显示出所需的工作流程33-36，用户然后就可以激活工作流程按钮，以链接到所选的工作流程，以便查看视频和与其相链接的工作流程信息，如本公开中所描述的。
66.作为一个示例，图4示出了所需工作流程（在此情况下是工作流程32）的ui 40中的具体工作流程视图。ui 40示出了视频查看器或播放器41，其上具有用于选择性地播放工作流程视频、其暂停和倒带的视频控制按钮41a。该ui 40包括步骤导航辅助工具42，其允许用户在工作流程中导航到特定的任务。当步骤导航辅助工具41被点击或激活时，图5示出了ui 44，其示出了由ai stephanie系统10提取的所有步骤45（步骤45-01至45-14），这些步骤是自动示出的。在这个示例中，十四个步骤45以连续的时间顺序示出，其中任何步骤都可以选择跳到并查看与该步骤相关的视频和其他工作流程信息。导航器按钮46允许用户返回到图4的ui 40。
67.同样如图4所见，ui 40包括搜索按钮47，该按钮可以被激活以允许用搜索请求对工作流程32进行搜索。搜索按钮47链接或打开搜索ui 48，其包含搜索命令栏49。通过图6的ui 48，用户可以在工作流程的任何一个步骤中寻找一个或多个特定的对象，这通过在搜索命令栏49中键入他/她要寻找的关键词，或者使用他们的语音命令，诸如“stephanie，给我看看螺栓和螺母”。因此，搜索命令可以是文字或口头的搜索请求，或者也可能是其他类型的搜索请求，诸如有代表性的图像搜索。一旦搜索请求被输入，例如通过搜索关键词“螺母”，搜索请求就被转换为嵌入向量（embeddings），其是高维的数学向量，其中图6说明了已被ai系统10标记有与搜索请求相关联的关键词数据或其他搜索数据的步骤45的子集。换句话说，步骤45的子集具有与之相关联的术语“螺母”或其他具有类似词语嵌入向量的术语，因为它们可能指的是音频数据或视频数据中的螺母或具有类似含义的词语。搜索结果可以是具体的步骤45-01至45-14，或者是其中嵌入了关键词的步骤内的具体视频片段，在这样的短语中说到了这个词语或显示了一个对象。搜索项也可以在结果中高亮显示，例如在转录的文本的一部分中高亮显示。
68.然后可以选择所需的步骤45或其特定片段，并且所选择的工作流程45-04被示出在视频ui 40中，如图7所示。如可以看到的，在视频中可以看到各种螺母50。因此，通过图6和图7的导航特征，用户可以在特定的步骤、步骤的一部分或整个工作流程中寻找特定的一个或多个对象。
69.接下来关于图8，除了术语和对象之外，用户可以在工作流程中寻找特定的活动或任务。在索引期间，ai stephanie模块15的ai可以分析音频和视频数据以及任何其他捕获的数据，并学习和识别正在执行的特定活动或任务，并生成相应的步骤嵌入向量。ai模块15优选地不仅可以检测到何时活动/任务被执行，而且可以检测到它何时开始和结束。因此，在使用导航模块20时，用户也可以在工作流程中寻找特定的活动或任务，例如“stephanie，告诉我如何安装踏板”，并且导航模块20可以显示步骤45-09，它是显示这一活动的工作流程部分。ai模块15可以通过其在索引期间的自动数字识别来识别这是正在执行的动作，并且不一定要求该任务在利用捕获器模块12的捕获阶段期间或利用构建器模块16的编辑器
阶段期间由专家来标记。
70.参照图9，用户还可以在工作流程步骤期间要求获得更多的次级信息51，诸如“stephanie，给我显示图表”。如上文关于图2所述，在用构建器模块16编辑期间，次级图表51可能已经被输入到工作流程数据中。ai模块15也可以分析该次级信息51，并生成适当的嵌入向量或关键字标签，以将次级信息51与相关的工作流程步骤相关联。这些交互式图表和指导（图2的步骤25和26）可以由导航模块20通过交互式ui 52来访问，并响应于搜索请求或列出访问次级信息的各种选项的菜单树而显示。
71.参照图10，用户还可以改变工作流程的语言，并且他们还可以选择是否他们要在屏幕上显示相关语言的字幕。ai stephanie模块10将把原始语言翻译成所选的目标语言，并在对所捕获的数据进行索引的期间或在响应随后的翻译请求时生成对应的音频和字幕。ui 40包括设置按钮53，其打开允许用户访问由ai系统10生成的语言数据的选项框54，诸如语言和字幕以及自动播放和视频分辨率选项。图11示出了显示有翻译字幕的工作流程45-03。如图10和11所示，用户可以用ai stephanie系统10支持的多种语言访问工作流程内容，并配有语音和字幕。
72.参照图12a，ai系统10定义了ai平台解决方案，该解决方案捕获、索引并分享专家的专门知识，其中ai系统10是可扩展的，以部署到许多站点或设施，以用工作流程捕获模块12捕获复杂的专门知识，用索引模块14及其ai模块15组织和索引大量的复杂数据，用构建模块16细化结果，并用工作流程导航模块20传播和应用专门知识。此外，ai系统10可以进一步包括技能分析器模块60，其跟踪由导航模块20获得的、并且由ai模块15分析的使用数据，以进一步提高知识转移。优选地，ai模块15与每个单独的模块12、16、20和60进行通信和交互，以使用本文所述的ai技术来处理数据。
73.在由ai stephanie模块10进行索引和分析期间，从例如由工作流程捕获模块12获得的平面或线性数据生成多维专门知识图或知识图谱61。从某种意义上说，被捕获的视频基本上是平面数据，其可以在一段时间内与查看者一起查看。捕获模块12也可以捕获与工作流程相关联的其他数据。在由ai模块15处理所捕获的数据的期间，可以对所捕获的数据进行分析和处理，以便从音频、视频、文本、术语、对象、工作流程步骤、传感器数据等中识别数据成分，并将数据成分与其他数据成分相互链接、标记或关联，这基本上定义了多维的专门知识图或知识图谱61。
74.如本文所公开的，ai系统10是ai驱动的知识捕获和学习平台，其优选地在远程服务器上操作ai模块15，该远程服务器通过数据连接（诸如内部和外部数据网络和互联网）与其他模块进行通信。工作流程捕获器模块12可以是在各种设备（包括智能手机或平板电脑）上操作的捕获应用程序，它与视频和音频记录特征进行通信，以用于捕获你的专家工作流程的视频。捕获应用程序可以通过与远程ai服务器（ai模块15在其上操作）的宽带连接来与ai模块15进行通信，或者也可以将数据传输到中间设备（诸如个人电脑），该中间设备进而通过内部或外部网络或与远程ai服务器的宽带连接将所捕获的数据上传到ai模块15。工作流程构建器模块16可以作为一个编辑器，它可以在计算设备17上运行的chrome浏览器中运行，以用于编辑和发布工作流程，或者也可以是在计算设备17上独立运行的自己的软件应用程序。工作流程构建器模块16进而使用网络和/或与其连接的宽带连接与远程ai服务器进行通信。导航模块20也可以被提供为播放器，其在计算设备或显示设备19上的chrome浏
览器中运行，以用于查看和搜索已发布的工作流程。虽然捕获器模块12、构建器模块16、导航模块和技能分析器模块60都可以被提供为在不同的计算设备上操作的单独的软件应用程序，但这些模块还可以被提供为单个软件应用程序。此外，虽然这些模块可以在本地安装在计算设备上，但这些模块也可以被提供为托管在远程服务器上并由各种计算设备访问的saas程序。
75.参照图12b，ai系统10用作工作流程数字化系统，以便用捕获器模块12捕获专门知识，用ai模块15和构建器模块16组织专门知识，用导航模块20和技能分析器60将专门知识应用于各种实际应用。值得注意的是，所捕获的数据不仅可以通过工作记录62实时获取，还可以从现有的视频63、图示64、手册和说明65以及培训计划66获取。因此，所捕获的数据可以是实时创建或收集的，或者也可以是预先存在的数据，其中，所捕获的数据被输入到ai模块15进行分析和处理，并由ai stephanie创建专门知识图61。ai模块15使用以下技术中的一种或多种来处理所捕获的数据，所述技术包括深度学习/深度神经网络、自然语言处理(nlp)、计算机视觉、知识图谱、多模式工作流程分割、步骤嵌入和专门知识建图。
76.ai系统10对于利用工作流程导航模块20和技能分析器60将专门知识应用于多种实际用途特别有用。例如，ai系统10可以用于制作用于以下的视频：工作说明和建立标准操作程序（sop）67；培训和入职68；技能管理69；专门知识评估70；以及流程优化71。这些过程进一步允许模块20和60被用于：在个人退休前捕获其专家“专门知识”；安全培训；或销售人员和客户使用的产品的外部培训。ai系统10对于这些和许多其他用途的知识转移也是有用的。
77.一般来说，如图13所示，ai系统10优选地包括捕获专门知识、索引工作流程和将专门知识转移给另一个人所需的所有模块，其中ai stephanie模块15与这些阶段交互，以简化完成这些任务所需的人类交互的数量。例如，在图13的步骤1或阶段1中，个人70可以使用捕获器设备（诸如普通的智能手机71）来记录专家72做他们的正常工作，就像他们在训练学徒使用一个对象73（诸如机器或其控制面板）。所捕获的数据可以由ai模块15处理，以压缩和组合视频文件，优化音频，并过滤掉背景噪音。在步骤2或阶段2中由ai模块15进行的后续工作流程索引期间，专家72可能只需要在计算机上使用工作流程构建器16进行轻微的文本编辑和查阅。然而，ai模块可以接收或上传所捕获的数据到云端，并执行流程步骤识别，诸如识别工作流程步骤1和2，以及执行对所捕获的数据的视频编辑、转录和翻译。在步骤3或阶段3的将专门知识转移给另一个人74期间，这个人在合适的设备（诸如智能手机或平板电脑75）上通过分步的智能操作视频接受及时的学习。进而，个人可以查阅收视率的统计数据以持续改进，而ai模块15可以运行或收集关于背景诊断的数据以报告收视率的统计数据。因此，ai系统10包括人与人之间的交互和背景ai处理，其中ai处理可以与人的互动在不同时间运行或同时运行。
78.关于人/系统交互的附加细节，图14a和14b示出了工作流程捕获器模块12在捕获器设备13/71上操作，该捕获器设备13/71可以是图1中指出的将视频上传到捕获应用程序的视频摄像机13，或者可以是在捕获数据的过程期间操作捕获应用程序的计算设备（诸如智能手机或平板电脑71）上提供的视频和音频记录器。捕获器设备13/71和捕获应用程序用来在专家执行真正的工作或任务时，通过视频或其他数据格式捕获他们的工作流程和专门知识。在智能手机或平板电脑71上，捕获应用程序可以被编码成为本地操作系统（诸如ios
和android）编写的本地应用程序。捕获应用程序允许多语言捕获、抗噪音以适应工业环境、自动上传管理到ai服务器以及易于设置和使用。
79.ai系统10还可以包括音频输入设备77，诸如与捕获器设备71配对并由专家72佩戴的蓝牙耳机。同事70使用移动设备71上的捕获应用程序来记录专家72。在视频捕获或数据采集期间，专家72对着耳机77说话，以有用的详细程度描述他们正在执行的行动序列。一旦专家72完成了工作流程的执行，同事70就会完成捕获过程，例如通过检查捕获器设备13/71的显示器上的一个按钮80。如果专家72忘记了包括任何信息或任务，专家72可以在最后或在正在捕获的视频中间的任何时候不按顺序执行这些任务。ai系统10允许在编辑阶段期间对这些任务进行识别和重新排序。
80.捕获应用程序自动将所捕获的视频添加到要上传到ai模块15的门户的队列中。如下文所述，一旦被上传，ai stephanie模块15就分析专家执行的动作序列以及描述性叙述，以便将视频和音频分解为不连续的步骤。捕获应用程序被下载到移动设备71上并在其上工作，且用户登录该程序。捕获应用程序可以包括语言设置，其定义将被捕获的专家的优选口头语言。虽然这将简化ai模块15对所捕获的数据的处理，但ai模块15也可以分析文本并识别专家的语言。
81.捕获应用程序还存储并可以显示先前捕获的工作流程的列表。捕获应用程序自动将新捕获的工作流程视频添加到该队列中，以便上传到ai门户，这可能是立即的，或者也可能延迟到互联网连接变得可用时的时间。捕获应用程序包括记录视频按钮，其在专家执行他们的工作流程时开始对其进行实时记录。捕获应用程序还包括导入视频按钮，其用来将存储在移动设备上的先前记录的视频上传到ai门户。在记录期间，专家72优选地在整个工作流程中提供口头评论，以帮助查看者更好地理解任务，并且还允许ai模块15在其索引期间转录评论。
82.在记录期间，优选通过将摄像机聚焦于专家的面部和上身躯体来开始工作流程，并允许他们自我介绍并描述工作流程的目标。该数据可以被ai模块15用来识别视频内的专家72，因为它会分析专家72所操作的对象。一旦专家72开始他们的工作，捕获器设备71及其摄像机优选地聚焦于专家用他们的手和工具正在执行的物理任务。当工作流程已被捕获时，与记录按钮81相邻的检查标记按钮80被激活。然后，所捕获的工作流程可以被上传到ai门户，以便由ai stephanie模块15处理。
83.参照图15a和15b，ai工作流索引器16的ai模块15结合了多个过程和技术来处理、分析和索引所捕获的数据。例如，ai模块15可以使用自然语言处理（nlp）来识别和转录音频数据82的文本。另外，ai模块15可以使用图像分析和计算机视觉来分析视频数据83，识别视频中的机器、设备、零件、工具和/或其他对象，并将视觉或对象数据与文本数据相参照。ai模块15可以使用所存储或学习的对象数据来识别和检测视频中看到的对象，以及/或者可以通过与文本数据中的关键词或视频数据中看到的专家的物理运动进行比较来识别对象。图15b对这种分析进行了示意性说明。ai模块可以解析文本数据和视频数据，并且然后将相关的文本和对象链接起来，例如通过在专门知识或数据图61中标记视觉对象和文本或将视觉对象和文本与专门知识或数据图61链接在一起。可以对同时捕获的文本和视觉数据执行这样的标记或链接，而且也可以将这样的标记或链接应用于在所捕获的视频和音频的其他时间发生的文本和视觉数据。ai模块15可以学习对象和文本，并在整个工作流程过程或时
间轴上识别这样的对象或术语的其他出现。因此，ai stephanie模块16分析视频、索引视频并将视频分割成关键的工作流程步骤，并生成上述的多维专门知识图。
84.因此，ai模块15可以：执行关键词和关键图像的自动标记；将视频自动分割成步骤；自动总结步骤名称；执行多语言转换；以及执行自动字幕生成。索引的数据和与专门知识图相关联的数据最初由ai模块15生成，并且然后可以发布到工作流程构建器16，如图16所示。
85.图16说明了工作流程构建器16，其可以是在远程计算设备19上操作的程序或应用程序，或者如果按照本文的描述是saas配置，则通过计算设备19访问工作流程构建器16。计算设备19可以具有示出用户界面（ui）86的显示器85，其包括由上述ai模块15执行的索引操作所生成的索引信息。专家可以从构建器ui 86查阅在视频被ai模块15处理或索引之后，他在初始捕获步骤中准备的工作流程视频。
86.特别地，ui 86可以包括工作流程步骤87的索引列表，其列出了由ai模块15识别的步骤87。ui 86还包括播放器88，用于播放教程视频，并在截图群中显示分割的工作流程步骤89。此外，还显示文本框90，其显示允许专家进行少量的文本编辑和查阅的转录文本。转录文本也被用于导航模块中以用作字幕。因此，工作流程构建器16起到无缝集成视频、图表、字幕和翻译的作用，以便在索引后查看和编辑初始的教程视频，然后交付智能教程视频。
87.工作流程构建器16的ui 86允许专家查阅过程工作流程数据并从模块步骤构建工作流程。虽然ai模块15最初基于ai技术的使用来识别工作流程步骤，但专家可以使用ui 86查阅并重新配置工作流程步骤。此外，专家或其它编辑器可以将交互式图表与文本和视频片段链接起来，并可以对经处理的视频执行注释和视频修剪。ui 86还允许屏幕截图捕获，并且一旦工作流程构建器16完成编辑，最终的、经编辑的视频文件就可以上传到ai模块15。然后，ai模块15可以发布或分享工作流程视频到工作流程导航器20，以便以后知道如何传递。此外，ai模块15可以进一步分析编辑和变化，并基本上从编辑中学习和更新专门知识图61。工作流程构建器16还允许创建工作流程集合和工作流程库管理。
88.如上所述，工作流程导航器20随后可以被用于将专门知识转移给其他个人。图17a说明了具有工作流程90的第一步骤91-01的ui 90。图17b示出，在步骤列表ui 91中可显示步骤列表，并且如图17c所见，工作流程90的这些步骤可在搜索ui 92中搜索。因此，工作流程导航器20用来按照本文的描述以多种语言交付分步的工作流程指导。工作流程导航器20还支持通过搜索ui 92进行强大的视频内搜索，其中用户可以与ai模块15交互，随时随地以自己的节奏访问和观看新的视频或重新观看视频来学习。如本文关于图17a-17c和图1-11所描述的，工作流程导航器20提供交互式步骤菜单、工作流程步骤的分步导航、通过关键词和关键帧的视频内搜索、上下文图表查看、多语言音频、多语言字幕以及自适应视频分辨率。
89.关于图18和ai系统10的附加特征的更多细节，工作流程构建器16可以被用于工作流程管理。工作流程构建器16可以在如上所述的显示设备上操作，并显示ui 95，其使得用户能够可视化和管理组织内部捕获/创建的所有工作流程。ui 95包括切换按钮96，其可以在未发布的和已发布的工作流程之间进行切换，这些未发布的和已发布的工作流程可以作为工作流程的子集97显示在ui 95中。该特征使得用户能够控制哪些工作流程被查阅并被
公开，以及哪些工作流程正在被查阅并应保持未公布。
90.此外，可以激活下拉菜单按钮98以控制附加特征。该菜单可以包括上传视频按钮98-3，其使得用户能够通过视频文件（诸如mp4文件）向ai模块15上传工作流程，并且可以包括记录屏幕按钮98-4，其使得用户能够激活屏幕记录并将结果产生的视频作为可上传到ai模块15的工作流程。因此，不是如上所述记录专家的物理动作，而是可以从显示屏幕上记录使用屏幕上的动作和步骤的工作流程，然后将该捕获的视频上传以进行本文所述的索引和编辑。
91.接下来关于图19a-19c所示的工作流程构建器20，可以通过显示设备19上的浏览器来访问工作流程构建器16。在图19a中，ai stephanie模块15已经转录了本文所公开的音频数据，并在文本框90中向用户显示专家在视频中所说的所有内容。因此，ai系统10消除了用户转录所捕获的数据的需要，促进和加快了用户对播放器88中示出的索引视频的理解，并使得ai模块15能够自动生成字幕以减少用户人工工作。
92.作为一个特征，转录的文本可以被显示为文本框中的句子或短语90-1，其中所显示的文本对应于视频播放器88中显示的对应视频中的时间戳或时间位置。当视频可以使用带有移动光标的时间轴功能条88-1来查看时，用户可以选择一行选定的文本90-2，该文本将视频播放器88向前或向后倒退到该相同的位置。因此，该特征通过与所显示的文本90-1和其中的选定句子90-1进行交互实现了视频导航，而不是使用时间轴功能条88-1进行时间轴导航。
93.文本90-1的准确性可以由用户使用常规或虚拟键盘或其他文本输入选项来查阅和校正。文本框特征在用户和编辑器以及由ai模块15生成的ai结果之间创建了无缝协作。这种编辑特征最终加快了内容查阅过程，特别是由于编辑器可以一起查看文本和视频对象以澄清关于正确文本的任何问题。
94.在图19b中，示出了ui 86的替代模式，其包括文本框90和播放器88以及工作流程步骤87的列表和工作流程步骤89的集群。这种模式下的ui 86特别适合于修订转录，同时还重新配置索引的工作流程中的步骤或工作说明的分割。如参考数字87-1,2所指示，ai模块15自动分割显示在工作流程步骤87的列表中的工作说明，并通过ai生成的步骤标题的建议对步骤进行总结。这些步骤的标题可以由编辑器来编辑。
95.作为附加特征，工作流程构建器20还使得专家或编辑器能够编辑由ai stephanie模块15自动生成的初始分割。如在位置87-1,2所见，第一步骤01被高亮显示，这进而高亮显示了文本块，以示出步骤01和下一个连续步骤02或之前的连续步骤之间的断点87-3。断点87-3也可以在文本框90中示出为可见标记。如果编辑器希望修改这个断点，则可能通过将标记拖动到新的位置87-4来移动断点87-3处的标记。这就缩短了介绍步骤01的长度，以及延长了下一步骤02的长度。这个过程也可以反过来。因此，虽然ai模块15表现出识别合适断点的智能，但编辑器可以细化该初始断点位置。这仍然可以节省编辑时间，因为估计的断点通常接近于编辑器在逻辑上将两个步骤分开的地方。当该编辑被反馈到ai模块15时，ai模块15可以分析这个编辑并修改它对未来视频的断点估计。另外，当对断点87-3至87-4进行编辑时，文本框90中的这个动作也会自动编辑视频片段，这样编辑器就不需要查阅视频片段89来编辑它们各自的长度。
96.参照图19c，工作流程构建器20还具有用来促进视频的编辑的附加特征。ui 86可
以被切换到备用模式以获得附加编辑功能。在这种模式下，播放器88被放大，并且步骤88的视频片段以时间轴顺序89-1被示出。工作流程构建器16允许导航并编辑作为整个工作流程的构建块的单个工作流程步骤。在图19c中，编辑器也可以修改工作流程中的步骤的顺序，例如，通过将视频片段拖动到所显示的时间轴中的新位置。在一个示例中，专家在捕获过程期间可能忘记包括在工作流程中的通常位置处的步骤，但后来回去并执行该步骤，知道工作流程构建器20将允许编辑该步骤并将其移动到时间轴顺序89-1中的适当位置。
97.还可以提供插入按钮89-2，其使得编辑器能够从其他工作流程中导入步骤并将这些新导入的步骤插入到时间轴中。
98.工作流程构建器16还包括用于通过允许添加与工作流程步骤相关联或链接的不同信息层来增强超越基本视频能力的步骤的工具集。ui 86可以显示一个或多个按钮103，包括图19c中所示的查看器按钮103-1。ui 86还可以包括图示按钮103-2和修剪按钮103-3。例如，通过图示按钮103-2，编辑器可以将诸如图表、注释、手册、指导等信息层（其将被查看）链接起来，以便更全面地了解工作流程的步骤。
99.另外，可以提供语言按钮104，以使得用户能够选择语言，如果ai stephanie模块15尚未提供语言按钮104，则指示它自动翻译成所选语言。该特征还允许用户查阅/编辑翻译。
100.另一个特征是通过工具按钮105访问的，该工具按钮105能够以以下不同的格式和媒体分享工作流程：qr码、网络链接、嵌入的视频代码、带字幕的mp4等等。
101.关于上述特征的更多细节，通过使用图18的ui 95，编辑器或用户可以通过点击ui 95中提供的菜单按钮来在编辑器模式和播放器模式之间切换。如上所述，ui 95包括未发布和已发布的按钮96，以用于在对应工作流程的集合之间切换。新捕获的工作流程出现在未公布的集合中，并由指示符97-1（诸如横跨左上角的对角线带）来表示，并被标记为新的。对于编辑，用户可以从所显示的视频97中选择一个来进行工作。
102.在图19a中看到的编辑过程的第一步骤中，用户将查阅文本框90中的文本90-1，以查阅专家在工作流程的过程期间所说的文本转录的准确性。ai系统10通过提供右手边的播放器88中示出的所捕获的视频与左手边的文本框90中的对应文本转录之间的同步而使之方便。
103.如果用户注意到文本转录中的任何拼写错误，则用户可以仅仅点击该词并像人在常规文本编辑器中那样进行校正。ai系统优选地避免文本的编辑成为接合文本行以形成一个段落，因为段落的文本块可能导致长的文本字幕，并且还可能破坏视频和字幕之间的定时同步。如果一个词或短语在整个转录过程中多处出现错误，则工作流程构建器16包括查找和替换特征。一旦对文本进行了微小的改变，用户就可以点击保存按钮来将改变提交给ai门户，供ai模块15使用。
104.然后，用户可以点击以移动到图19b所示的编辑过程的第二步骤。同样，编辑过程中的这第二步的目标是查阅在ui 86左手侧的步骤列表87中列出的步骤顺序和步骤标签。如所述，该步骤列表是由ai stephanie模块15在分析所捕获的视频和音频期间准备和提出的。ai模块15通过提供步骤列表87中的步骤名称、文本框90中的步骤转录文本和播放器88中示出的该步骤的视频以及从步骤视频片段群89所示出的视频中选择代表帧而使之方便。
105.如果用户希望重新命名一个步骤，则他们可以点击步骤列表87中的步骤名称进行
编辑。如果他们希望调整步骤边界的开始或结束（诸如在87-3处），则他们可以移动步骤边界87-3。例如，用户可以点击并按住点状步骤边界（诸如在位置87-3处）中间的圆形图标，并将步骤边界向上或向下拖动到所期望的位置（诸如位置87-4）。这种步骤边界的调整也将调整视频片段89中示出的代表性视频帧。
106.作为另一个特征，如果不需要某个步骤，用户可以通过点击ui 86上提供的步骤垃圾桶图标来删除该步骤。请注意，这并不删除转录的文本或对应的视频，但它只移除步骤分组。类似地，用户可以通过点击步骤列表87中的加号图标来添加步骤，或者通过点击剪刀图标将特定的步骤切成两部分。然后，用户可以在步骤列表87中为新的步骤命名。一旦做出任何这些细微的改变，用户就可以点击保存按钮86-1，将编辑或改变提交给ai门户。然后，用户可以点击过程按钮86-2以移动到图19c中所示的编辑过程的最后步骤。
107.在打开工作流程到图19c的ui 86后，我们可以看到沿着ui 86的底部有带着代表图像的数字排序的工作流程步骤序列89。如果需要，用户可以点击工作流程步骤89中的任何步骤，并在页面中央的播放器88中观看对应的视频。
108.假设这步骤序列89在编辑后是可以接受的，用户可以点击发布或保存按钮106以确认其发布意图。用户现在可以关闭这个工作流程并返回到图18所示的编辑器的主屏幕。正如预期的那样，新的工作流程现在出现在工作流程97的发布集合中，并且可供同事观看。
109.进一步地，用户可以编辑工作流程步骤89的布置，如上文关于图19c所述。如上所述，用户可以通过点击、按住并拖动一个步骤到步骤序列89中的另一个位置来重新排列步骤的序列。此外，用户可以通过点击添加图标89-2，从集合中选择所需的步骤并点击页面底部的插入按钮，来向该序列中添加一个或多个附加的步骤。新的步骤出现在工作流程步骤89的开始，并且用户可以将新的步骤拖到前面所示的期望位置。类似地，用户可以通过在步骤图像上移动鼠标或其他选择器，并点击垃圾桶图标，从序列中移除一个步骤，并确认删除。
110.有时，图表可以帮助传达信息。可以以数字图像格式单独地存储该图表。用户可以通过选择步骤并且然后点击图示按钮或工具103-2来将图表与特定步骤89关联起来。这允许用户拖放图像文件，或从文件夹选择器中选择他们希望与该步骤关联的图像。
111.如果在特定步骤的开始或结束处有多余的视频需要移除，那么用户可以使用带有修剪按钮103-3的修剪工具。用户可以选择该步骤并点击修剪按钮103-3。用户可以在视频时间轴的开头或结尾处点击手柄（handle）图标，并移动到期望的位置。按下播放器88中的播放按钮以查阅修剪选择。然后用户选择页面上的修剪按钮来执行修剪动作。
112.视频的语言也可以被编辑。在一个示例性的工作流程中，专家在捕获步骤期间可能是说英语。然而，ai系统10可以将专家的语言翻译成若干可用语言。当用户点击右上方的翻译图标104时，ui 86将在屏幕的一侧上显示专家的英文文本转录。通过点击屏幕ui 86上的加号图标，用户将看到目标语言的列表，该英语文本可以被翻译成这些语言。例如，用户可以选择西班牙语，并且ai stephanie模块15将接收该命令，翻译原文并将翻译后的文本传输到工作流程导航器16，其中ui 86将在左边显示英语文本，并在右边显示西班牙语文本。然后，当被翻译成西班牙语时，讲英语和西班牙语的双语人士可以使用同步特征来查阅技术语的准确性。和以前一样，用户可以点击保存按钮106来提交任何改变，并关闭翻译工具。
113.再次地此处，用户可以点击发布按钮并确认其发布意图。用户现在可以关闭这个工作流程，并回到图18中编辑器的主屏幕。新的工作流程现在出现在发布的集合中，并且可供同事观看。一旦被发布，用户就可以通过点击分享图标与他人分享这个编辑过的工作流程。分享时，ai系统10可以生成一个唯一的链接，用户可以与任何人分享该链接，允许他们在工作流程导航器20的播放器中只查看这个工作流程或工作流程步骤。可替换地，可以将html代码片段复制并粘贴到另一个平台或网站上，使这个工作流程可用。再进一步，单个工作流程步骤可以作为基本的mp4文件下载。
114.接下来，上述描述的工作流程导航器20被进一步示出在图20a-20e中，其中以下描述补充了先前在上述图4-11中示出的工作流程导航器20的公开。图20a示出了期望工作流程的ui 40的具体工作流程视图，这里再次使用工作流程32作为参考。ui 40包括播放器41，用于选择性地播放工作流程的视频、其暂停和倒带。ui 40包括步骤导航辅助工具42，它访问允许用户在工作流程中导航到一个特定的任务的步骤菜单界面。该步骤菜单界面提供了工作流程说明中所有步骤的概述，以及选择要播放的步骤中的一个的能力。
115.ui 40还包括提供访问图表界面的图示访问按钮112。图表界面使得用户能够查看和浏览与具体打开的步骤相关的附加媒体内容（图表、pdf、图像、链接等）。搜索按钮47提供了对高级视频内搜索的访问，它使得用户能够在如上所述的工作流程的视频内容内搜索关键字、关键对象或关键图像。
116.参照图20b，用户仍然可以改变工作流程的语言，并且他们还可以选择是否他们要在屏幕上显示相关联语言的字幕。ui 40包括设置按钮53，其打开扩展的选项框54，该扩展的选项框54允许用户访问由ai系统10生成的语言数据，诸如语言和字幕以及自动播放和视频分辨率选项。选项框54允许用户打开/关闭ai自动生成的字幕以及语音，这使得用户能够以对其更方便的语言收听和/或阅读内容。
117.参照图20c，图表界面114使得用户能够查看和浏览与特定打开步骤相关的附加多媒体内容（图表、pdf、图像、链接等）。提供了用于查看一个或多个图表或图表界面114中取代的其他内容的查看器115。结果，工作流程32不再是一个静态的视频，而是关于到作为工作流程被捕获的特定目标主题的不同层次的信息和元数据的复杂组合。
118.参照图20d，导航辅助按钮42提供对步骤菜单界面的访问。步骤菜单界面提供了工作流程说明32的所有步骤的概览，以及选择要播放的步骤之一的能力。ui 44示出了自动示出的所有步骤45（步骤45-01至45-14）。在该示例中，十四个步骤45以连续的时间顺序示出，其中任何一个步骤都可以被选择，以跳到并查阅与该步骤相关联的视频和其他工作流程信息。导航器按钮46允许用户返回到图20a的ui 40。
119.接下来关于图20e，搜索按钮47提供了对高级视频中搜索的访问，其使得用户能够搜索工作流程的视频内容内的关键字、关键对象或关键图像。利用图20e的ui 48，用户可以在工作流程的任何一个步骤中寻找一个或多个特定的对象，这通过在搜索命令栏49中输入他/她要找的关键词，或者使用他们的语音命令，诸如“stephanie,给我显示扳手”。因此，搜索命令可以是文字或口头的搜索请求，或者也可能是其他类型的搜索请求，诸如有代表性的图像搜索。一旦输入搜索请求，例如通过搜索关键词“扳手”，图20e说明了步骤45的子集，该子集已被ai系统10用关键词数据或与搜索请求相关联的其他搜索数据标记。换句话说，步骤45的子集具有与它们相关联的术语“扳手”。
120.尽管为了说明的目的已经详细公开了本发明的特定优选实施例，但将认识到所公开的装置的变化或修改（包括部件的重新布置）都在本发明的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：霞军
技术所有人：深昊有限公司
我是此专利的发明人

上一篇：一种触控笔识别方法、装置、介质及设备与流程
上一篇：一种新能源汽车驱动电机的悬置结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。