使用合理人群数据对自主运载工具轨迹进行评分的制作方法

文档序号：29078712发布日期：2022-03-01 23:27阅读：47来源：国知局

1.以下的说明通常涉及对自主运载工具和/或其它对象的轨迹进行评分。

背景技术：

2.当面临交通情景时，自主运载工具(av)软件堆栈可以规划遵守在规则手册中体现的一组规则(诸如避免碰撞、遵守交通法规、以及为乘员提供舒适的乘车等)的一个或多个轨迹。不同的av软件堆栈可以生成各自均遵守规则手册的不同轨迹。在一些情况下，可能希望具有对来自针对给定交通情景的多个候选轨迹中的轨迹进行评分的可解释的方式。

技术实现要素：

3.提供了一种技术，这些技术用于使用机器学习模型来对与相同或不同的交通情景相关联的两个或更多个轨迹进行评分，其中使用从观察轨迹的计算机模拟的多个人类注释者所收集的数据(在这里称为合理人群数据)来训练该机器学习模型。
4.在实施例中，一种方法，包括：使用一个或多个处理器，针对在环境中操作的运载工具生成一组轨迹，所述一组轨迹中的各轨迹与交通情景相关联；使用所述一个或多个处理器，针对所述一组轨迹中的各轨迹预测合理性得分，其中所述合理性得分是从机器学习模型和损失函数获得的，所述机器学习模型是使用从多个人类注释者获得的输入来训练的，所述损失函数用于惩罚违反规则手册结构的合理性得分的预测；使用所述一个或多个处理器，利用针对所述轨迹所预测的合理性得分来增强所述运载工具的路线规划器；使用所述一个或多个处理器，利用增强后的路线规划器来规划所述环境中的轨迹；以及使用所述运载工具的控制电路来沿着所规划的轨迹操作所述运载工具。
5.在实施例中，一种方法，包括：使用一个或多个处理器来获得一个或多个交通情景的一组实现，其中各实现包括交通情景和运载工具穿越所述交通情景的轨迹；使用所述一个或多个处理器以及规则手册，将各实现转换成一组得分，所述一组得分对应于该实现遵守所述规则手册中的不同规则的程度；使用以所述一组得分作为输入的机器学习模型，预测所述一组实现的合理性得分；使用所述一个或多个处理器，从多个人类注释者获得注释，所述注释用于指示各实现的合理性；使用所述一个或多个处理器，至少部分地基于所述注释来生成地面真值数据；使用所述一个或多个处理器，最小化所述地面真值数据和所预测的合理性得分的损失函数，其中所述损失函数用于惩罚违反规则手册结构的合理性得分的预测；以及使用所述一个或多个处理器，基于最小化后的损失函数的输出来确定所述机器学习模型的参数。
6.在实施例中，所述损失函数是铰链损失函数或松弛损失函数。
7.在实施例中，所述机器学习模型是线性支持向量机。
8.在实施例中，所述机器学习模型是神经网络。
9.在实施例中，使用所述机器学习模型来生成针对所述一组实现所预测的合理性得分还包括：提供所述一组实现的伪图像嵌入作为对所述神经网络的输入。
10.在实施例中，所述伪图像嵌入是鸟瞰图嵌入即bev嵌入。
11.在实施例中，使用所述机器学习模型来生成针对所述一组实现所预测的合理性得分还包括：提供针对所述一组实现的矢量嵌入作为对所述神经网络的输入。
12.在实施例中，所述一组实现包括相同的交通情景。
13.在实施例中，将第一组得分输入到所述机器学习模型中，并且所述机器学习模型预测第一合理性得分，然后将第二组得分输入到所述机器学习模型中，并且所述机器学习模型预测第二合理性得分。
14.在实施例中，从所述多个人类注释者获得人类注释还包括：使用所述一个或多个处理器来获得与交通情景相关联的实现对；使用所述一个或多个处理器来渲染所述实现对；使用所述一个或多个处理器来将经渲染的实现对呈现给所述多个人类注释者；以及使用所述一个或多个处理器来从所述多个人类注释者获得针对经渲染的实现对的注释。
15.在实施例中，至少部分地基于人类注释来生成地面真值数据还包括：将用于预测配对比较的结果的统计模型拟合到人类注释。
16.在实施例中，交通情景包括充满其它智能体、这些智能体的起始位置和这些智能体的轨迹的地图。
17.在实施例中，所述规则手册包括转变为数学规则的交通法规、道路规则和利益相关者需求的集合。
18.在实施例中，所述规则手册具有用于对不同规则的相对重要度进行编码的优先级结构。
19.在实施例中，将所述一组实现渲染成三维视频即3d视频。
20.在实施例中，人类注释指示偏好一对实现中的一个实现而不是另一实现，并且利用用于输出如下值的函数对所述注释进行编码，其中所述值用于指示注释者偏好所述一对实现中的第一实现而不是所述一对实现中的第二实现。
21.在实施例中，所述机器学习模型是在图像上训练的卷积神经网络。
22.在实施例中，所述损失函数用于至少部分地基于所述规则手册的对一对轨迹中的哪个轨迹为优选的预测，来惩罚合理性得分的预测。
23.所公开的实施例中的一个或多个提供了以下优点中的一个或多个。训练机器学习(ml)模型以预测针对给定交通情景的av轨迹的合理性得分。在实施例中，所预测的得分可用于调整路线规划器及其性能，比较两个av堆栈，强化学习以及任何其它期望的应用。
24.这些和其它方面、特征和实现可被表示为方法、设备、系统、组件、程序产品、用于进行功能的方法或步骤以及其它方式。
25.从以下的包括权利要求书的说明书，这些和其它方面、特征和实现将变得明显。
附图说明
26.图1示出根据一个或多个实施例的具有自主能力的自主运载工具(av)的示例。
27.图2例示根据一个或多个实施例的示例“云”计算环境。
28.图3例示根据一个或多个实施例的计算机系统。
29.图4示出根据一个或多个实施例的av的示例架构。
30.图5a是示出根据一个或多个实施例的具有车道标记和人行横道的交叉口的地图。
31.图5b是根据一个或多个实施例的示出行人正在交叉口处穿过道路的示例交通情景的图5a的地图。
32.图5c是根据一个或多个实施例的示出穿越交叉口的示例av轨迹的图5b的地图。
33.图6是根据一个或多个实施例的用于允许人类注释者从一对轨迹中选择轨迹的示例注释工具界面。
34.图7是根据一个或多个实施例的具有部分有序结构的示例规则手册。
35.图8示出根据一个或多个实施例的ml训练过程。
36.图9示出根据一个或多个实施例的要用作神经网络的训练数据的交通情景的示例鸟瞰图(bev)嵌入(伪图像)。
37.图10是根据一个或多个实施例的使用ml模型来预测av轨迹的合理性得分的处理的流程图。
38.图11是根据一个或多个实施例的训练ml模型以预测av轨迹的合理性得分的处理的流程图。
具体实施方式
39.在以下描述中，为了解释的目的，阐述了许多具体细节，以便提供对本发明的透彻理解。然而，显而易见的是，本发明可以在没有这些具体细节的情况下实施。在其它实例中，众所周知的构造和装置是以框图形式示出的，以避免不必要地使本发明模糊。
40.在附图中，为了便于描述，显示了示意要素的具体安排或次序，例如表示设备、模块、指令块和数据要素的那些要素。然而，本领域技术人员应当理解，附图中示意要素的具体排序或安排并不意味着要求特定的处理顺序或序列、或处理过程的分离。此外，在附图中包含示意性要素并不意味着在所有实施例中都需要这种要素，也不意味着由这种要素表示的特征不能包括在一些实施例中或不能在一些实施例中与其它要素结合。
41.此外，在附图中，连接要素、例如实线或虚线或箭头用于说明两个或两个以上其它示意要素之间的连接、关系或关联，没有任何此类连接要素并不意味着不能存在连接、关系或关联。换句话说，一些要素之间的连接、关系或关联未在附图中显示，以便不掩盖本发明。此外，为了便于说明，使用单个连接要素来表示要素之间的多个连接、关系或关联。例如，如果连接元件代表信号、数据或指令的通信，本领域技术人员应理解，该元件代表影响通信可能需要的一个或多个信号路径(例如，总线)。
42.现在将详细参考实施例，其示例在附图中示出。在下面的详细描述中，阐述了许多具体细节，以便提供对所描述的各种实施例的透彻理解。然而，对于本领域的普通技术人员来说明显的是，可以在没有这些具体细节的情况下实施所描述的各种实施例。在其它情况下，没有详细描述众所周知的方法、程序、组件、电路和网络，以便不会不必要地掩盖实施例的方面。
43.下面描述的若干特征可以彼此独立地使用，也可以与其它特征的任何组合一起使用。但是，任何个别特征可能不能解决上述任何问题，或者只能解决上述问题之一。上文讨论的一些问题可能不能通过本文所述的任何一个特征得到充分解决。虽然提供了标题，但在本说明的其它地方也可以找到与某一标题有关但在该标题部分未找到的信息。本文根据以下概要描述实施例：
44.1.总体概述
45.2.系统概述
46.3.自主运载工具架构
47.4.使用利用合理人群数据所训练的机器学习模型来对与交通情景相关联的轨迹进行评分
48.总体概述
49.提供了用于使用从“合理人群”收集的数据来训练机器学习模型并且使用该机器学习模型来对av轨迹进行评分的技术。av可以以不同的方式穿越给定交通情景。不同的av路线规划器可以选择不同的轨迹作为用以穿越交通情景的优选方式。然而，希望为av选择“最佳”轨迹来穿越交通情景。“最佳”轨迹可以是主观的，但大多数人可以同意最佳轨迹是至少允许av遵守交通法规、保持舒适和符合道德等的轨迹。然而，即使这些要求中的最客观要求即遵守交通法规实际上也是模棱两可的。还希望理解特定av软件堆栈选择一个轨迹而不是另一轨迹的原因。
50.以下所述的实施例使用可以以可解释的方式对轨迹进行评分的ml模型。人类注释确定ml模型的参数。为了实现可解释性，使用规则手册或其它模型将av如何穿越特定交通情景分解成可以从形式上进行分析以向av轨迹指派合理性得分的人类可理解的分量。然后，经训练的ml模型可以在av的实时操作期间使用，以针对由例如规划模块(参见图4)输出的交通情景的输入轨迹对来预测合理性得分。在实施例中，合理性得分可用于决定(例如，排名)av应选择多个候选轨迹中的哪个轨迹来穿越给定交通情景，即使候选轨迹仅基于对规则手册的遵从性、或者针对对轨迹进行评分提供了益处的任何其它应用一样好。
51.系统概述
52.图1示出具有自主能力的自主运载工具100的示例。
53.如本文所使用的，术语“自主能力”是指一种功能、特征或设施，该功能、特征或设施使运载工具能够部分地或完全地运行，而无需实时的人类干预，包括但不限于完全自主运载工具、高度自主运载工具、部分自主运载工具和有条件自主运载工具。
54.如本文所使用的，自主运载工具(av)是一种具有自主能力的运载工具。
55.如本文所使用的，“运载工具”包括货物或人员的运输方式。例如，小汽车、公共汽车、火车、飞机、无人机、卡车、船只、舰艇、潜水器、飞船等。无人驾驶的小汽车是运载工具的示例。
56.如本文所使用的，“轨迹”是指将av从第一时空地点操作到第二时空地点的路径或路线。在实施例中，第一时空地点被称为初始地点或起始地点，第二时空地点被称为目的地、最终地点、目标、目标位置或目标地点。在一些示例中，轨迹穿越一个或多个地图路段(例如，道路的数段)，并且各路段由一个或多个块(例如，车道或交叉口的一部分)组成。在实施例中，时空地点对应于真实世界地点。例如，时空地点是上车或下车地点，以使人员或货物上车或下车。
57.如本文所使用的，“(一个或多个)传感器”包括一个或多个硬件组件，用于检测与传感器周围环境有关的信息。一些硬件部件可包括感测部件(例如，图像传感器、生物测量传感器)、发送和/或接收部件(例如，激光或射频波发射器和接收器)、电子部件(例如，模数转换器)、数据存储装置(例如，ram和/或非易失性存储器)、软件或固件部件和数据处理部
件(例如，专用集成电路)、微处理器和/或微控制器。
58.如本文所使用的，“场景描述”是一种数据结构(例如，列表)或数据流，其包括由av运载工具上的一个或多个传感器检测到的一个或多个分类或标记的对象，或由av外部的源提供的一个或多个分类或标记的对象。
59.如本文所使用的，“道路”是一个可以被运载工具穿过的物理区域，并且可以对应于已命名的通道(例如，城市街道、州际高速公路等)或可对应于未命名的通道(例如，房屋或办公楼内的行车道、停车场的一段、空置停车场的一段、乡村地区的污物通道等)。因为有些运载工具(如四轮驱动的小卡车、越野车(suv)等)能够穿越各种不特别适合运载工具行驶的物理区域，因此“道路”可以是任何市政当局或其它政府或行政机构没有正式界定为一条通道的物理区域。
60.如本文所使用的，“车道”是道路的可被运载工具穿过的部分，并且可对应于车道标记之间的大部分或全部空间，或仅对应于车道标记之间的部分空间(例如，小于50％)。例如，具有相距很远的车道标记的道路可能容纳两个或两个以上的运载工具，使得一个运载工具可以在不穿过车道标记的情况下超过另一个运载工具，因此可被解释为车道比车道标记之间的空间窄，或车道之间有两个车道。在没有车道标记的情况下，也可以对车道进行解释。例如，可以基于环境的物理特征(例如，农村地区的岩石和沿着大道的树木)来定义车道。
61.如本文所使用的，“规则手册”是转变为精确的数学规则的交通法规、道路规则和利益相关者需求的集合。规则手册可以具有对与不同规则的相对重要度有关的信念进行编码的优先级结构。在图7中示出具有部分排序的示例规则手册。在该示例中，人类安全优先于违反停车规则，并且停车规则和停止规则同样重要，其中优先级从上到下减小。该优先级结构可以对一些轨迹(例如，行人被撞的轨迹和av非法停车的轨迹)、但不是所有轨迹(例如，诸如停放的小汽车被撞的轨迹和动物被撞的另一轨迹等)进行排名。可以在censi等人的liability,ethics,and culture-aware behavior specification using rulebooks(https://arxiv.org/abs/1902.09355)中发现与规则手册有关的更多详情。
62.如本文所使用的，“实现(realization)”包括交通情景和av的通过交通情景的轨迹。
63.如本文所使用的，“交通情景”是充满智能体(agent)、这些智能体的起始位置和这些智能体的轨迹的地图。
64.如本文所使用的，“机器学习模型”包括在数据上训练以进行预测的任何模型，该模型包括但不限于：人工神经网络、支持向量机、决策树、回归分析、贝叶斯网络和遗传算法。
65.如本文所使用的，“合理人群数据”包括在多个人类注释者观察通过给定交通情景的两个或更多个轨迹的计算机模拟时、从这些人类注释者收集的数据。
66.如本文所使用的，“合理性得分”是由在“合理人群数据”上训练的ml模型预测的得分。
[0067]“一个或多个”包括由一个要素执行的功能，由多个要素执行的功能、例如以分布式的方式，由一个要素执行的几个功能，由几个要素执行的几个功能，或上述的任意组合。
[0068]
还将理解的是，尽管在某些情况下，术语“第一”、“第二”等是用来描述各种要素
的，但这些要素不应受到这些术语的限制。这些术语仅用于区分一个要素与另一个要素。例如，在未背离各种所述实施例的范围的情况下，第一触点可被称为第二触点，并且同样，第二触点可被称为第一触点。第一触点和第二触点都是触点，但这两者不是相同触点。
[0069]
此处描述的各种实施例的描述中使用的术语仅用于描述特定实施例，而不是意在限制。正如在所描述的各种实施例和所附权利要求书的描述中所使用的，单数形式“a”、“an”和“the”也意在包括复数形式，除非上下文另有明确说明。还应理解，本文所用的"和/或"一词是指并且包括一个或多个相关清单项目的任何和所有可能的组合。还应理解的是，在本说明中使用的术语“包括”、“包含”、“具备”和/或“具有”具体说明存在所述的特征、整数、步骤、操作、要素和/或组成部分，但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、要素、组成部分、和/或上述的组。
[0070]
如本文所使用的，“如果”一词可选择地理解为在该情况下、在当时、或者响应于检测到、或响应于确定为，视上下文而定。同样，“如果已确定”或“如果[所述条件或事件]已被检测到”这一短语，视情境而定，可以理解为“在确定时”或“响应于确定为“或”在检测到[所述条件或事件]时”或“响应于检测到[所述条件或事件]”。
[0071]
如本文所使用的，av系统是指av以及实时生成的支持av操作的硬件、软件、存储的数据和实时生成的支持av运作的数据。在实施例中，av系统并入在av内。在实施例中，av系统跨多个地点分布。例如，av系统的一些软件是在类似于下面结合图3描述的云计算环境300的云计算环境中实现的。
[0072]
一般而言，本文件描述了适用于任何具有一种或多种自主能力的运载工具的技术，包括完全自主运载工具、高度自主运载工具和有条件自主运载工具，如所谓的第5级、第4级和第3级运载工具(见sae国际标准j3016：道路上机动车自动驾驶系统相关术语的分类和定义，通过引用将其全部内容纳入本说明，以了解运载工具自主权等级的更多详细信息)。本说明所述技术也适用于部分自主运载工具和驾驶员辅助运载工具，如所谓的2级和1级运载工具(见sae国际标准j3016：道路上机动车自动驾驶系统相关术语的分类和定义)。在实施例中，一个或多个1级、2级、3级、4级和5级运载工具系统可根据对传感器输入的处理，在某些操作条件下自动执行某些运载工具操作(例如，转向、制动和使用地图)。本文件中所述的技术可以使从完全自主运载工具到人类操作的运载工具的各级运载工具受益。
[0073]
参考图1，av系统120使av 100沿着轨迹198运行，穿过环境190至目的地199(有时称为最终地点)，同时避开对象(例如，自然障碍物191、运载工具193、行人192、骑车者和其它障碍物)和遵守道路规则(例如，操作规则或驾驶偏好)。
[0074]
在实施例中，av系统120包括用于从计算机处理器146接收操作命令并对其进行操作的装置101。在实施例中，计算处理器146与下面参考图3描述的处理器304相似。装置101的示例包括转向控制器102、制动器103、挡位、加速踏板或其它加速控制机构、挡风玻璃雨刮器、侧门锁、窗控器和转向指示器。
[0075]
在实施例中，av系统120包括用于测量或推断av 100的状态或条件的属性的传感器121，这些属性诸如是av的位置、线速度和加速度及角速度和加速度、以及航向(例如，av 100的前端的方向)。传感器121的示例是gnss、以及测量运载工具线性加速度和角速率的惯性测量单元(imu)、用于测量或估计车轮滑移率的车轮速率传感器、车轮制动压力或制动扭矩传感器、引擎扭矩或车轮扭矩传感器以及转向角度和角速率传感器。
[0076]
在实施例中，传感器121还包括用于感测或测量av的环境的属性的传感器。例如，可见光、红外或热(或两者兼有)光谱的单目或立体摄像机122、lidar 123、radar、超声波传感器、飞行时间(tof)深度传感器、速率传感器、温度传感器、湿度传感器和降水传感器。
[0077]
在实施例中，av系统120包括数据存储单元142和存储器144，用于存储与计算机处理器146或由传感器121收集的数据相关的机器指令。在实施例中，数据存储单元142与以下结合图3描述的rom 308或存储装置310类似。在实施例中，存储器144与下面描述的主存储器306类似。在实施例中，数据存储单元142和存储器144存储有关环境190的历史、实时和/或预测性信息。在实施例中，存储的信息包括地图、驾驶性能、交通拥堵更新或天气条件。在实施例中，与环境190有关的数据通过来自远程数据库134的通信通道传输到av 100。
[0078]
在实施例中，av系统120包括通信装置140，用于将对其它运载工具的状态和条件(诸如位置、线性和角速度、线性和角加速度以及线性和角航向等)的测量到或推断的属性传送到av 100。这些装置包括运载工具到运载工具(v2v)和运载工具到基础设施(v2i)通信装置以及用于通过点对点或自组织(ad hoc)网络或两者兼而有之进行无线通信的装置。在实施例中，通信装置140跨电磁频谱(包括无线电和光通信)或其它介质(例如，空气和声学介质)进行通信。运载工具对运载工具(v2v)、运载工具对基础设施(v2i)通信(以及在一些实施例中为一种或多种其它类型的通信)的组合有时被称为运载工具对所有事物(v2x)通信。v2x通信通常符合一个或多个通信标准，用于与自主运载工具进行的和在自主运载工具之间的通信。
[0079]
在实施例中，通信装置140包括通信接口。例如，有线、无线、wimax、wi-fi、蓝牙、卫星、蜂窝、光、近场、红外或无线电接口。通信接口将数据从远程数据库134传输到av系统120。在实施例中，远程数据库134嵌入云计算环境200中，如图2中所述。通信接口140将从传感器121收集的数据或与av 100操作有关的其它数据传输到远程数据库134。在实施例中，通信接口140向av 100传输与远程操作有关的信息。在一些实施例中，av 100与其它远程(例如，“云”)服务器136通信。
[0080]
在实施例中，远程数据库134还存储和传输数字数据(例如，存储道路和街道地点等的数据)。这些数据存储在av 100上的存储器144中，或者通过通信通道从远程数据库134传输到av 100。
[0081]
在实施例中，远程数据库134存储和传输与以前在一天中类似时间沿着轨迹198行驶的运载工具的驾驶属性有关的历史信息(例如，速率和加速率分布)。在一个实现中，这种数据可以存储在av 100上的存储器144中，或者通过通信通道从远程数据库134传输到av 100。
[0082]
位于av 100上的计算装置146基于实时传感器数据和先验信息以算法方式生成控制动作，使得av系统120能够执行其自主驾驶能力。
[0083]
在实施例中，av系统120包括连接到计算装置146的计算机外围设备132，用于向av 100的用户(例如，乘员或远程用户)提供信息和提醒并接收来自该用户的输入。在实施例中，外围设备132类似于下面参考图3讨论的显示器312、输入装置314和光标控制器316。连接是无线的或有线的。任意两个或更多的接口设备可以集成到单个设备中。
[0084]
示例云计算环境
[0085]
图2例示示例“云”计算环境。云计算是一种服务交付模式，可以方便、按需地在网
络上访问共享的可配置计算资源池(例如网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)。在典型的云计算系统中，一个或多个大型云数据中心容纳用于递送云所提供的服务的机器。现在参考图2，云计算环境200包括通过云202互连的云数据中心204a、204b和204c。数据中心204a、204b和204c为连接到云202的计算机系统206a、206b、206c、206d、206e和206f提供云计算服务。
[0086]
云计算环境200包括一个或多个云数据中心。通常，云数据中心(例如图2中所示的云数据中心204a)是指构成云(例如图2中所示的云202或云的特定部分)的服务器的物理排列。例如，服务器在云数据中心中物理排列成房间、组、行和机架。云数据中心有一个或多个区域，其中包括一个或多个服务器房间。每个房间有一行或多行服务器，每行都包括一个或多个机架。每个机架包括一个或多个单独的服务器节点。在一些实现中，区域、房间、机架和/或行中的服务器根据数据中心设施的物理基础设施要求(包括电力、能源、热力、热源和/或其它要求)分为若干组。在实施例中，服务器节点类似于图3中描述的计算机系统。数据中心204a具有许多分布在多个机架上的计算系统。
[0087]
云202包括云数据中心204a、204b和204c以及用于连接云数据中心204a、204b和204c并有助于促进计算系统206a-f对云计算服务的访问的网络和网络资源(例如，网络设备、节点、路由器、交换机和网络电缆)。在实施例中，该网络表示一个或多个本地网络、广域网或通过使用地面或卫星连接部署的有线或无线链路连接的网际网络的任意组合。通过网络交换的数据采用多种网络层协议(如internet协议(ip)、多协议标签交换(mpls)、异步传输模式(atm)、帧中继(framerelay)等)进行传输。此外，在网络代表多个子网络的组合的实施例中，在每个底层子网络上使用不同的网络层协议。在一些实施例中，网络代表一个或多个互连网际网络(例如公共互联网等)。
[0088]
计算系统206a-f或云计算服务消费者通过网络链路和网络适配器连接到云202。在实施例中，计算系统206a-f被实现为各种计算装置，例如服务器、台式机、膝上型计算机、平板电脑、智能手机、物联网(iot)设备、自主运载工具(包括小汽车、无人机、航天飞机、火车、公共汽车等)和消费电子产品。在实施例中，计算系统206a-f在其它系统中实现或作为其它系统的一部分实现。
[0089]
计算机系统
[0090]
图3例示计算机系统300。在实现中，计算机系统300是一种专用计算装置。专用计算装置被硬连线以执行这些技术，或包括诸如一个或多个专用集成电路(asic)或现场可编程门阵列(fpga)等的被持久编程为进行上述技术的数字电子装置，或可包括一个或多个通用硬件处理器，这些硬件处理器经编程以根据固件、存储器、其它存储器、或者组合中的程序指令执行这些技术。这种专用的计算装置还可以将定制的硬线逻辑、asic或fpga与定制的编程相结合来完成这些技术。在各种实施例中，专用计算装置是台式计算机系统、便携式计算机系统、手持设备、网络设备或包含硬线和/或程序逻辑以实现这些技术的任何其它设备。
[0091]
在实施例中，计算机系统300包括总线302或用于通信信息的其它通信机制、以及与总线302连接以处理信息的硬件处理器304。硬件处理器304是例如通用微处理器。计算机系统300还包括主存储器306，例如随机存取存储器(ram)或其它动态存储装置，连接到总线302以存储信息和指令，该信息和指令由处理器304执行。在一个实现中，主存储器306用于
在执行要由处理器304执行的指令期间存储临时变量或其它中间信息。当这些指令存储在处理器304可访问的非暂时性存储介质中时，使计算机系统300变成一个专用机器，该机器被定制以执行指令中指定的操作。
[0092]
在实施例中，计算机系统300还包括只读存储器(rom)308或连接到总线302的其它静态存储装置，用于存储处理器304的静态信息和指令。提供诸如磁盘、光盘、固态驱动器或三维交叉点存储器等的存储装置310，并连接到总线302以存储信息和指令。
[0093]
在实施例中，计算机系统300通过总线302连接到诸如阴极射线管(crt)、液晶显示器(lcd)、等离子体显示器、发光二极管(led)显示器或用于向计算机用户显示信息的有机发光二极管(oled)显示器等的显示器312。包括字母数字键和其它键的输入装置314连接到总线302，用于向处理器304传送信息和命令选择。另一种类型的用户输入装置是光标控制器316，例如鼠标、轨迹球、触控显示器或光标方向键，用于将方向信息和命令选择传送到处理器304，并用于控制光标在显示器312上的移动。这种输入装置通常具有两个轴线上的两个自由度，第一轴线(例如，x轴)和第二轴线(例如，y轴)，这两个轴线允许装置指定平面上的位置。
[0094]
根据一个实施例，这里的技术由计算机系统300执行，以响应处理器304执行主存储器306中包含的一个或多个指令的一个或多个序列。这些指令从诸如存储装置310等的另一存储介质读入主存储器306。执行主存储器306中包含的指令序列使处理器304执行本文所述的处理步骤。在替代实施例中，使用硬连线电路代替或与软件指令结合使用。
[0095]
此处使用的术语“存储介质”是指存储数据和/或指令的任何非暂时性介质，这些数据和/或指令使机器以特定方式运行。这种存储介质包括非易失性介质和/或易失性介质。非易失性介质例如包括诸如存储装置310等的光盘、磁盘、固态驱动器或三维交叉点存储器。易失性介质包括动态存储器，诸如主存储器306等。存储介质的常见形式包括例如软盘、软盘、硬盘、固态驱动器、磁带或任何其它磁数据存储介质、cd-rom、任何其它光数据存储介质、任何具有孔型的物理介质、ram、prom和eprom、flash-eprom、nv-ram、或任何其它存储芯片或存储盒。
[0096]
存储介质有别于传输介质，但可以与传输介质相结合使用。传输介质参与存储介质之间的信息传输。例如，传输介质包括同轴电缆、铜线和光纤，其包括具备总线302的电线。传输介质也可以采取声波或光波的形式，如在无线电波和红外数据通信过程中产生的声波或光波。
[0097]
在实施例中，各种形式的介质涉及向处理器304携带一个或多个指令序列以供执行。例如，这些指令最初是在远程计算机的磁盘或固态驱动器上执行的。远程计算机将指令加载到其动态存储器中，并使用调制解调器通过电话线路发送指令。计算机系统300的本地调制解调器接收电话线路上的数据，并使用红外发射机将数据转换为红外信号。红外检测器接收红外信号中携带的数据，并且适当的电路将数据放置在总线302上。总线302将数据承载到主存储器306，处理器304从主存储器306检索并执行指令。主存储器306接收的指令可以任选地在处理器304执行之前或之后存储在存储装置310上。
[0098]
计算机系统300还包括连接到总线302的通信接口318。通信接口318提供耦合到连接至本地网络322的网络链路320多双向数据通信。例如，通信接口318是综合业务数字网(isdn)卡、电缆调制解调器、卫星调制解调器或用以提供与相应类型电话线路的数据通信
100行驶轨迹414到达目的地412的方式来操作av的控制功能420a～420c(例如，转向、油门、制动、点火)。例如，如果轨迹414包括左转，则控制模块406将以如下方式操作控制功能420a～420c：转向功能的转向角度将使得av 100左转，并且油门和制动将使得av 100在进行转弯之前暂停并等待经过的行人或运载工具。
[0107]
使用利用合理人群数据训练的机器学习模型来对与交通情景相关联的轨迹进行评分
[0108]
如前面所述，av可以以不同的方式穿越给定交通情景。然而，希望为av选择“最佳”轨迹来穿越交通情景。以下所述的实施例使用ml模型来以可解释的方式预测av轨迹的合理性得分。在实施例中，合理性得分是实数，并且得分越高，轨迹越合理。人类注释通知模型的参数。为了实现可解释性，在实施例中，可以使用规则手册将av如何穿越交通情景分解成可以从形式上进行分析以向av轨迹指派合理性得分的人类可理解的分量。在对ml模型进行训练之后，ml模型然后可以在av的实时操作期间使用以针对av穿越交通情景的两个或更多个轨迹预测合理性得分。这些得分可用于决定av应选择哪个轨迹来穿越给定交通情景。以这种方式，可以选择一个轨迹而不是另一轨迹，因为根据合理人群数据，该一个轨迹更“合理”。
[0109]
交通情景
[0110]
在实施例中，交通情景具有以下的相关特征：
[0111]
·
地图m：路网和静态环境(例如，建筑物、道路标记)的拓扑结构。图5a是示出包括具有车道标记和人行横道501的街道交叉口500的拓扑结构的地图。
[0112]
·
情景b：作为充满其它智能体、这些智能体的起始位置和这些智能体的轨迹的地图的交通情景的背景。图5b示出智能体502(行人)即将在交叉口进入人行横道501的示例交通情景。
[0113]
·
轨迹t：给定交通情景中的av的轨迹。
[0114]
·
情景b的实现w，w∈wb：实现包括交通情景和av的通过该交通情景的轨迹。图5c示出示例av 503穿越交叉口500。
[0115]
注释
[0116]
需要带注释的数据来对ml模型进行训练。在实施例中，要注释的原始数据是如下的交通情景的集合：
[0117]
b＝{b1,...,b
l
}
ꢀꢀ
[1]，
[0118]
以及如下的与各个交通情景相关联的一组实现：
[0119]
w＝{w
b1
,...,w
bl
}
ꢀꢀ
[2]。
[0120]
然后，向人类注释者示出这些实现的子集并且要求人类注释者对这些实现进行排名。具体地，排名π是实现w的集合的置换：
[0121]
(w1,...,wm)
→
(π(w1),...,π(wm))
ꢀꢀ
[3]，
[0122]
其中：m∈z
+
是要排名的实现的数量，并且π(wi)是实现wi的排名，π用作对ml模型进行训练所基于的地面真值数据。注意，要求注释者对实现进行排名或评级，因为期望人类为特定实现提供绝对得分是不现实的。
[0123]
成对比较
[0124]
为了减少人类注释者的认知负荷，在实施例中，向注释者示出一对实现，并且要求
注释者选择他们认为最合理的实现。
[0125]
从形式上，考虑一组m个实现{w1,...,wm}。存在个方式来对m个实现配对。在例如计算机画面上向注释者示出这样的对，并且要求注释者选择他们的偏好实现，例如更合理的实现等。在实施例中，利用函数h对注释者的偏好进行编码：
[0126][0127]
其中：(w
i(k)
,w
j(k)
)是用以对m个实现进行配对的第k个可能的方式，并且i,j是在1和m之间的整数。可以使用其它函数来对注释者的偏好进行编码，或者可以直接使用该偏好。
[0128]
注意，实现对不限于来自相同的交通情景。然而，为了提高数据质量，实现对可被局限于来自相同的情景。此外，为了解释含噪声的注释以及注释者的偏差，可以要求多个人类注释者对同一对实现(w
i(k)
,w
j(k)
)进行注释。此外，注意，考虑到编码函数h，可以通过使用在nihar b.shah,sivaraman balakrishnan,adityanand guntuboyina,and martin j.wainwright.stochastically transitive models for pairwise comparisons:statistical and computational issues,2015中所述的诸如bradley-terry模型等的随机传递模型来创建地面真值数据π。
[0129]
上述实现可以通过不同的方式获得。在实施例中，人类主体坐在以不同方式穿越相同的真实交通状况的运载工具中。然而，这是极其昂贵的。在替代实施例中，使用摄取利用测试用例编辑器用手所创建的或者通过模拟交通的算法所创建的表示的模拟器。该模拟器产生三维(3d)视频，然后向人类注释者示出这些3d视频。
[0130]
图6是根据一个或多个实施例的用于允许人类注释者从一对轨迹中选择轨迹的示例注释工具界面600。工具界面600的其它实施例也是可以的。在所示的示例中，利用指令“合理的驾驶员最有可能如a还是b那样行动”在例如计算机画面上以并排呈现的方式向人类注释者示出视频601a(a)和视频601b(b)。界面600包括导航控件，诸如允许注释者重放视频的播放按钮等。注释者可以点击视频601a、601b其中之一以指示他们的偏好。导航控件还包括图形用户界面(gui)元素，以允许注释者在不同的交通情景之间向后和向前移动。
[0131]
规则手册
[0132]
如以上定义的，“规则手册”是转变为数学规则的交通法规、道路规则和利益相关者需求的集合：
[0133]ri
:w
→
r,i＝1...n
ꢀꢀ
[5]，
[0134]
其中：假定存在n个规则，并且r是一组实数。函数ri(w)指示av在w中违反或满足特定规则的程度。例如，ri(w)可以指示av是否仍在道路上。
[0135]
规则手册还可以具有对与不同规则的相对重要度有关的信念进行编码的优先级结构。在图7中示出具有部分排序的示例规则手册700。注意，人类安全优先于违反停车规则，并且停车规则和停止规则同样重要，其中优先级从上到下减小。该部分有序的结构可以对一些轨迹(例如，行人被撞的轨迹和av非法停车的轨迹)、但不是所有轨迹(例如，诸如停放的小汽车被撞的轨迹和动物被撞的另一轨迹等)进行排名。
[0136]
ml模型-设置
[0137]
在实施例中，定义可以将合理性得分指派至任意实现的合理性评分函数s：
[0138]
s:w
→rꢀꢀ
[6]，
[0139]
使得在且仅在“合理人类”偏好w1而不是w2的情况下，s(w1)》s(w2)，其中w1和w2是两个不同的实现。
[0140]
函数s可以直接对实现起作用，但为了实现可解释性，函数s的体系结构可能受到约束，使得函数s首先将实现ws嵌入到从规则手册获取的规则集合中，然后使用ml模型来处理这些规则：
[0141]
s(w)≈s
rules
(e
rules
(w))
ꢀꢀ
[7]，
[0142]
其中：规则嵌入包含规则手册的输出，并且完全可解释为：
[0143]erules
(w)＝(r1(w)r2(w)
…rn
(w))
t
∈rnꢀꢀ
[8]。
[0144]
函数s
rules
是基于规则违反或满足来对轨迹进行评分的经学习的ml模型，并且例如可以是完全连接的神经网络或决策树。注意，针对s
rules
存在一些约束。假定ri(w)越大指示对规则i的满足更大，则存在如下的约束：
[0145]srules
(e
rules
(w)+δαi)》s
rules
(e
rules
(w))
ꢀꢀ
[9]。
[0146]
对于1≤i≤n，任何w和δ均是任何正实数。变量αi是n维中的第i个单位矢量，并且除作为1的第i个条目以外，其余均为0。等式[9]规定，如果两个实现w1和w2是相同的，则除了w2在更大程度上违反特定规则以外，w1必须比w2更合理。
[0147]
图8示出根据一个或多个实施例的ml训练过程800。在所示的示例中，在实现w的数据库801中查询一对实现(w1,w2)。然后，使用一个或多个规则手册1804来将这些实现转换成e
rules
(w1)和e
rules
(w2)，其各自是指示av遵守不同规则(例如，交通法规)的程度的得分的列表/矢量。ml模型806处理e
rules
(w1)和e
rules
(w2)，并且对w1和w2进行评级。如果例如ml模型806将w1评级得高于w2，则ml模型806预测到w1比w2更合理。如参考图6所述，如由被示出w1和w2的3d渲染803的多个人类注释者805所确定的，如果不为真，则修改ml模型806的参数。注意，在其它实施例中，代替对实现对进行注释，注释者可以将任意数量的轨迹相对于彼此进行排名。
[0148]
调整模型参数
[0149]
ml模型806存在需要根据训练数据确定的许多参数。特别地，假定训练数据数据库包括k个实现对及其关联标记，这通过以下给出：
[0150]
d＝{(xk,yk)}
ꢀꢀ
[10]，
[0151]
xk≡(uk,vk)
ꢀꢀ
[11]，
[0152]
yk≡h(uk,vk)
ꢀꢀ
[12]，
[0153]
其中：uk和vk是实现，并且k＝1
…
k。
[0154]
学习问题被提出为分类问题：考虑到一对实现x＝(u,v)及其关联标记y＝h(u,k)，ml模型806预测实现u是否比实现v更合理。在实施例中，ml模型806被运行两次(针对erules(u)和erules(v)各自各一次)，并且生成两个预测：合理性得分s(u)和s(v)。得分差异被定义为如下：
[0155]
d(x)＝s(u)-s(v)
ꢀꢀ
[13]，
[0156]
其中：ml模型806用于采用以下方式对x进行分类：
[0157][0158]
然后，通过最小化目标(损失)函数来确定ml模型806的参数：
[0159][0160]
其中：在的情况下，l(y,d(x))惩罚该模型。惩罚的大小由d(x)确定。l
reg
是正则项，并且例如可以是l1或l2正则项。l
rb
惩罚违反规则手册的结构的预测：
[0161][0162]
其中：λ
rb
是对l
rb
相对于其它损失项的重要度进行编码的正标量，并且是实现uk是否比vk优选的规则手册的预测，uk和vk是第k个样本中的一对实现，其中k＝1
…
k(因此yk＝h(uk,vk))。注意，规则手册不能始终比较两个实现，在这种情况下yk等于在两个实现其中之一违反更高层级结构级别中的规则的情况下，规则手册可以仅比较这两个实现。具体地，
[0163][0164]
可能的损失函数
[0165]
在实施例中，铰链损失函数可用作目标函数。铰链损失预期在具有标记y＝+1的样本和具有标记y＝-1的样本之间存在明确的边缘。铰链损失函数是通过以下给出的：
[0166]
l
hinge
＝(y,d(x))＝max(0,1-y*d(x))
ꢀꢀ
[18]，
[0167]
其中：d(x)是对输入x的差异得分。在另一实施例中，可以使用允许松弛的不同损失函数，其是通过以下给出的：
[0168]
l
slack
＝(y,d(x))＝max(0,-1-y*d(x))
ꢀꢀ
[19]。
[0169]
在实施例中，可以使用l1或l2损失、或者l1和l2损失(经平滑的l1损失)的组合。例如，l2损失是通过以下给出的：
[0170]
l
l2
＝(y,d(x))＝max(0,-ysign(d(x))d(x)2)
ꢀꢀ
[20]。
[0171]
回归学习实施例
[0172]
在实施例中，如在nihar b.shah,sivaraman balakrishnan,adityanand guntuboyina,and martin j.wainwright.stochastically transitive models for pairwise comparisons:statistical and computational issues,2015中所述，通过使随机传递模型拟合到注释者的偏好来将地面真值数据指派到实现。
[0173]
该随机传递模型提供样本xk＝(uk,vk)的地面真值回归目标，其中k＝1
…
k：
[0174][0175]
其中：是指派至实现u的地面真值得分。然后，直接将参数d(xk)与进行比较，并且使用诸如l2回归损失等的回归损失。可选地，可以直接将s(u)与
进行比较。
[0176]
示例体系结构
[0177]
在所公开的实施例中，可以采用多种ml模型。人工神经网络特别流行，并且在实践中表现很好。然而，为简单起见，可以使用线性支持向量机(线性svm)。线性svm也更容易解释。其它模型包括但不限于回归分析、贝叶斯预测、多层感知机和遗传规划。
[0178]
在实施例中，线性svm即f
svm
向规则手册中的各规则指派权重。更大的权重指示更重要的规则。然后，线性svm按以下方式用规则得分e
rules
(w)对实现w进行评级：
[0179]fsvm
(e
rules
(w))＝α.e
rules
(w)
ꢀꢀ
[22]，
[0180]
其中：α∈rn，并且为简单起见，省略了偏置项。
[0181]
对于输入x＝(u,v)，通过以下给出差异得分：
[0182]
d(x)＝α.e
rules
(u)-α.e
rules
(v)
ꢀꢀ
[23]
[0183]
＝α.(e
rules
(u)-e
rules
(v))
ꢀꢀ
[24]。
[0184]
因此，可以通过运行线性svm一次而不是两次来在数据(x,y)上训练线性svm。规则差异被提供为(e
rules
(u)-e
rules
(v))。线性svm采用在等式[18]中示出的铰链损失，并且对于线性svm，l2正则项的形式为λα.α，其中λ∈r。
[0185]
替代嵌入
[0186]
尽管交通法规对驾驶员的行为产生强烈影响，但交通法规不是确定驾驶员的行为的唯一因素。诸如其它智能体的行为以及如何挡住驾驶员的视野等的其它因素也发挥作用。交通法规单独并不包含足以始终理解注释者对构成合理行为的偏好的信息。即使将规则扩展到包括未编码在法规中的行为(例如，惩罚振荡轨迹的规则)，给定的一组规则也可以不包括所有相关因素。
[0187]
图9示出根据一个或多个实施例的要用作神经网络的训练数据的交通情景的示例性鸟瞰图(bev)嵌入900。在实施例中，如在行为预测文献中通常使用的，通过将特定场景的许多相关方面嵌入到bev伪图像中来在该场景中捕获更多信息。这样的嵌入例如可以是如下的函数：
[0188]eimg
:w
→
rc
×h×wꢀꢀ
[25]
[0189]
该函数将情景映射到高度h、宽度w和c通道的伪图像。例如，在图9所示的伪rgb图像中，c＝3并且包括可驾驶区域901、人行横道902等。所学习的评分函数将对嵌入e
img
(w)而不是e
rules
(w)起作用，并且等式[7]将被替换为：
[0190]
s(w)≈s
img
(e
img
(w))
ꢀꢀ
[26]。
[0191]
因而，将实现嵌入在伪图像中提供了用以对规则嵌入进行比较、通知和验证的替代合理性评分方法。例如，基于所学习的嵌入的ml模型与基于规则嵌入的ml模型之间的大的性能差距启示出相关规则可能丢失。
[0192]
注意，在实施例中，s
img
可以是卷积神经网络(cnn)，因为计算机视觉社区已表现出它们对伪图像的优越有效性。如在kaiming he,xiangyu zhang,shaoqing ren,and jian sun.deep residual learning for image recognition,2015或者可选地the vgg network described in karen simonyan and andrew zisserman.very deep convolutional networks for large-scale image recognition,2014中所述，所使用的cnn例如可以是残差网络。
[0193]
在其它实施例中，可以使用其它类型的嵌入，诸如直接在轨迹的矢量表示上起作用的矢量嵌入等。在jiyang gao等人的vectornet:encoding hd maps and agent dynamics from vectorized representation.arxiv:2005.04259v1[cs.cv]中描述了矢量嵌入。
[0194]
附加用例
[0195]
a.评价规划器性能
[0196]
在实施例中，所描述的技术可用于调整路线规划器及其性能。考虑l个交通情景的集合：
[0197]
β＝{b1,
…
,b
l
}
ꢀꢀ
[27]。
[0198]
在各情景上运行路线规划器。路线规划器使用如上所述的经训练的ml模型来预测l个交通情景中的各交通情景的轨迹：
[0199]
{w1,
…
,w
l
}
ꢀꢀ
[28]。
[0200]
ml模型对各个轨迹进行评级，这样得到l个得分：
[0201][0202]
可以根据这些得分来针对规划器形成度量。例如，该度量可以是得分的平均值：
[0203][0204]
另外，得分可以通过识别规划器在哪些情景上表现得差来帮助对规划器进行微调。然后，可以改变规划器的参数或设计以解决不足的性能。
[0205]
b.比较两个av堆栈
[0206]
在实施例中，合理人群得分提供了用以比较两个av软件堆栈的性能的方式。av软件堆栈可以在一个或多个子系统实现(例如，规划器和/或对象检测器)中有所不同。在实施例中，使用等式[30]的度量来比较av软件堆栈的性能。
[0207]
c.强化学习
[0208]
在实施例中，使用上述经训练的ml模型作为强化学习算法中的奖励函数。在现实世界的机器人中，设计良好的奖励函数对于获得合理的行为是至关重要的。
[0209]
示例处理
[0210]
图10是根据一个或多个实施例的在av的实时操作期间使用ml模型来预测av轨迹的合理性得分的处理1000的流程图。处理1000例如可以由参考图3所述的计算机系统300来实现。
[0211]
处理1000从生成av的一组轨迹开始，其中各轨迹与交通情景相关联(1001)。例如，av的规划模块404可以针对交通情景生成各自满足规则手册中的规则的多个候选轨迹。
[0212]
处理1000继续预测各轨迹的合理性得分，其中合理性得分是从机器学习模型和损失函数获得的，其中该机器学习模型是使用从多个人类注释者获得的输入来训练的，该损失函数惩罚违反规则手册结构的合理性得分的预测(1002)。例如，可以利用通过将实现对嵌入到规则手册的规则中所生成的规则手册得分的集合来训练经训练以预测合理性得分的ml模型，其中得分集合指示或对应于特定实现遵守这些规则(即，违反或满足这些规则)的程度。
[0213]
处理1000继续将所预测的合理性得分用于改善运载工具路线规划器的性能、比较
两个或更多个运载工具软件堆栈、用作对强化学习算法的奖励，或者由可以受益于对运载工具轨迹进行评分的机器学习模型的任何其它应用使用(1003)。例如，规划模块404可以使用所预测的合理性得分来选择av穿越交通情景(即，避免与行人502碰撞)所要使用的最合理的轨迹。
[0214]
图11是根据一个或多个实施例的训练ml模型以预测av轨迹的合理性得分的处理1100的流程图。处理1100例如可以由参考图3所述的计算机系统300来实现。
[0215]
处理1100从获得一个或多个交通情景的一组实现开始，其中各实现包括交通情景和运载工具穿越该交通情景的轨迹(1101)。在实施例中，人类主体坐在以不同方式穿越相同的真实交通状况的运载工具中。在替代实施例中，使用摄取利用测试用例编辑器用手所创建的或者通过模拟交通的算法所创建的表示的模拟器。该模拟器产生3d视频，然后将这些3d视频为人类注释者呈现在诸如计算机显示器等的显示器上。
[0216]
处理1100继续使用规则手册将该组实现转换成各实现的一组得分，该一组得分对应于轨迹遵守规则手册中的不同规则的程度(1102)。在实施例中，将这些实现嵌入在从规则手册获取的规则集合中，其中规则手册包括转变为精确的数学规则的交通法规、道路规则和利益相关者需求的集合。针对各实现存在一组得分，其中该组中的各特定得分指示轨迹遵守特定的相应规则的程度。在实施例中，规划模块将各轨迹的所有得分相加，并且总得分最高的轨迹将被选择作为针对特定交通情景的av的“最佳”轨迹。然而，如果可利用具有相同得分的多个候选轨迹，则如在下一处理步骤中所述，可以查看合理的得分来帮助选择最合理的轨迹。
[0217]
处理1100继续使用以一组得分作为输入的机器学习模型来预测一组实现的合理性得分(1103)。该机器学习模型可以是可被训练以预测合理性得分的任何模型，该模型包括但不限于线性svm，或者在实现嵌入在伪图像中的情况下，例如包括但不限于cnn。
[0218]
处理1100继续从多个人类注释者获得指示各实现的合理性的注释(1104)。例如，如参考图6所述，可以将实现对渲染为二维(2d)或3d视频并呈现给多个注释者。要求注释者选择他们认为最合理的一对实现。该对实现可以包括相同的交通情景或不同的交通情景。
[0219]
处理1100继续至少部分基于注释来生成地面真值数据(1105)。例如，这些注释可以通过在注释者偏好第一实现的情况下输出第一值(例如，+1)、并且在其它情况下输出另一值(例如，-1)的函数来编码。然后，该函数可用于例如使用随机传递模型(诸如bradley-terry模型等)来创建地面真值数据。
[0220]
处理1100继续最小化地面真值数据和所预测的合理性得分的损失函数，其中该损失函数惩罚违反规则手册结构的合理性得分的预测(1106)。在实施例中，铰链损失函数可用作目标函数。在另一示例中，可以使用允许松弛的损失函数。在又一实施例中，可以使用l1或l2损失、或者l1和l2损失(经平滑的l1损失)的组合。
[0221]
处理1100继续基于最小化后的损失函数的输出来确定机器学习模型的参数(1107)。例如，可以使差异合理性得分最小化。
[0222]
在先前描述中，已经参考许多具体细节描述了本发明的实施例，这些具体细节可因实现而不同。因此，说明书和附图应被视为说明性的，而非限制性意义的。本发明范围的唯一且排他的指示、以及申请人期望是本发明范围的内容是以授权权利要求的具体形式从本技术授权的权利要求书的字面和等同范围，包括任何后续修正。本文中明确阐述的用于
被包括在此类权利要求中的术语的任何定义应当以此类术语如在权利要求书中所使用的意义为准。另外，当在先前的说明书或所附权利要求书使用术语“还包括”时，该短语的下文可以是附加的步骤或实体、或先前所述的步骤或实体的子步骤/子实体。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：O
技术所有人：动态AD有限责任公司
我是此专利的发明人

上一篇：一种贯穿灯双灯同检电检装置及系统的制作方法
上一篇：一种辐射管烧嘴用烟气双极换热器制作工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。