股票舆情指数预测方法以及装置的制造方法_2

文档序号：9616545阅读：来源：国知局

新闻的数据源(也可以称为新闻大数据，如百度新闻大数据)中的一个或者多个。一个具体的例子，在实际应用中，不同类型的数据源包括:百度搜索大数据、百度社区大数据以及百度新闻大数据。
[0035]本实施例中的预先设置的预定模式的数量通常为多个，且本实施例中的预定模式是在金融学理论的基础上设置的，也就是说，本实施例中的预定模式是基于金融语言的预定模式；本实施例中的金融语言如被立案调查、资产重组、收购以及被收购等。上述金融语言也可以被称为基于金融学的描述信息。本实施例不限制金融语言的具体内容。
[0036]作为示例，本实施例中的预定模式通常可以包含两部分内容，一部分内容可以被描述为在预定数据源的实时数据中必须出现特定的金融语言(即基于金融学的描述信息)，另一部分内容可以被描述为特定的金融语言在特定数据源的实时数据中出现的次数应满足预定条件。一个具体的例子，本实施例中的一个预定模式可以被描述为:在特定数据源的实时数据中出现了“被立案调查”这一金融语言，且“被立案调查”这一金融语言在特定数据源的实时数据中出现的次数超过了其在过去20天在特定数据源的历史数据中出现的次数的均值再加上2倍标准差。本实施例不限制预定模式的具体表现形式。
[0037]作为示例，本实施例中的预定模式通常是针对特定数据源设置的，也就是说，本实施例中的每个数据源都对应有一个预定模式集合，且不同类型的数据源所对应的预定模式集合并不相同。另外，位于不同预定模式集合中的两个预定模式所针对的金融语言有可能相同，也有可能不相同。
[0038]作为示例，本实施例可以通过对各数据源中的历史数据进行数据挖掘来为各数据源分别设置其各自的预定模式。一个具体的例子，针对第一数据源而言，对第一数据源中的历史数据(如上半年的数据或者上一季度的数据等)进行数据挖掘，如根据预先设定的金融语言集合中的所有基于金融学的描述信息对历史数据进行过滤统计等处理，以确定出第一数据源的历史数据中针对第一股票标识信息所重复出现的所有基于金融学的描述信息(如被立案调查、资产重组、收购以及被收购等)；可选的，本实施例可以根据重复出现的所有基于金融学的描述信息生成频繁模式，本实施例所生成的频繁模式同预定模式一样也包括两部分内容(具体如上述针对预定模式的描述，在此不再重复说明)；之后，本实施例针对数据挖掘出的重复出现的每一个基于金融学的描述信息分别获取相应历史时期(如基于金融学的描述信息的最晚产生时间之后的几天内或者十几天内)的股票价格信息，并根据获取到的股票价格信息判断股票价格在该历史时期是否发生了波动，且股票价格波动是否符合预定要求，如果股票价格产生了波动且股票价格波动符合预定要求(如股票价格波动幅度超过一定的阈值等)，则本实施例可以利用相应的重复出现的基于金融学的描述信息生成预定模式；另外，在前述已经可选的生成了频繁模式的情况下，本实施例可以不再执行上述生成预定模式的操作，而是直接将该频繁模式作为预定模式。上述仅以第一数据源以及第一股票标识信息为例进行描述的，本实施例还可以利用第一数据源以及其他股票标识信息或者利用其他数据源以及各股票标识信息来生成预定模式，在此不再一一详细说明。
[0039]作为示例，本实施例中的实时数据也可以称为当前数据或者非历史数据或者新鲜数据或者未过时效的数据等，且本实施例中的实时数据通常是指数据产生时间在预定时间范围内的数据，如本实施例可以将当天的数据均作为实时数据，再如本实施例可以将前一天15:00到当天早7:00所产生的数据均作为实时数据。
[0040]作为示例，本实施例的根据股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计，以确定不同类型的数据源中针对上述股票标识信息所存在的各预定模式可以具体为:针对第一数据源而言，对第一数据源中的第一条实时数据进行文字过滤操作(也可以称为文字识别操作)，以确定第一条实时数据中是否包含有需要进行股票舆情指数预测的股票标识信息；在确定出第一条实时数据中没有包含股票标识信息的情况下，继续对该第一数据源中的第二条实时数据进行文字过滤操作；而在确定出第一条实时数据中包含有股票标识信息的情况下，继续判断第一条实时数据中是否包含有第一数据源所对应的各预定模式中的特定金融语言，在判断出第一条实时数据中没有包含第一数据源所对应的任意一个预定模式中的特定金融语言或者第一条实时数据所包含的特定金融语言并不是针对需要进行股票舆情指数预测的股票标识信息的情况下，继续对该第一数据源中的第二条实时数据进行文字过滤操作；而在判断出第一条实时数据包含有第一数据源所对应的一个或者多个预定模式中的特定金融语言，且第一条实时数据所包含的特定金融语言是针对需要进行股票舆情指数预测的股票标识信息时，针对第一条实时数据所包含的特定金融语言进行相应的统计操作，并判断本次统计操作的结果是否满足第一数据源所对应的相应预定模式中的预定条件，如果判断结果为本次统计操作的结果满足第一数据源所对应的相应预定模式中的预定条件，则将该相应预定模式确定为第一数据源中存在的预定模式，如果判断结果为本次统计操作的结果不满足第一数据源所对应的相应预定模式中的预定条件，则不会将该相应预定模式确定为第一数据源中存在的预定模式；之后，继续对该第一数据源中的第二条实时数据进行文字过滤操作。以此类推，直到针对各数据源中的各实时数据分别进行了上述文字过滤操作以及上述各判断操作，即可确定出不同类型的数据源中针对需要进行股票舆情指数预测的股票标识信息所存在的各预定模式。
[0041]S120、根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值计算确定股票标识信息的股票舆情指数。
[0042]具体的，本实施例中的各数据源分别预先设置有权重值，本实施例中的各数据源所对应的所有预定模式也分别预先设置有权重值，且本实施例中的各数据源的权重值以及各数据源所对应的所有预定模式的权重值都是可以动态调整的。
[0043]作为示例，本实施例的计算确定股票标识信息的股票舆情指数的一个具体过程可以为:将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加，从而可以将叠加后的数值作为股票标识信息的股票舆情指数。
[0044]一个更具体的例子，设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2，设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式A、权重值为+2的预定模式B以及权重值为-3的预定模式C，百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式E以及权重值为-2的预定模式F，百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式Η以及权重值为-2的预定模式I ;如果对于第一股票标识信息而言，通过上述步骤S110确定出百度搜索大数据中存在的预定模式为预定模式Β、百度社区大数据中存在的预定模式为预定模式Ε以及百度新闻大数据中存在的预定模式为预定模式Η，则本实施例针对第一股票标识信息所预测出的股票舆情指数为:0.5X2+0.3X1+0.2X4 = 2.1。
[0045]作为示例，本实施例的计算确定股票标识信息的股票舆情指数的另一个具体过程可以为:将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加，将叠加获得的数值进行映射处理，以使叠加获得的数值被转换为预定区间(如[-1，1])中的数值，从而可以将映射处理后的数值作为股票标识信息的股票舆情指数。映射处理后的数值能够更加明确的表现出市场近期对股票的极性以及强度所持的态度。本实施例可以采用多种方式对叠加获得的数值进行映射处理，本实施例不限制映射处理的具体实现方式。
[0046]—个更具体的例子，设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2，设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式Α、权重值为+2的预定模式Β以及权重值为-3的预定模式C，百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式Ε以及权重值为_2的预定模式F，百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式Η以及权重值为-2的预定模式I ;如果对于第一股票标识信息而言，通过上述步骤S110确定出百度搜索大数据中存在的预定模式为预定模式Β、百度社区大数据中存在的预定模式为预定模式Ε以及百度新闻大数据中存在的预定模式为预定模式Η，则本实施例叠加后的数值为:0.5X2+0.3X1+0.2X4 = 2.3，将叠加后的数值进行[-1，1]区间的映射处理，映射处理后获得的针对第一股票标识信息所预测出的股票舆情指数为:0.6。
[0047]需要特别说明的是，上述仅举例说明了本实施例根据相应的权重值计算股票舆情指数的两种具体实现过程，本实施例还可以根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值采用其他计算方法来确定股票标识信息所对应的股票舆情指数，本实施例不限制根据相应的权重值计算股票舆情指数的具体实现方式。
[0048]下面对本实施例中的各数据源的权重值以及各预定模式的权重值的设置方式进行举例说明。
[0049]本实施例预先为各数据源分别设置权重值的一个具体的例子为，预先为各数据源分别设置初始权重值，如首先将百度搜索大数据的初始权重值设置为0.5，将百度社区大数据的初始权重值设置为0.3，并将百度新闻大数据的初始权重值为0.2，然后，获取各数据源的历史数据(如上半年的数据或者上个季度的数据等)，并利用历史数据来预测多个股票标识信息(如目前A股市场中的所有股票标识信息)的股票舆情指数；由于使用的各数据源的数据为各数据源中的历史数据，因此，本实施例可以利用当前能够获取到的各股票在相应历史时期的实际股票价格来检测当前预测出的各股票的股票舆情指数的准确性，如利用预定算法(神经网络算法等)对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习，以最终确定百度搜索大数据、百度社区大数据以及百度新闻大数据的当前权重值(如提高反映实际股票价格能力强的数据源的当前权重值，并降低反映实际股票价格能力弱的数据源的当前权重值)。
[0050]本实施例预先为各数据源中的预定模式分别设置权重值的一个具体的例子为，在上述步骤S110的为各数据源设置预定模式的过程中，本实施例还可以为不同数据源中的预定模式设置权重值，即在设置预定模式的过程中根据股票价格波动的幅度为相应的预定模式设置权重值等，如对股票价格波动的幅度进行判断，在股票价格波动的幅度为上升幅度时，将预定模式的权重值设

完整全部详细技术资料下载

当前第2页1 2 3 4 5