一种SM3杂凑算法的硬件加速方法

文档序号：35503646发布日期：2023-09-20 16:27阅读：19来源：国知局

本发明涉及信息安全加密以及数字芯片设计领域，尤其涉及一种国产杂凑算法sm3的硬件加速方法。

背景技术：

1、目前信息安全技术已融入到社会经济、生活以及国家安全等方方面面，已经成为整个社会稳定运行的保障。随着半导体技术的飞速发展，以asic芯片或fpga的形式对信息安全算法的加速方法已经广泛运用于各种信息安全产品中。相比于信息安全算法在通用处理器上使用软件方法实现，硬件实现运行速度更快、安全性更高。现代密码学是网络信息安全的理论基础，而密码杂凑算法在现代密码学中起着重要的作用。密码杂凑算法可以将任意长度的消息压缩成固定的字符串输出。在商业密码中主要应用于数据的完整性校验，身份认证，秘钥推导和随机数生成器等方面，常用的杂凑算法有sha-1、sha-2、md5等。国家密码局在2010年发布国产杂凑算法sm3，该算法在sha-256的基础上改进实现。sm3算法由于运算复杂，其运算速度瓶颈主要在迭代压缩的过程，在通用处理器上使用软件实现运行效率较低。本发明提出一种硬件加速方法，通过逻辑复用的方法，减少迭代压缩过程耗费的周期数，适用于sm3算法在fpga上的实现和asic实现。

技术实现思路

1、本发明的技术目的是：

2、为了提高sm3算法的运算速度和数据吞吐量，同时保持芯片面积和功耗在一个较低的水平，为sm3杂凑算法提供一种高性能的硬件加速方案，解决sm3算法压缩效率低的问题，以满足杂凑速率较高的应用需求。

3、本发明实现的技术方案：

4、sm3算法对输入消息的处理过程如下：

5、1.在消息数据m末尾加上1比特数据1，再添加若干个0。将输入消息长度用64比特数表示填充到消息末尾，使得填充完毕的消息长度可以被512整除。

6、2.将填充完的消息m′分成n个512比特的分组m′＝b(0)b(1)…b(n-1)，将b(i)分成16个字w0，w1，…，w15。使用扩展函数将16个分组扩展为132个分组，w0，w1，…，w67，w0′，w1′，…，w63′。

7、3.对消息分组进行压缩，其中b(i)是以扩展后132个字的形式输入。

8、for i＝0 to n-1

9、v(i+1)＝cf(v(i)；b(i))

10、endfor

11、本发明的硬件顶层模块图如图1所示。输入数据位宽为32比特，输出数据位宽为256比特，分为消息填充模块msg_padding，同步fifo模块fifo_syn，和压缩模块compression三个部分。sm3算法中消息扩展的步骤，在压缩函数模块中实现，即消息扩展步骤和迭代压缩步骤并行运算。本发明消息输入接口使用类似amba总线的valid/ready握手协议，新增start和last信号表示输入消息的开始和结尾，支持任意长度的消息输入。

12、消息填充模块完成对输入消息的分组和填充，输入消息为32比特，需要产生的分组为512比特。设计状态机对分组合和填充过程进行控制，状态图如图2所示。当last信号为0时，对消息进行复制整合成512比特的分组，按分组输出，同时对接收的消息计数。当last信号为1时，表示此时消息输入结束。根据最后一个分组已经接收的数据量的不同情况，进行对消息的填充。当最后一个分组接收数据量小于447比特时，在消息末尾填充1比特数据1，再填充若干个0，最后填充64比特的消息长度值。当最后一个分组接收数据量等于447比特时，填充1比特1和消息长度值。当分组接收数据量大于447比特时，此时需要填充1比特数据1，填充若干个0到该分组的第512比特，并扩展出一个分组继续填充0，直至填充到扩展分组的448比特，再填充64比特的消息长度值。消息输出到同步fifo，同时将同步fifo的almost_full信号取非，用作为消息输入接口的ready信号，即当同步fifo的almost_full信号为1时，反压上游消息输入。当消息输入停止时，由状态机控制的消息填充过程可能产生额外的一个分组，因此使用同步fifo的almost的信号，使fifo中还剩余一定的空间来保证数据分组不丢失。

13、同步fifo模块数据位宽为514，保存消息分组，以及第一个分组和最后一个分组标志位。fifo深度设置为2，当fifo中数据量为1时，almost_full输出1，留有的空间余量为1。

14、压缩模块compression完成消息扩展和迭代压缩，在sm3算法中每个数据分组需要迭代压缩的次数为64，本设计通过复用压缩函数电路以及消息扩展电路的方式，每周期压缩两次，将迭代压缩的周期数降低为32个。消息扩展过程将512比特的分组分为16个字，将16个字扩展出132个字。实现过程如图3所示。首先将数据分组输入到16单元，每个单元32比特的移位寄存器，在迭代压缩的过程中，生成4个字的数据输入到压缩函数模块compression_block、扩展出两个32比特的新数据。每周期移位寄存器移动两个单元，将扩展生成的新数据输入到最左边。压缩函数模块调用两个压缩单元模块compression_cell来实现，一个压缩单元模块完成算法中的一次循环压缩。将消息扩展产生的4个字分别输入到两个压缩单元模块，如图4所示。压缩单元模块compression_cell为纯组合电路，电路结构如图5所示。本发明根据压缩单元模块的结构分析关键路径，在关键路径上，通过使用低延迟加法器，来提高电路频率。压缩控制状态机如图6所示。状态机在idle状态等待第一个消息分组的输入，在start状态进行压缩初始化。在comp状态下完成一个分组的压缩，完成后状态机进入start状态读取新的分组数据。当输入数据分组有间断时，同步fifo为空，最后一个消息分组未到达，状态机进入到wait状态等待。当最后一个分组压缩结束后，依次进入到done0状态和done1状态，完成杂凑结果的输出。

15、本发明的主要技术优势在于：

16、(1)支持任意长度的消息输入，具有良好的兼容性

17、(2)通过将消息扩展过程和迭代压缩过程并行处理，动态生成扩展数据，降低了电路的面积。

18、(3)对同一个分组循环压缩的过程中，一个周期完成两次压缩，将压缩次数从64降低到32。提高了杂凑模块的数据吞吐率。本设计在台积电12nm工艺库下综合，频率可达2.5ghz，面积为5944.64平方微米，数据吞吐率为2557.72gb/s。相比于每周期只执行一次压缩运算的实现方法，数据压缩速率提高为两倍。

技术特征：

1.一种sm3杂凑算法的硬件加速方法，主要是实现计算输入消息杂凑值的功能，其特征在于：硬件设计模块划分为消息填充和分组模块、同步fifo模块、消息扩展和迭代压缩并行处理模块。

2.如权利要求1所述的一种sm3杂凑算法的硬件加速方法，其特征在于，数据输入接口满足如下要求，存在握手信号，以获取足够大的输入带宽，又可以在后续模块忙碌时反压数据输入。存在足够大的总线位宽，存在指示信号表示数据总线中的字节的有效性，存在开始和结束信号对一段输入数据进行标识。

3.如权利要求2所述的握手信号、总线位宽、指示信号和开始和结束信号，其特征在于，握手信号使用valid/ready握手协议。只有当valid和ready信号同时为高，数据才能成功传输。模块在处理数据忙碌时可以通过ready信号反压数据输入。总线位宽为32比特，指示信号probe为4比特，从高到低分别对应数据总线中的4个字节。开始和结束信号为start和last，分别在数据输入有效的第一个周期和最后一个周期为高电平。

4.如权利要求1所述的消息填充和分组模块，其特征在于，使用fsm完成对消息填充和分组控制，使用数据缓存区完成对数据输入缓存，使用计数器记录缓存区中有效数据量。每个分组的大小为512比特。当数据last信号到来时，状态机根据输入消息最后一个分组数据量大小的不同情况，完成1比特的数据1、0或多个比特的数据0以及消息长度值的填充。

5.如权利要求1所述的消息填充和分组模块，其特征在于，处理数据速度快，同时输出数据可能比输入数据大出一个分组的数据量，使用下游连接的同步fifo almost full信号取非为消息输入的ready信号。使得在数据处理过程中，留有一定的空间裕量，防止数据丢失。

6.如权利要求5所述的同步fifo模块，其特征在于，fifo深度为2，数据位宽为512比特，当fifo中数据个数为1时，almost full信号为高。

7.如权利要求1所述的消息扩展和迭代压缩并行处理模块，其特征在于，通过移位寄存器和扩展电路完成对消息的扩展，通过fsm完成对迭代压缩的控制，通过压缩电路完成数据的迭代压缩。

8.如权利要求7所述的fsm，其特征在于，当上游的数据输入间断时，状态机可以等待。在进行迭代压缩时，在一个周期内完成两次压缩，提高了压缩效率。

9.如权利要求7所述的移位寄存器和扩展电路，其特征在于，使用两个扩展单元、每周期输出四个字用于两次压缩、移位寄存器每周期移位两个单元。

10.如权利要求7所述的压缩电路，其特征在于，复制组合逻辑，实现两次迭代压缩。

技术总结
本发明公开了一种SM3杂凑算法的硬件加速方法，具体是设计消息填充模块来完成对输入消息的填充和分组，设计同步FIFO模块解决消息填充分组和消息迭代压缩速率不一致的问题，设计压缩模块完成消息的扩展和迭代压缩。为提高杂凑算法执行效率，本发明将消息扩展和迭代压缩进行并行处理。通过组合逻辑复用的方法，将SM3算法中压缩函数的效率提高了一倍。本发明以较低的电路开销实现了一种高性能的SM3杂凑算法加速电路，在12nm工艺库下频率达到2.5GHZ，吞吐率达到2557.72GB/s，适用于SM3杂凑算法运算速度要求较高的应用场景。

技术研发人员：冯建华,邢琦,齐观平,李春昊,马思孔
受保护的技术使用者：北京大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯建华邢琦齐观平李春昊马思孔
技术所有人：北京大学
我是此专利的发明人

上一篇：一种工程重型构配件的水平滑移小车的制作方法
上一篇：一种硅片边缘检测组合光源的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。