手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

FT-Matrix DSP向量定点MAC单元的设计与实现

谢刚

  DSP是无线通信数据运算的核心部件。在未来第4代或准4代无线通信中,个人用户的语音和数据处理速率将大幅度提高,这涉及到大量的数据运算,比如:音频、视频处理中的离散余弦变换及逆变换、快速傅立叶变换、编码/解码等,每秒钟需要进行几亿到几千亿次的运算,主要数据运算为乘加操作。因此,研制面向第4代或准4代无线通信软基站DSP的高性能乘加(MAC,Mutiply Accumulate)单元具有重要意义。 FT-Matrix DSP是我们自主研发的、具有我国自主知识产权的一款面向第4代或准4代无线通信软基站的高性能32位DSP。它采用VLIW(超长指令字)技术,一个节拍内最多可以发射10条指令,并采用标量处理和向量处理并发执行的体系结构。其中,向量处理单元(VPU,Vector Process Unit)由16个同构的处理单元(PE)构成,用于处理高计算密度的算法。本论文对FT-Matrix DSP的向量定点MAC(VIMAC,Vector Integer MAC)单元进行了需求分析、指令集设计和逻辑结构设计,并对标量定点MAC(SIMAC,Scalar Integer MAC)进行了设计、验证和逻辑综合。 本文对3GPP关键算法进行了研究,设计了VIMAC单元的指令集。FT-Matrix DSP的VIMAC单元支持16个SIMAC单元同时完成32个16位×16位+40位操作的向量指令,同时也支持64个8位×8位+20位操作的向量指令。为了加快整个向量运算部件的加法运算速度,需要在VIMAC单元中支持快速向量加法运算。因此,本文在SIMAC中实现了快速加法功能,设计了一条能够实现乘法类和快速加法类两种运算的多功能流水线。SIMAC单元采用改进的Booth算法来减少部分积数目,用由压缩器(compressor)组成的华莱士树(Wallace tree)将产生的部分积相加。为了减小SIMAC单元的面积,本文将乘法器的部分积压缩阵列进行了三角划分,该方法对功耗和延时也有一定程度的改善。为了减小硬件代价,本文复用了流水线第三站的两个40位加法器,实现了改进的32位乘法。考虑到需要同时支持多种类型的溢出判饱和,本文采用了动态饱和装置进行饱和处理。 为了进一步提高SIMAC单元的性能,本文还对融合乘加技术进行了研究,并申请了相关专利。在下一代SIMAC单元的设计与实现中,我们将采用这项技术。 本文运用NC Verilog对SIMAC单元从模块级和系统级两个方面进行了模拟验证,开发了有效、完备的测试码,构建了测试模型,验证了设计的正确性。然后,对SIMAC单元进行了综合,结果表明,该单元在0.13微米工艺下的工作频率为500MHz左右,面积为48345.6μm~2 ,动态功耗为12.52 mw,均达到了所要求的性能指标。最后,将本文设计的SIMAC与常规SIMAC单元进行了性能对比,结果表明,本文所设计的SIMAC单元在功耗以及关键路径延时上,比常规的SIMAC单元都有所改善,面积减小了三千多平方微米。……   
[关键词]:IMAC单元;多功能流水线;向量处理器;融合乘加;三角划分;饱和
[文献类型]:硕士论文
[文献出处]:国防科学技术大学2010年
App内打开