140XCP51000

更新时间: 2023-01-08

因为片上存储器比片外存储器具有更高的数据访问能力和更小的访问功耗,所以尽可能分配数据到片上存储器,未能分配到片上的数据可在CPU处理前转移到片上,已经转移到片上的数据,应尽可能在片上保存直到其生命期结束,以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中,标量、常数相对于矩阵而言,通常数量较少,可以分配到片上;若分配到片外,在运算时直接存取片外数据,CPU流水线将会停滞。直接存储器存取(DMA)可以在存储器之间,存储器与外设之间转移数据,除了DMA通道参数初始化以外,DMA转移数据和CPU处理数据可以并行进行。设置DMA通道参数需要一定的时间,采用DMA来转移单个变量或常数的开销可能比直接存取更大,因此DMA适合转移具有较多数据的矩阵,并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外,处理前使用DMA转移到片上存储器。

  局部变量由编译器分配到软件栈上,C55x具有两个软件栈:数据栈和系统栈。C55x的栈有三种工作模式,可设置成双16比特快返回模式,以减少栈所占的存储器空间,并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问,可将这两个栈分配到DARAM块或者不同的SARAM块内。多媒体算法总是将原始输入数据分成一定大小的块进行处理,并产生对应该输入的**输出。如果片上没有足够的存储器,大量的输入数据和**结果仅能可存储在片外。对于元素较多的矩阵,可以根据算法特征将矩阵分成若干数据子块,如H.263编码器中的宏块,搜索窗等,或者单纯根据可得到的片上存储器数量分成适当大小的子块逐个运算,然后分析数据子块的生命期和使用频率。


上一篇:140XTS00200

下一篇:1440TBSJ