嵌入式流媒体处理器体系结构技术研究

嵌入式流媒体处理器体系结构技术研究

论文题目: 嵌入式流媒体处理器体系结构技术研究

论文类型: 博士论文

论文专业: 计算机科学与技术

作者: 黎铁军

导师: 李思昆

关键词: 流媒体技术,变换,运动估计,嵌入式处理器,媒体指令扩展,基于平台的设计,软硬协同设计

文献来源: 国防科学技术大学

发表年度: 2005

论文摘要: 嵌入式流媒体处理是研究如何利用有限的无线网络带宽和移动端机的计算和存储资源实现实时与可靠的流媒体传输的嵌入式应用技术领域。开发嵌入式流媒体处理器是实现这一目标的主要途径,也是嵌入式流媒体处理技术的研究重点和研究热点。 嵌入式流媒体处理器在单个SoC(System-on-a-Chip)芯片上实现了音频和视频等流媒体信号的采集、转换、编码、存储、解码、输入/输出等完整的嵌入式流媒体处理功能,具有速度快、集成度高、功耗低等优点。它在军事侦察、移动通讯、无线监控、可视电话等诸多领域有广阔的应用前景。虽然新的流媒体标准和SoC设计技术不断成熟,但要在单个SoC芯片上实现流媒体处理系统的功能,仍面临着设计复杂性高、灵活性强、设计约束苛刻、设计周期短等诸多挑战。 本文基于国际流行的嵌入式流媒体处理器系统结构框架,采用了融合算法定制和指令集扩展两种体系结构的设计思想,对计算复杂度较高的算法部分采用定制体系结构实现,对实时性要求不很高的新算法采用面积开销较小的扩展指令集进行加速和及时更新,以期在实时性能、灵活性和低功耗上取得最佳的折衷。文中重点研究了MPEG-4流媒体关键算法的定制体系结构和流媒体指令集扩展体系结构等基础和核心技术,还深入研究了基于层次平台的嵌入式流媒体SoC高层软硬件协同设计方法。取得的主要研究成果如下: 1.提出了一种基于Wallace树的分散式DCT/IDCT体系结构。该体系结构首先将DCT/IDCT中的常系数乘加运算分散为部分积加法运算,然后通过共享公共子表达式减少加法数量,最后用优化的Wallace树汇总部分积以计算最终结果。它不依赖于ROM(Read Only Memory)和乘法器,用面积开销小的低位宽加法器、移位器和4-2压缩器,实现了乘法密集的DCT/IDCT算法。它最大程度地发掘了DCT和IDCT之间的相容性,充分地共享和重用了中间数据及硬件资源。该DCT/IDCT体系结构消耗了10,605个逻辑门和1024位转换存储器,能够工作在300MHz下,可以达到300M像素/秒的吞吐率,其时序-面积性能较已有的DCT/IDCT体系结构有了明显的改善。 2.提出了一种支持最新快速运动估计算法的可配置并行阵列运动估计引擎CPAME(Configurable Parallel Array Motion-estimation Engine)。该运动估计引擎设计了三种可变延时单元以支持多种不同尺寸的搜索模式,设计了SAD(Sum of Absolute Differences)引擎以加速独立预测点的检查,并通过软硬件协同的工作模式来支持灵活的快速运动估计算法。CPAME引擎的特点包括:利用延时单元进行数据重用,降低了访存带宽;在SAD计算结构和模式搜索结构之间共用硬件资源,节省了硬件面积;关闭不用的PE(Processing Element)处理单元,减小了动态功耗。在视频编码质量相近的前提下,该体系结构的计算性能比流行的16PE阵列低功耗全搜索体系结构提高了约15倍。

论文目录:

图索引

表索引

摘要

ABSTRACT

第一章 绪论

1.1 研究背景

1.1.1 流媒体技术简介

1.1.2 视频编解码技术简介及发展趋势

1.1.3 SOC技术发展现状及趋势

1.1.4 嵌入式流媒体处理器的机遇与挑战

1.2 相关研究

1.2.1 流媒体算法复杂性分析

1.2.2 流媒体处理器体系结构

1.2.3 流媒体处理器体系结构比较

1.3 研究内容

1.4 主要工作

1.5 论文结构

第二章 基于WALLACE树的变换与反变换体系结构

2.1 引言

2.2 DCT/IDCT变换硬件实现的数学推导

2.2.1 二维DCT/IDCT算法描述

2.2.2 一维DCT/IDCT算法

2.2.3 常系数内积运算的硬件实现推导

2.3 基于WALLACE树的DCT/IDCT体系结构

2.3.1 总体结构

2.3.2 桶形单元

2.3.3 部分积产生

2.3.4 基于Wallace树的部分积求和

2.3.5 转置存储器

2.4 基于WALLACE树的4X4整型变换与反变换体系结构

2.4.1 H.264/AVC中的整型变换编码

2.4.2 基于加法树的变换体系结构

2.4.3 二维4x4并行整型变换体系结构

2.4.4 一维4x4整型变换体系结构

2.4.5 合并减法的Wallace树结构

2.4.6 数据通路宽度设计

2.5 实验结果与分析

2.5.1 DCT/IDCT变换精度分析

2.5.2 DCT/IDCT变换的性能与面积分析

2.5.3 4x4整型变换的实现与分析

2.6 本章小结

第三章 可配置的并行阵列运动估计体系结构

3.1 引言

3.2 快速运动估计算法分析

3.3 运动估计体系结构

3.4 CPAME引擎体系结构

3.4.1 CPAME引擎设计思想

3.4.2 PE阵列体系结构

3.4.3 可变延时单元

3.4.4 PE和地址产生单元

3.4.5 SAD引擎体系结构

3.4.6 低功耗动态控制

3.5 体系结构性能分析

3.6 实验结果

3.6.1 大钻石模式搜索实例

3.6.2 软硬件实现比较

3.6.3 体系结构实现比较

3.7 本章小结

第四章 预测点簇并行快速块运动估计算法及其体系结构

4.1 引言

4.2 PMVFAST算法分析

4.3 多因子预测

4.3.1 加速度预测

4.3.2 多因子预测

4.4 簇和基于簇的数据重用

4.5 支持簇并行的CPAME引擎

4.6 预测点簇并行的快速运动估计算法

4.6.1 簇划分算法

4.6.2 簇映射算法

4.6.3 PCPMEFast算法

4.6.4 PCPMEFast算法实例

4.7 实验结果与分析

4.7.1 预测点的簇分布统计

4.7.2 视频质量

4.7.3 体系结构实现

4.8 本章小结

第五章 增强小位宽高并行嵌入式流媒体处理器体系结构

5.1 引言

5.2 相关研究

5.3 ESTAR嵌入式处理器

5.3.1 总体结构

5.3.2 流水线体系结构

5.3.3 指令集

5.3.4 寄存器

5.3.5 异常

5.3.6 MMU

5.3.7 Cache子系统

5.4 ESTAR-SM体系结构

5.4.1 小位宽高并行流媒体指令集

5.4.2 调序访存指令

5.4.3 流媒体指令集体系结构

5.4.4 指令执行周期

5.4.5 寄存器

5.4.6 指令格式

5.5 实验结果与分析

5.5.1 原型实现

5.5.2 性能评价

5.6 本章小结

第六章 具有定制增强特征的嵌入式流媒体SoC设计方法

6.1 引言

6.2 基于平台的SOC设计方法

6.3 定制增强设计方法

6.3.1 算法选择及其描述

6.3.2 体系结构行为级描述

6.3.3 体系结构探索

6.3.4 通信细化

6.3.5 RTL细化

6.4 软硬件协同模拟框架

6.5 实验结果与分析

6.5.1 嵌入式流媒体SoC平台

6.5.2 模拟性能

6.5.3 设计重用

6.5.4 综合质量

6.6 本章小结

第七章 结束语

7.1 主要贡献

7.2 研究展望

致谢

攻读博士期间已发表和撰写的论文

攻读博士期间参与的主要科研项目

参考文献

发布时间: 2006-09-22

参考文献

  • [1].基于CPU&GPU融合式异构众核处理器的程序特征分析和性能功耗优化[D]. 朱琪.国防科学技术大学2016
  • [2].RISC/DSP处理器的结构、微结构设计研究[D]. 周莉.浙江大学2004
  • [3].高性能嵌入式RISC微处理器核设计研究[D]. 姚英彪.浙江大学2006
  • [4].高可靠处理器体系结构研究[D]. 黄海林.中国科学院研究生院(计算技术研究所)2006
  • [5].专用指令集处理器可靠性评估技术研究[D]. 余洁.中国科学技术大学2007
  • [6].面向嵌入式处理器的代码压缩研究[D]. 阳晔.浙江大学2007
  • [7].基于ScratchPad Memory的嵌入式系统优化研究[D]. 胡威.浙江大学2008
  • [8].分片式流处理器体系结构[D]. 徐光.中国科学技术大学2010
  • [9].面向认知无线电的数字信号处理器体系结构技术研究[D]. 王士显.国防科学技术大学2013
  • [10].异步数据触发微处理器体系结构关键技术研究与实现[D]. 李勇.国防科学技术大学2007

相关论文

  • [1].嵌入式实时软件的构件化开发技术研究[D]. 古幼鹏.电子科技大学2005
  • [2].嵌入式实时系统的任务调度与资源共享模型及算法研究[D]. 王保进.中国人民解放军信息工程大学2005
  • [3].嵌入式可重构计算系统及其任务调度机制的研究[D]. 刘勇.中国科学院研究生院(上海微系统与信息技术研究所)2006

标签:;  ;  ;  ;  ;  ;  ;  

嵌入式流媒体处理器体系结构技术研究
下载Doc文档

猜你喜欢