张华亮,黄启印,吴少校.基于龙芯3A2000处理器的高性能Goto BLAS库的实现[J].高技术通讯(中文),2016,26(10-11): |
基于龙芯3A2000处理器的高性能Goto BLAS库的实现 |
|
|
DOI: |
中文关键词: Goto BLAS, 性能优化, Linpack, 矩阵运算, 数据预取 |
英文关键词: |
基金项目: |
|
摘要点击次数: 2901 |
全文下载次数: 2212 |
中文摘要: |
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|