[cuda]常量内存 - 手上有剑，心中有爱 - ITeye博客

`

暴风雪

浏览: 376966 次
性别:
来自: 杭州

最近访客更多访客>>

deyizhiyun

wangqibao198374

空城旧梦why

dstf

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wsyzyrxp：非常感谢兄弟帮了我大忙
[opengl]弹簧质点法模拟柔性布料以及椭球碰撞的opengl实现
mingdry0304：
[opengl]彩色立方体旋转
tyfengyu：我刚刚更改的代码加上了标准差stdVal,故recoMat应该 ...
[python]用python实现的pca算法
tyfengyu： python的pca代码有2处错误：1.finalData = ...
[python]用python实现的pca算法
暴风雪： McFlurry 写道前排(凑字数)！擦你怎么摸来这里的
诈尸总结

[cuda]常量内存

博客分类：

cuda

阅读更多

我们在cuda编程中定义变量的时候，可以用__constant__来修饰定义，代表着定义了一个常量内存。向常量内存中拷贝数据的时候不再使用cudaMemcpy，而改为使用cudaMemcpyToSymbol。对于常量内存，不需要在使用完成后用cudafree释放空间。

常量内存带来的性能提升

__constant__把对变量的访问限制为只读，跟从全局内存读取数据相比，从常量内存读取相同的数据可以节约内存带宽，原因是对常量内存的单次读操作可以广播到同一个线程块内的其他线程(节约15次读操作)。且常量内存的数据将被缓存起来，对相同地址的连续读操作将不会产生额外的内存通信量。

为了方便理解，写了一个用常量内存给数组赋值的程序。

#include<cuda_runtime.h>
#include<windows.h>
#include<iostream>
using namespace std;
const int nMax = 50;

__constant__ float num1[40];
__global__ void exchangeKernel(float *aaa)
{
	int offset = threadIdx.x + blockDim.x * blockIdx.x;
	aaa[offset] = num1[offset];
}

int main(){
	float *devA,tmp[40],res[40];
	cudaMalloc((void**)&devA, 40*sizeof(float));
	for (int i = 0; i < 40; i++)tmp[i] = i*1.5f;
	cudaMemcpyToSymbol(num1, tmp, 40 * sizeof(float));
	exchangeKernel << <4, 10 >> >(devA);
	cudaMemcpy(res, devA, 40 * sizeof(float), cudaMemcpyDeviceToHost);
	for (int i = 0; i < 40; i++){
		cout << res[i] << " " << endl;
	}
	cin >> res[1];
	return 0;
}

1
顶

1
踩

分享到：

开始的QT编程 | [CUDA]共享内存

2015-12-14 20:01
浏览 1552
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

利用CUDA全局内存和共享内存实现图像的腐蚀膨胀: 本程序是中国科学技术大学谭立湘老师GPU并行计算最后大作业的实验程序。主要内容是利用CUDA全局和共享内存实现了对图像腐蚀膨胀的优化加速。可用作学习参考。

CUDA——了解和使用共享内存: 如何充分利用本地多处理器内存资源，如共享内存、常量内存，以及寄存器。

C++多线程cuda显存申请性能优化: C++多线程cuda显存申请性能优化

基于纹理内存的CUDA热传导模拟: 纹理内存是只读内存，与常量内存相同的是，纹理内存也缓存在芯片中，因此某些情况下，它能减少对内存的请求并提供更高效的内存宽带。纹理内存专门为那些内存访问模式中存在大量空间局部性的图形应用程序而设计的。在...

【CUDA编程】opencv4 + CUDA 并行图像处理：图像均值滤波和图像反色: 二、cuda与OpenCV结合方法三、代码实例：图像均值滤波和图像反色 3.1 代码 3.2 代码说明 3.3 网格大小与线程块大小的确定 3.3.1 网格与线程块大小的限制 3.3.2 如何确定网格大小与线程块大小？ 3.4 并行与串行的...

CUDA-Memcheck用户手册4.0中文版: CUDA调试工具cuda-gdb，包含一个可以在CUDA中检测和调试内存错误的内存检查特性。该文档描述了这个名为cuda-memcheck的工具与它的功能。 NVIDIA用它强大的cuda-gdb硬件调试器简化了CUDA程序错误的调试。然而，每个...

CUDA中文手册.rar: CUDA中文手册 NVIDIA CUDA 统一计算设备架构 ...5.4 纹理拾取与全局或常量内存读取 5.5 整体性能优化策略第6章矩阵乘法示例 6.1概述 6.2 源码清单 6.3 源码攻略 6.3.1Mul() 6.3.2Muld() 附录

CUDA_Freshman: 5.0 共享内存和常量内存 5.1 CUDA共享内存概述 5.2 共享内存的数据布局 5.3 减少全局内存访问 5.4 合并的全局内存访问 5.5 常量内存 5.6 线程束洗牌指令 6.0 流和并发 6.1 流和事件概述 6.2 并发内

CUDA实现基于共享内存的位图显示: CUDA实现基于共享内存的位图显示，线程同步

dot product点积并行处理集合/共享/分布式内存 CUDA源代码: 详细对于CUDA中内存存储问题的编程，以点积的例子来展现，可以在GPU上运行。

CUDA并行程序设计 GPU编程指南: CUDA并行程序设计：GPU编程指南共...第6章 CUDA内存处理第7章 CUDA实践之道第8章多CPU和多GPU解决方案第9章应用程序性能优化第10章函数库和SDK 第11章规划GPU硬件系统第12章常见问题、原因及解决方案

CUDA开发示例Demo工程: CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。该资源主要由Introduction、Utilities、...

python释放cuda缓存库: 博主自行实现的动态链接库，通过python导入后可以实现释放显存，与ai框架无关。支持pytorch、tensorflow、onnxruntime等cuda运行环境。调用dll.reset_cuda()即可释放显存

cuda10.1-cuda11.0-cuda11.1各版本windows系统下载.zip: 百度网盘提供，包含以下三种版本的cuda toolkit和对应的cudnn版本，适合windows10系统。 cudnn-10.1-windows10-x64-v7.6.4.38.zip cuda_10.1.243_426.00_win10.exe cudnn-11.0-windows-x64-v8.0.4.30.zip cuda_...

CUDA并行程序的内存访问优化技术研究: CUDA并行程序的内存访问优化技术研究

配置CUDA 5.0以及MFC的CUDA工程配置: 配置CUDA 5.0以及MFC的CUDA工程配置。有时候需要完成包含有窗体的CUDA工程，需要按照上传的资料进行配置

cuda 教程 cuda tutorial: for cuda beginner, using c for cuda.

CUDA详细参数（算力+CUDA支持版本）: CUDA详细参数（算力+CUDA支持版本）

cuda安装与使用 cuda博客 cuda入门资料: 里面有四个文件包括cuda的安装在windows下的使用使用经验 cuda博客学习cuda的入门好资料

Global site tag (gtag.js) - Google Analytics