opencl程序架构

news/2024/7/3 13:35:49 标签: null, float, dst, 存储

这几天研究了一下OpenCL,阅读了nvidia中的例子,归纳OpenCL程序的一般结构如下:

int main(int argc, char* argv[])
{

        //获得platform
        clGetPlatformIDs(1, &cpPlatform, NULL);

        //获得GPU设备
        clGetDeviceIDs(cpPlatform, CL_DEVICE_TYPE_GPU, 1, &cdDevice, NULL);

        //创建上下文环境
        hContext = clCreateContext(0, 1, &cdDevice, NULL, NULL, &ciErr);

        //创建命令队列
        cqCommandQueue = clCreateCommandQueue(hContext, cdDevice, 0, &ciErr);

        //在设备端开辟存储
        cmDevSrc = clCreateBuffer(hContext, CL_MEM_READ_ONLY, sizeof(cl_float) * WorkSize, NULL, &ciErr);

        //创建program
        cpProgram = clCreateProgramWithSource(hContext, 1, &sProgramSource, NULL, NULL);

        //构建program
        clBuildProgram(cpProgram, 0, NULL, NULL, NULL, NULL);

        //创建运行在设备端的Kernel
        ckKernel = clCreateKernel(cpProgram, "VectorAdd", &ciErr);

        //为Kernel设置参数
        clSetKernelArg(ckKernel, 0, sizeof(cl_mem), (void*)&cmDevSrc);

        //将host主存数据copy到device端
        ciErr = clEnqueueWriteBuffer(cqCommandQueue, cmDevSrc, CL_FALSE, 0, sizeof(cl_float) * WorkSize, src, 0,

        // 调用Kernel,执行
        clEnqueueNDRangeKernel(cqCommandQueue, ckKernel, 1, NULL, (size_t*)&LocalSize, (size_t*)&WorkSize, 0, NULL, NULL);

       //从device端读取计算结果到host端
       clEnqueueReadBuffer(cqCommandQueue, cmDevDst, CL_TRUE, 0, sizeof(cl_float) * WorkSize, dst, 0, NULL, NULL);

        return 0;
}

 

在运行过程中,可能会因为某些参数的设置出了问题,导致GPU端不能正确运行。这时候最好调试一下,究竟在哪里出了问题,没有得到想要的结果,这样才能够准确定位。我就在的搭配cpProgram的时候,没有进行clBuildProgram,导致后面出现问题:(。


http://www.niftyadmin.cn/n/790843.html

相关文章

SpringBoot 全局异常捕获 一样的代码咋就不生效?

新建全局异常捕获类 ControllerAdvice public class GlobalExceptionHandler {ExceptionHandler(valueException.class)ResponseBodypublic Map<String, Object> exceptionHandlerMy(HttpServletRequest httpServletRequest,Exception e) {Map<String, Object> re…

Map接口的学习

接口Map<K, V> 一、Map功能 1.添加 put(K key, V value) putAll(Map<? extends K, ? extends V>); 2.删除 clear() remove(Object key); 返回对应的值 3.判断 containsKey(Object key) containsValue(Object value) isEmpty() 4.获取 get(Object key) :不在返回…

并行计算、分布式计算、网格计算讲解

先说分布式计算和并行计算的异同&#xff1a;解决对象上&#xff1a;都是大任务化为小任务&#xff0c;这是他们共同之处。但是分布式的任务包互相之间有独立性&#xff0c;上一个任务包的结果未返回或者是结果处理错误&#xff0c;对下一个任务包的处理几乎没有什么影响。因此…

react-native-config 使用

源代码名称:react-native-config源代码网址:http://www.github.com/luggit/react-native-configreact-native-config源代码文档react-native-config源代码下载Git URL: 复制代码 git://www.github.com/luggit/react-native-config.git Git Clone代码到本地: 复制代码 git clone…

云计算扫盲

云计算&#xff1a;“始作俑者”是sun公司在24年前&#xff0c;发扬广大者却是Google无疑。谷歌“云计算”的雄心壮志是&#xff1a;Google一下&#xff0c;所有问题都能得到解决。 什么是云计算&#xff1f; 通俗的讲&#xff0c;就是你不用在自己的个人计算机里安装任何的办…

精心挑选的12款优秀 jQuery Ajax 分页插件和教程

在这篇文章中&#xff0c;我为大家收集了20个基于 jQuery 框架的 Ajax 分页插件&#xff0c;这些插件都提供了详细的使用教程和演示。Ajax 技术的出现使得 Web 项目的用户体验有了极大的提高&#xff0c;如今借助优秀的 jQuery 框架很容易实现各种基于 Ajax 技术实现的功能。我…

React Native多入口实现

React Native多入口实现 androidreact-native 更新于 2017-06-29 约 10 分钟 前言 最近在做原生项目集成RN的时候遇到了一个问题&#xff1a;如果从原生进入RN有多个入口或者说从原生不同的地方可以进入到不同的RN组件&#xff0c;该怎么做&#xff1f;由此展开了调研。 在…

基于CUDA的矩阵相乘

这几天研究了一下CUDA&#xff0c;发现其并行的思想和普通的CPU多线程思想不太一致&#xff0c;但还是挺不错。主要是将任务划分成一个个block&#xff0c;然后每个block里面再划分成细的线程。然后每个线程做自己做的事情。这种并行思想很适用于像矩阵运算这些元素与元素之间的…