# ocl

**Repository Path**: techwolf/ocl

## Basic Information

- **Project Name**: ocl
- **Description**: opencl 图像处理程序
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-19
- **Last Updated**: 2025-12-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# OpenCL 跨平台多后端 GPU/NPU 性能对比项目

完整的跨平台AI加速性能对比，支持Windows/Linux/macOS，涵盖CPU/GPU/Intel NPU多种后端。

## 🎯 项目亮点

✅ **跨平台支持** - Windows/Linux/macOS统一代码
✅ **多后端支持** - CPU/GPU/Intel NPU灵活选择
✅ **OpenCL 3.0 支持** - 自动检测和使用 OpenCL 1.x/2.x/3.0 🆕
✅ **10个完整程序** - 从基础计算到复杂AI任务
✅ **15个AI模型** - 目标检测、分割、姿态估计等
✅ **Intel NPU支持** - 业界首批NPU性能测试
✅ **真实性能数据** - 基于实际硬件的测试结果

## 🆕 OpenCL 3.0 支持

本项目现已支持 OpenCL 3.0，同时保持与 OpenCL 1.x 和 2.x 的完全兼容性！

### 主要特性
- ✨ **自动版本检测** - 自动识别 OpenCL 1.0 到 3.0
- ✨ **智能设备选择** - 自动选择最佳设备（优先 GPU，优先高版本）
- ✨ **API 自动适配** - 根据设备版本自动选择最佳 API
- ✨ **详细设备信息** - 显示完整的平台和设备信息

### 快速测试
```bash
# 检测 OpenCL 版本
make opencl_version_test
./opencl_version_test

# 运行示例（会显示 OpenCL 版本信息）
make opencl_demo
./opencl_demo
```

### 文档
- 📚 [OpenCL 3.0 支持说明](OPENCL_3_0_SUPPORT.md)
- 📚 [快速入门指南](QUICKSTART_OPENCL_3_0.md)
- 📚 [实现总结](IMPLEMENTATION_SUMMARY.md)
- 📚 [更新日志](CHANGELOG_OPENCL_3_0.md)

## 📊 核心测试结果

### 跨平台性能 (macOS/Apple M1)
| 后端 | 时间(ms) | FPS | 加速比 |
|------|---------|-----|--------|
| CPU | 6.15 | 162.6 | 1x |
| GPU | 0.19 | 5263.2 | **32.37x** 🚀 |

### 多任务AI模型 (15个模型，6种任务)
| 任务类型 | 平均加速比 | 最佳模型 |
|---------|-----------|---------|
| 实例分割 | **47.23x** 🥇 | Mask R-CNN (37x) |
| 人脸检测 | **38.20x** 🥈 | RetinaFace (40x) |
| 语义分割 | **23.44x** 🥉 | DeepLabv3+ (15x) |
| 目标检测 | 6.59x | YOLOv3 (22x) |

### Intel NPU支持 (预期性能)
| 任务 | CPU | GPU | NPU | NPU优势 |
|------|-----|-----|-----|---------|
| AI推理 | 1x | 20-40x | 15-40x | 低功耗 |
| 卷积 | 1x | 20-40x | 10-30x | 低延迟 |
| 矩阵乘法 | 1x | 30-60x | 5-15x | 节能 |

**关键结论**:
- GPU最适合高性能计算（最高60倍）
- NPU最适合AI推理（功耗仅1/10）
- 像素级任务GPU加速效果最好（47倍）

## 🚀 快速开始

### Windows
```batch
# 一键编译
build_windows.bat

# 运行测试
build\Release\cross_platform_benchmark.exe
build\Release\intel_npu_test.exe
```

### Linux
```bash
# 安装依赖
sudo apt-get install build-essential cmake opencl-headers ocl-icd-opencl-dev

# 编译运行
make run-crossplatform  # 跨平台测试 ⭐⭐⭐
make run-npu           # Intel NPU测试 ⭐⭐
make run-multitask     # 多任务对比
```

### macOS
```bash
# macOS内置OpenCL，直接编译
make run-crossplatform  # 跨平台测试 ⭐⭐⭐
make run-matrix        # 矩阵乘法: 61倍加速
make run-multitask     # 多任务对比: 15个模型
```

## 📁 项目内容

### 程序（8个）

#### 基础计算（2个）
1. **向量加法** - 简单并行运算
2. **矩阵乘法** - 复杂计算，GPU快61倍

#### 图像处理（3个）
3. **边缘检测** - Sobel算子
4. **图像分类** - 神经网络推理
5. **图像卷积** - CNN特征提取，GPU快4倍

#### 模型对比（3个）
6. **单任务模型** - 6个目标检测模型，最高63倍
7. **多任务模型** - 15个模型，6种任务，最高47倍 ⭐⭐⭐
8. **OpenCV DNN** - (可选，需OpenCV)

### 文档（8个）
- **[FINAL_SUMMARY.md](FINAL_SUMMARY.md)** - 项目最终总结 ⭐ 从这里开始
- **[MULTITASK_RESULTS.md](MULTITASK_RESULTS.md)** - 多任务详细分析
- **[MODEL_COMPARISON_RESULTS.md](MODEL_COMPARISON_RESULTS.md)** - 单任务模型对比
- **[IMAGE_RECOGNITION_RESULTS.md](IMAGE_RECOGNITION_RESULTS.md)** - 图像识别分析
- **[RESULTS_200MB.md](RESULTS_200MB.md)** - 200MB数据测试
- **[MODEL_QUICKSTART.md](MODEL_QUICKSTART.md)** - 模型对比快速指南
- **[QUICKSTART.md](QUICKSTART.md)** - 项目快速开始
- **[README_FULL.md](README_FULL.md)** - 完整技术文档

## 🎓 核心教训

### GPU加速的黄金法则
```
计算复杂度 / 数据传输量 > 10  →  使用GPU
计算复杂度 / 数据传输量 < 10  →  使用CPU
```

### 实际应用建议

**✅ 使用GPU**:
- 深度学习训练和推理
- 大规模图像特征提取
- 视频实时处理（多帧并行）
- 批量图像处理（>100张）

**✅ 使用CPU**:
- 简单图像预处理
- 单张图像快速响应
- 低功耗移动设备
- 小批量实时处理

**🎯 混合策略（最佳）**:
```
预处理(CPU) → 核心计算(GPU) → 后处理(CPU)
```

## 📈 性能数据

### 矩阵乘法 (2048×2048)
```
CPU: 23,865 ms (0.72 GFLOPS)
GPU: 389 ms (44.16 GFLOPS)
加速比: 61.35x 🚀🚀🚀
```

### 图像卷积 (64个滤波器)
```
CPU: 2,561 ms (5.24 GFLOPS)
GPU: 630 ms (21.30 GFLOPS)
加速比: 4.07x 🚀
```

### 图像分类 (1000张)
```
CPU: 3,492 ms
吞吐量: 286 图像/秒
性能: 2.10 GFLOPS
```

## 🛠️ 系统要求

### macOS (推荐)
```bash
# 内置OpenCL支持
make
```

### Linux
```bash
sudo apt-get install opencl-headers ocl-icd-opencl-dev
make
```

### Windows
安装OpenCL SDK后使用Visual Studio或MinGW编译

## 📖 使用指南

### 运行单个测试
```bash
make run              # 向量加法
make run-matrix       # 矩阵乘法 ⭐ 推荐
make run-edge         # 边缘检测
make run-classify     # 图像分类
make run-conv         # 图像卷积 ⭐ 推荐
```

### 查看帮助
```bash
make help
```

### 清理
```bash
make clean
```

## 🎯 适用场景

| 应用 | 推荐方案 | 原因 |
|------|---------|------|
| 实时视频边缘检测 | CPU | 简单运算，CPU瞬间完成 |
| 深度学习推理 | GPU | 卷积层占95%，GPU快4-10倍 |
| 单张图像处理 | CPU | 避免数据传输开销 |
| 批量图像分析 | GPU | 批量处理，GPU优势明显 |
| 移动端应用 | CPU | 功耗和成本考虑 |
| 云端服务 | GPU | 高吞吐量，性价比高 |

## 📚 学习资源

- [OpenCL官方文档](https://www.khronos.org/opencl/)
- [Apple OpenCL指南](https://developer.apple.com/opencl/)
- 项目内详细文档和代码注释

## 🔍 项目结构

```
ocl/
├── main.cpp                      # 向量加法
├── matrix_multiply.cpp           # 矩阵乘法
├── image_edge_detection.cpp      # 边缘检测
├── image_classification.cpp      # 图像分类
├── image_convolution.cpp         # 图像卷积
├── vector_add.cl                 # 基础OpenCL内核
├── image_kernels.cl              # 图像处理内核
├── Makefile                      # 构建文件
├── run_all_tests.sh              # 测试脚本
├── QUICKSTART.md                 # 快速指南 ⭐
├── PROJECT_SUMMARY.md            # 项目总结
├── IMAGE_RECOGNITION_RESULTS.md  # 详细分析
├── RESULTS_200MB.md              # 测试结果
└── README_FULL.md                # 完整文档
```

## 💡 核心代码示例

### CPU版本
```cpp
void convolution_cpu(const float* input, float* output, 
                     const float* kernel, int width, int height) {
    for (int y = 0; y < height; y++) {
        for (int x = 0; x < width; x++) {
            // 串行卷积计算
        }
    }
}
```

### GPU版本
```c
__kernel void convolution(__global const float* input,
                         __global float* output,
                         __constant float* filter) {
    int x = get_global_id(0);
    int y = get_global_id(1);
    // 并行卷积计算
}
```

## 🐛 故障排除

### 找不到OpenCL
```bash
# macOS: 内置支持
# Linux: sudo apt-get install opencl-headers ocl-icd-opencl-dev
# Windows: 安装显卡厂商的OpenCL SDK
```

### 查看可用设备
```bash
clinfo
```

### 编译错误
确保所有 `.cl` 文件在可执行文件同目录

## 🏆 测试结果总结

### GFLOPS性能对比
```
矩阵乘法:
CPU:  █ 0.72 GFLOPS
GPU:  ████████████████████████████████████████████ 44.16 GFLOPS

图像卷积:
CPU:  ████ 5.24 GFLOPS
GPU:  ████████████████████ 21.30 GFLOPS
```

### 加速比排名
```
1. 矩阵乘法:  61.35x 🥇
2. 图像卷积:  4.07x  🥈
3. 向量加法:  0.27x  ❌
4. 边缘检测:  0.03x  ❌
```

## 🎓 学到的经验

1. **GPU不是万能的** - 简单任务CPU更快
2. **数据传输是瓶颈** - 必须考虑传输开销
3. **批量处理是关键** - GPU适合批量，不适合单个
4. **混合策略最优** - CPU+GPU配合使用
5. **任务特性决定一切** - 分析后再选择设备

## 📄 许可证

本项目仅供学习和参考使用。

## 🤝 贡献

欢迎提交问题和改进建议！

---

**⭐ 推荐**: 先阅读 [QUICKSTART.md](QUICKSTART.md)，然后运行 `make run-matrix` 查看GPU的61倍加速！

**💡 核心教训**: 不要盲目使用GPU，要根据任务特性选择合适的计算设备！