Task-Parallel Programming Model Hints

OpenCL™ Developer Guide for Intel® Core™ and Intel® Xeon® Processors

Download PDF

ID 773005

Date 10/30/2018

Version 2018

Public

Visible to Intel only — GUID: GUID-3AA51269-D1CA-4182-A6BD-6C173CA9B758

View Details

Document Table of Contents

Document Table of Contents x

About This Document

About This Document x

Legal Information Getting Help and Support Introduction Check-list for OpenCL™ Optimizations Tips and Tricks for Kernel Development Application-Level Optimizations Debugging OpenCL™ Kernels on Linux* OS Performance Debugging with Intel® SDK for OpenCL™ Applications Coding for the Intel® Architecture Processors

Introduction x

About This Document OpenCL™ Standard Basic Concepts Using Data Parallelism

Check-list for OpenCL™ Optimizations x

Use Array Notation with int32 Indices: A[i][j] Use Floating Point for Calculations Note on Local Memory Use Use Branching Accurately Mapping Memory Objects (USE_HOST_PTR) Prefer Buffers over Images Use Lower Math Precision Use Restrict Qualifier for Kernel Arguments

Tips and Tricks for Kernel Development x

Why Optimizing Kernels Is Important? Avoid Spurious Operations in Kernels Avoid Handling Edge Conditions in Kernels Use the Preprocessor for Constants Prefer (32-bit) Signed Integer Data Types Prefer Row-Wise Data Accesses Use Built-In Functions Avoid Extracting Vector Components Task-Parallel Programming Model Hints Common Mistakes in OpenCL™ Applications

Application-Level Optimizations x

Avoid Needless Synchronization Reuse Compilation Results with clCreateProgramWithBinary

Debugging OpenCL™ Kernels on Linux* OS x

Enabling Debugging in OpenCL™ CPU Compiler and Runtime Start a Debugging Session Conditional Breakpoints on Work Items

Performance Debugging with Intel® SDK for OpenCL™ Applications x

Performance Debugging Introduction Host-Side Timing Profiling Operations Using OpenCL™ Profiling Events Comparing OpenCL™ and Native Code Performance Getting Credible Performance Numbers Tools for OpenCL™ Development

Coding for the Intel® Architecture Processors x

Introduction for OpenCL™ Coding on Intel® Architecture Processors Vectorization Basics for Intel® Architecture Processors Vectorization: SIMD Processing Within a Work Group Benefitting from Implicit Vectorization Vectorizer Knobs Targeting a Different CPU Architecture Using Vector Data Types Writing Kernels to Directly Target the Intel® Architecture Processors Work-Group Size Considerations Threading: Achieving Work-Group Level Parallelism Efficient Data Layout Using the Blocking Technique Intel® Turbo Boost Technology Support Global Memory Size

About This Document

Legal Information

Getting Help and Support

Introduction

About This Document

OpenCL™ Standard

Basic Concepts

Using Data Parallelism

Check-list for OpenCL™ Optimizations

Use Array Notation with int32 Indices: A[i][j]

Use Floating Point for Calculations

Note on Local Memory Use

Use Branching Accurately

Mapping Memory Objects (USE_HOST_PTR)

Prefer Buffers over Images

Use Lower Math Precision

Use Restrict Qualifier for Kernel Arguments

Tips and Tricks for Kernel Development

Why Optimizing Kernels Is Important?

Avoid Spurious Operations in Kernels

Avoid Handling Edge Conditions in Kernels

Use the Preprocessor for Constants

Prefer (32-bit) Signed Integer Data Types

Prefer Row-Wise Data Accesses

Use Built-In Functions

Avoid Extracting Vector Components

Task-Parallel Programming Model Hints

Common Mistakes in OpenCL™ Applications

Application-Level Optimizations

Avoid Needless Synchronization

Reuse Compilation Results with clCreateProgramWithBinary

Debugging OpenCL™ Kernels on Linux* OS

Enabling Debugging in OpenCL™ CPU Compiler and Runtime

Start a Debugging Session

Conditional Breakpoints on Work Items

Performance Debugging with Intel® SDK for OpenCL™ Applications

Performance Debugging Introduction

Host-Side Timing

Profiling Operations Using OpenCL™ Profiling Events

Comparing OpenCL™ and Native Code Performance

Getting Credible Performance Numbers

Tools for OpenCL™ Development

Coding for the Intel® Architecture Processors

Introduction for OpenCL™ Coding on Intel® Architecture Processors

Vectorization Basics for Intel® Architecture Processors

Vectorization: SIMD Processing Within a Work Group

Benefitting from Implicit Vectorization

Vectorizer Knobs

Targeting a Different CPU Architecture

Using Vector Data Types

Writing Kernels to Directly Target the Intel® Architecture Processors

Work-Group Size Considerations

Threading: Achieving Work-Group Level Parallelism

Efficient Data Layout

Using the Blocking Technique

Intel® Turbo Boost Technology Support

Global Memory Size

Visible to Intel only — GUID: GUID-3AA51269-D1CA-4182-A6BD-6C173CA9B758

View Details