clang/test/CodeGenCUDA/device-kernel-call.cu - mirrors/github.com/llvm/llvm-project - Git at Google

 // NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --version 6
 // RUN: %clang_cc1 -triple nvptx64-nvidia-cuda -fcuda-is-device -fgpu-rdc -emit-llvm %s -o - | FileCheck %s

 #include "Inputs/cuda.h"

 // CHECK-LABEL: define dso_local ptx_kernel void @_Z2g2i(
 // CHECK-SAME: i32 noundef [[X:%.*]]) #[[ATTR0:[0-9]+]] {
 // CHECK-NEXT:  [[ENTRY:.*:]]
 // CHECK-NEXT:    [[X_ADDR:%.*]] = alloca i32, align 4
 // CHECK-NEXT:    store i32 [[X]], ptr [[X_ADDR]], align 4
 // CHECK-NEXT:    ret void
 //
 __global__ void g2(int x) {}

 // CHECK-LABEL: define dso_local ptx_kernel void @_Z2g1v(
 // CHECK-SAME: ) #[[ATTR0]] {
 // CHECK-NEXT:  [[ENTRY:.*:]]
 // CHECK-NEXT:    [[AGG_TMP:%.*]] = alloca [[STRUCT_DIM3:%.*]], align 4
 // CHECK-NEXT:    [[AGG_TMP1:%.*]] = alloca [[STRUCT_DIM3]], align 4
 // CHECK-NEXT:    [[CALL:%.*]] = call ptr @cudaGetParameterBuffer(i64 noundef 64, i64 noundef 4) #[[ATTR3:[0-9]+]]
 // CHECK-NEXT:    [[TMP0:%.*]] = icmp ne ptr [[CALL]], null
 // CHECK-NEXT:    br i1 [[TMP0]], label %[[DKCALL_CONFIGOK:.*]], label %[[DKCALL_END:.*]]
 // CHECK:       [[DKCALL_CONFIGOK]]:
 // CHECK-NEXT:    [[TMP1:%.*]] = getelementptr inbounds i8, ptr [[CALL]], i64 0
 // CHECK-NEXT:    store i32 42, ptr [[TMP1]], align 64
 // CHECK-NEXT:    call void @_ZN4dim3C1Ejjj(ptr noundef nonnull align 4 dereferenceable(12) [[AGG_TMP]], i32 noundef 1, i32 noundef 1, i32 noundef 1) #[[ATTR3]]
 // CHECK-NEXT:    call void @_ZN4dim3C1Ejjj(ptr noundef nonnull align 4 dereferenceable(12) [[AGG_TMP1]], i32 noundef 1, i32 noundef 1, i32 noundef 1) #[[ATTR3]]
 // CHECK-NEXT:    [[CALL2:%.*]] = call i32 @cudaLaunchDevice(ptr noundef @_Z2g2i, ptr noundef [[CALL]], ptr noundef byval([[STRUCT_DIM3]]) align 4 [[AGG_TMP]], ptr noundef byval([[STRUCT_DIM3]]) align 4 [[AGG_TMP1]], i32 noundef 0, ptr noundef null) #[[ATTR3]]
 // CHECK-NEXT:    br label %[[DKCALL_END]]
 // CHECK:       [[DKCALL_END]]:
 // CHECK-NEXT:    ret void
 //
 __global__ void g1(void) {
   g2<<<1, 1>>>(42);
 }
	// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --version 6
	// RUN: %clang_cc1 -triple nvptx64-nvidia-cuda -fcuda-is-device -fgpu-rdc -emit-llvm %s -o - \| FileCheck %s

	#include "Inputs/cuda.h"

	// CHECK-LABEL: define dso_local ptx_kernel void @_Z2g2i(
	// CHECK-SAME: i32 noundef [[X:%.*]]) #[[ATTR0:[0-9]+]] {
	// CHECK-NEXT: [[ENTRY:.*:]]
	// CHECK-NEXT: [[X_ADDR:%.*]] = alloca i32, align 4
	// CHECK-NEXT: store i32 [[X]], ptr [[X_ADDR]], align 4
	// CHECK-NEXT: ret void
	//
	__global__ void g2(int x) {}

	// CHECK-LABEL: define dso_local ptx_kernel void @_Z2g1v(
	// CHECK-SAME: ) #[[ATTR0]] {
	// CHECK-NEXT: [[ENTRY:.*:]]
	// CHECK-NEXT: [[AGG_TMP:%.]] = alloca [[STRUCT_DIM3:%.]], align 4
	// CHECK-NEXT: [[AGG_TMP1:%.*]] = alloca [[STRUCT_DIM3]], align 4
	// CHECK-NEXT: [[CALL:%.*]] = call ptr @cudaGetParameterBuffer(i64 noundef 64, i64 noundef 4) #[[ATTR3:[0-9]+]]
	// CHECK-NEXT: [[TMP0:%.*]] = icmp ne ptr [[CALL]], null
	// CHECK-NEXT: br i1 [[TMP0]], label %[[DKCALL_CONFIGOK:.]], label %[[DKCALL_END:.]]
	// CHECK: [[DKCALL_CONFIGOK]]:
	// CHECK-NEXT: [[TMP1:%.*]] = getelementptr inbounds i8, ptr [[CALL]], i64 0
	// CHECK-NEXT: store i32 42, ptr [[TMP1]], align 64
	// CHECK-NEXT: call void @_ZN4dim3C1Ejjj(ptr noundef nonnull align 4 dereferenceable(12) [[AGG_TMP]], i32 noundef 1, i32 noundef 1, i32 noundef 1) #[[ATTR3]]
	// CHECK-NEXT: call void @_ZN4dim3C1Ejjj(ptr noundef nonnull align 4 dereferenceable(12) [[AGG_TMP1]], i32 noundef 1, i32 noundef 1, i32 noundef 1) #[[ATTR3]]
	// CHECK-NEXT: [[CALL2:%.*]] = call i32 @cudaLaunchDevice(ptr noundef @_Z2g2i, ptr noundef [[CALL]], ptr noundef byval([[STRUCT_DIM3]]) align 4 [[AGG_TMP]], ptr noundef byval([[STRUCT_DIM3]]) align 4 [[AGG_TMP1]], i32 noundef 0, ptr noundef null) #[[ATTR3]]
	// CHECK-NEXT: br label %[[DKCALL_END]]
	// CHECK: [[DKCALL_END]]:
	// CHECK-NEXT: ret void
	//
	__global__ void g1(void) {
	g2<<<1, 1>>>(42);
	}