openvinotoolkit
diff --git a/‎modules/nvidia_plugin/src/cuda_operation_base.hpp
+3 b/‎modules/nvidia_plugin/src/cuda_operation_base.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/activation_forward_cudnn_base.cpp
+2 b/‎modules/nvidia_plugin/src/ops/activation_forward_cudnn_base.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/activation_forward_cudnn_base.hpp
+3 b/‎modules/nvidia_plugin/src/ops/activation_forward_cudnn_base.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/avgpool.cpp
+2 b/‎modules/nvidia_plugin/src/ops/avgpool.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/avgpool.hpp
+3 b/‎modules/nvidia_plugin/src/ops/avgpool.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/broadcast.cpp
+2 b/‎modules/nvidia_plugin/src/ops/broadcast.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/broadcast.hpp
+2 b/‎modules/nvidia_plugin/src/ops/broadcast.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/clamp_cuda.cpp
+2 b/‎modules/nvidia_plugin/src/ops/clamp_cuda.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/clamp_cuda.hpp
+2 b/‎modules/nvidia_plugin/src/ops/clamp_cuda.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/clamp_cudnn.cpp
+2 b/‎modules/nvidia_plugin/src/ops/clamp_cudnn.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/clamp_cudnn.hpp
+1 b/‎modules/nvidia_plugin/src/ops/clamp_cudnn.hpp
+1
diff --git a/‎modules/nvidia_plugin/src/ops/comparison.cpp
+2 b/‎modules/nvidia_plugin/src/ops/comparison.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/comparison.hpp
+2 b/‎modules/nvidia_plugin/src/ops/comparison.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/concat.cpp
+2 b/‎modules/nvidia_plugin/src/ops/concat.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/concat.hpp
+2 b/‎modules/nvidia_plugin/src/ops/concat.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convert.cpp
+2 b/‎modules/nvidia_plugin/src/ops/convert.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convert.hpp
+4 b/‎modules/nvidia_plugin/src/ops/convert.hpp
+4
diff --git a/‎modules/nvidia_plugin/src/ops/convert_color_i420.hpp
+2 b/‎modules/nvidia_plugin/src/ops/convert_color_i420.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convert_color_nv12.hpp
+2 b/‎modules/nvidia_plugin/src/ops/convert_color_nv12.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_backprop_data.cpp
+5 b/‎modules/nvidia_plugin/src/ops/convolution_backprop_data.cpp
+5
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_backprop_data.hpp
+2 b/‎modules/nvidia_plugin/src/ops/convolution_backprop_data.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_cudnn.cpp
+2 b/‎modules/nvidia_plugin/src/ops/convolution_cudnn.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_cudnn.hpp
+3 b/‎modules/nvidia_plugin/src/ops/convolution_cudnn.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_cudnn_be.cpp
+2 b/‎modules/nvidia_plugin/src/ops/convolution_cudnn_be.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/convolution_cudnn_be.hpp
+3 b/‎modules/nvidia_plugin/src/ops/convolution_cudnn_be.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/cudnn_tensor_op_base.cpp
+2 b/‎modules/nvidia_plugin/src/ops/cudnn_tensor_op_base.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/cudnn_tensor_op_base.hpp
+2 b/‎modules/nvidia_plugin/src/ops/cudnn_tensor_op_base.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/detection_output.cpp
+2 b/‎modules/nvidia_plugin/src/ops/detection_output.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/detection_output.hpp
+3 b/‎modules/nvidia_plugin/src/ops/detection_output.hpp
+3
diff --git a/‎modules/nvidia_plugin/src/ops/elementwise_binary.hpp
+2 b/‎modules/nvidia_plugin/src/ops/elementwise_binary.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fake_quantize.cpp
+2 b/‎modules/nvidia_plugin/src/ops/fake_quantize.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fake_quantize.hpp
+2 b/‎modules/nvidia_plugin/src/ops/fake_quantize.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/floor.cpp
+2 b/‎modules/nvidia_plugin/src/ops/floor.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/floor.hpp
+2 b/‎modules/nvidia_plugin/src/ops/floor.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fully_connected.cpp
+2 b/‎modules/nvidia_plugin/src/ops/fully_connected.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fully_connected.hpp
+2 b/‎modules/nvidia_plugin/src/ops/fully_connected.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fused_convolution_backprop_data.cpp
+2 b/‎modules/nvidia_plugin/src/ops/fused_convolution_backprop_data.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fused_convolution_backprop_data.hpp
+2 b/‎modules/nvidia_plugin/src/ops/fused_convolution_backprop_data.hpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fused_convolution_cudnn.cpp
+2 b/‎modules/nvidia_plugin/src/ops/fused_convolution_cudnn.cpp
+2
diff --git a/‎modules/nvidia_plugin/src/ops/fused_convolution_cudnn.hpp
+2 b/‎modules/nvidia_plugin/src/ops/fused_convolution_cudnn.hpp
+2
@@ -42,6 +42,7 @@ class IOperationExec {
                          Inputs inputTensors,
                          Outputs outputTensors,
                          const Workbuffers& workbuffers) const = 0;
+    virtual bool IsCudaGraphCompatible() const = 0;
     virtual void InitSharedImmutableWorkbuffers(const Buffers&) = 0;
     virtual WorkbufferRequest GetWorkBufferRequest() const = 0;
     virtual const WorkbufferIds& GetWorkbufferIds() const = 0;
@@ -76,6 +77,8 @@ class OperationBase : public IOperationExec, public IOperationMeta, public std::
                   IndexCollection&& inputIds,
                   IndexCollection&& outputIds);
 
+    bool IsCudaGraphCompatible() const override { return false; }
+
     WorkbufferRequest GetWorkBufferRequest() const override {
         return {};  // Most operators do not need workbuffers
     }
 
@@ -59,5 +59,7 @@ void ActivationForwardCuDnnOpBase::Execute(const InferenceRequestContext& contex
                                                              outputTensors[0].get());
 }
 
+bool ActivationForwardCuDnnOpBase::IsCudaGraphCompatible() const { return true; }
+
 }  // namespace nvidia_gpu
 }  // namespace ov
@@ -25,11 +25,14 @@ class ActivationForwardCuDnnOpBase : public OperationCuDnn {
                                  const ov::Node& node,
                                  IndexCollection&& inputIds,
                                  IndexCollection&& outputIds);
+
     void Execute(const InferenceRequestContext& context,
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers&) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 protected:
     std::unique_ptr<CUDA::DnnActivationDescriptor> op_desc_;
     CUDA::DnnTensorDescriptor x_desc_;
 
@@ -30,6 +30,8 @@ void AvgPoolOp::Execute(const InferenceRequestContext& context,
                   outputs[PoolingImpl::output_index].get());
 }
 
+bool AvgPoolOp::IsCudaGraphCompatible() const { return true; }
+
 OPERATION_REGISTER(AvgPoolOp, AvgPool);
 
 }  // namespace nvidia_gpu
 
@@ -17,11 +17,14 @@ class AvgPoolOp : public OperationCuDnn {
                        const std::shared_ptr<ov::Node>& node,
                        IndexCollection&& inputIds,
                        IndexCollection&& outputIds);
+
     void Execute(const InferenceRequestContext& context,
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     PoolingImpl impl_;
 };
 
@@ -65,6 +65,8 @@ void BroadcastOp::Execute(const InferenceRequestContext& context,
     (*kernel_)(stream, inputs[0].get(), broadcast_params_->mapper(workbuffers.immutable_buffers), outputs[0].get());
 }
 
+bool BroadcastOp::IsCudaGraphCompatible() const { return true; }
+
 WorkbufferRequest BroadcastOp::GetWorkBufferRequest() const { return {immutable_buffer_sizes_, {}}; }
 
 void BroadcastOp::InitSharedImmutableWorkbuffers(const Buffers& buffers) {
 
@@ -27,6 +27,8 @@ class BroadcastOp : public OperationBase {
     WorkbufferRequest GetWorkBufferRequest() const override;
     void InitSharedImmutableWorkbuffers(const Buffers& buffers) override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     std::vector<WorkbufferRequest::size_in_bytes_t> immutable_buffer_sizes_;
     std::unique_ptr<NumpyBroadcastParams> broadcast_params_;
 
@@ -51,5 +51,7 @@ void ClampCudaOp::Execute(const InferenceRequestContext& context,
     (*kernel_)(context.getThreadContext().stream().get(), inputTensors[0].get(), outputTensors[0].get());
 }
 
+bool ClampCudaOp::IsCudaGraphCompatible() const { return true; }
+
 }  // namespace nvidia_gpu
 }  // namespace ov
@@ -26,6 +26,8 @@ class ClampCudaOp : public OperationBase {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     std::optional<kernel::Clamp> kernel_;
 };
 
@@ -97,6 +97,8 @@ void ClampCuDnnOp::Execute(const InferenceRequestContext& context,
                                                     outputTensors[0].get());
 }
 
+bool ClampCuDnnOp::IsCudaGraphCompatible() const { return true; }
+
 void ClampCuDnnOp::InitSharedImmutableWorkbuffers(const Buffers& buffers) {
     switch (data_type_) {
         case CUDNN_DATA_FLOAT:
 
@@ -33,6 +33,7 @@ class ClampCuDnnOp : public OperationCuDnn {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
     void InitSharedImmutableWorkbuffers(const Buffers& buffers) override;
     WorkbufferRequest GetWorkBufferRequest() const override;
 
 
@@ -84,6 +84,8 @@ Comparison::Comparison(const CreationContext& context,
                                  threads_per_block};
 }
 
+bool Comparison::IsCudaGraphCompatible() const { return true; }
+
 void Comparison::Execute(const InferenceRequestContext& context,
                          Inputs inputs,
                          Outputs outputs,
 
@@ -18,6 +18,8 @@ class Comparison : public OperationBase {
                IndexCollection&& outputIds,
                kernel::Comparison::Op_t operation_type);
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     void calculateOffsets();
     void Execute(const InferenceRequestContext& context,
 
@@ -95,6 +95,8 @@ void ConcatOp::Execute(const InferenceRequestContext& context,
                       outputs[0].get());
 }
 
+bool ConcatOp::IsCudaGraphCompatible() const { return false; }
+
 OPERATION_REGISTER(ConcatOp, Concat);
 }  // namespace nvidia_gpu
 }  // namespace ov
@@ -28,6 +28,8 @@ class ConcatOp : public OperationBase {
     WorkbufferRequest GetWorkBufferRequest() const override;
     void InitSharedImmutableWorkbuffers(const Buffers&) override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     size_t immutableWbSize() const { return concat_kernel_.value().immutableWbSize(); }
     size_t mutableWbSize() const { return concat_kernel_.value().mutableWbSize(); }
 
@@ -55,6 +55,8 @@ void ConvertOp::Execute(const InferenceRequestContext& context,
     (*convert_kernel_)(stream.get(), outputs[0].get(), inputs[0].get());
 }
 
+bool ConvertOp::IsCudaGraphCompatible() const { return true; }
+
 OPERATION_REGISTER(ConvertOp, Convert);
 
 }  // namespace nvidia_gpu
 
@@ -18,10 +18,14 @@ class ConvertOp : public OperationBase {
               const std::shared_ptr<ov::Node>& node,
               IndexCollection&& inputIds,
               IndexCollection&& outputIds);
+
     void Execute(const InferenceRequestContext& context,
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
+
+    bool IsCudaGraphCompatible() const override;
+
     using Type_t = ov::element::Type_t;
     using convert_t = void (*)(
         const CUDA::Stream&, size_t, CUDA::DevicePointer<void*>, CUDA::DevicePointer<const void*>, unsigned, unsigned);
 
@@ -91,6 +91,8 @@ class I420ConvertColorBase : public OperationBase {
         }
     }
 
+    bool IsCudaGraphCompatible() const override { return true; }
+
 private:
     std::optional<TKernel> kernel_;
 };
 
@@ -90,6 +90,8 @@ class NV12ConvertColorBase : public OperationBase {
         }
     }
 
+    bool IsCudaGraphCompatible() const override { return true; }
+
 private:
     std::optional<TKernel> kernel_;
 };
 
@@ -42,6 +42,11 @@ void ConvBackpropDataOp<T>::Execute(const InferenceRequestContext& context,
                                                 outputs[ConvBackpropDataOp::ArgIndices::dinput].get()));
 }
 
+template <typename T>
+bool ConvBackpropDataOp<T>::IsCudaGraphCompatible() const {
+    return true;
+}
+
 OPERATION_REGISTER(ConvolutionBackpropDataOp, ConvolutionBackpropData);
 OPERATION_REGISTER(GroupConvolutionBackpropDataOp, GroupConvolutionBackpropData);
 
 
@@ -32,6 +32,8 @@ class ConvBackpropDataOp : public OperationCuDnn {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
     void InitSharedImmutableWorkbuffers(const IOperationExec::Buffers&) override;
     WorkbufferRequest GetWorkBufferRequest() const override;
 
 
@@ -44,6 +44,8 @@ void ConvolutionCuDnn::Execute(const InferenceRequestContext& context,
     throwIfError(status);
 }
 
+bool ConvolutionCuDnn::IsCudaGraphCompatible() const { return true; }
+
 WorkbufferRequest ConvolutionCuDnn::GetWorkBufferRequest() const {
     if (descs_.Algo().memory != 0)
         return {{}, {descs_.Algo().memory}};
 
@@ -26,8 +26,11 @@ class ConvolutionCuDnn : public OperationCuDnn {
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers&) const override;
+
     WorkbufferRequest GetWorkBufferRequest() const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     Convolution::Details::ConvolutionDescriptorsCuDnn descs_;
 };
 
@@ -148,6 +148,8 @@ void ConvolutionCuDnnBE::Execute(const InferenceRequestContext& context,
     throwIfError(::cudnnBackendExecute(context.getThreadContext().dnnHandle().get(), plan->get(), variantPack->get()));
 }
 
+bool ConvolutionCuDnnBE::IsCudaGraphCompatible() const { return false; }
+
 std::shared_ptr<CUDA::DnnBETensorDescriptor> ConvolutionCuDnnBE::MakeTensorDescriptor(int64_t id,
                                                                                       cudnnDataType_t element_type,
                                                                                       const ov::Shape& shape) {
 
@@ -32,6 +32,9 @@ class ConvolutionCuDnnBE : public OperationCuDnn {
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
+
+    bool IsCudaGraphCompatible() const override;
+
     WorkbufferRequest GetWorkBufferRequest() const override;
 
 private:
 
@@ -166,6 +166,8 @@ void CuDnnTensorOpBase::Execute(const InferenceRequestContext& context,
                                                     outputTensors[0].get());
 }
 
+bool CuDnnTensorOpBase::IsCudaGraphCompatible() const { return true; }
+
 CuDnnTensorOpBase::IoParams::IoParams(const ov::Node& node, const Type& io_type, int index)
     : type_(convertDataType<cudnnDataType_t>(io_type == Type::INPUT ? node.get_input_element_type(index)
                                                                     : node.get_output_element_type(index))),
 
@@ -24,6 +24,8 @@ class CuDnnTensorOpBase : public OperationCuDnn {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     struct IoParams {
         const cudnnDataType_t type_;
 
@@ -102,6 +102,8 @@ void DetectionOutputOp::Execute(const InferenceRequestContext& context,
     }
 }
 
+bool DetectionOutputOp::IsCudaGraphCompatible() const { return true; }
+
 void DetectionOutputOp::InitSharedImmutableWorkbuffers(const Buffers& buffers) {
     kernel_.value().initSharedImmutableWorkbuffers(buffers);
 }
 
@@ -19,11 +19,14 @@ class DetectionOutputOp : public OperationBase {
                       const NodeOp& node,
                       IndexCollection&& inputIds,
                       IndexCollection&& outputIds);
+
     void Execute(const InferenceRequestContext& context,
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
     void InitSharedImmutableWorkbuffers(const Buffers& buffers) override;
     WorkbufferRequest GetWorkBufferRequest() const override;
 
 
@@ -59,6 +59,8 @@ class ElementwiseBinaryOp : public OperationBase {
                    static_cast<void*>(outputTensors[0].get()));
     }
 
+    bool IsCudaGraphCompatible() const override { return true; }
+
     void InitSharedImmutableWorkbuffers(const IOperationExec::Buffers& buffers) override {
         in0_broadcast_params_->initWorkbuffers(buffers);
         in1_broadcast_params_->initWorkbuffers(buffers);
 
@@ -45,6 +45,8 @@ FakeQuantizeOp::FakeQuantizeOp(const CreationContext &context,
         convertDataType<ov::nvidia_gpu::kernel::Type_t>(element_type), output_size, max_threads_per_block, levels};
 }
 
+bool FakeQuantizeOp::IsCudaGraphCompatible() const { return true; }
+
 void FakeQuantizeOp::Execute(const InferenceRequestContext &context,
                              Inputs inputTensors,
                              Outputs outputTensors,
 
@@ -20,6 +20,8 @@ class FakeQuantizeOp : public OperationBase {
                    IndexCollection&& inputIds,
                    IndexCollection&& outputIds);
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     void Execute(const InferenceRequestContext& context,
                  Inputs inputTensors,
 
@@ -42,6 +42,8 @@ void FloorOp::Execute(const InferenceRequestContext& context,
     (*kernel_)(stream.get(), inputTensors[0].get(), outputTensors[0].get());
 }
 
+bool FloorOp::IsCudaGraphCompatible() const { return true; }
+
 OPERATION_REGISTER(FloorOp, Floor);
 
 }  // namespace nvidia_gpu
 
@@ -23,6 +23,8 @@ class FloorOp : public OperationBase {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     std::optional<kernel::Floor> kernel_;
 };
 
@@ -54,6 +54,8 @@ void FullyConnectedOp::Execute(const InferenceRequestContext& context,
     matmul_op_.Execute(context, inputs.first(inputs.size() - 1), outputs, workbuffers);
 }
 
+bool FullyConnectedOp::IsCudaGraphCompatible() const { return true; }
+
 OPERATION_REGISTER(FullyConnectedOp, FullyConnected);
 }  // namespace nvidia_gpu
 }  // namespace ov
@@ -26,6 +26,8 @@ class FullyConnectedOp : public OperationCuBlas {
                  Outputs outputTensors,
                  const Workbuffers& workbuffers) const override;
 
+    bool IsCudaGraphCompatible() const override;
+
 private:
     MatMulOp matmul_op_;
     size_t bias_size_ = 0;
 
@@ -77,6 +77,8 @@ void FusedConvolutionBackpropDataOp::Execute(const InferenceRequestContext& cont
                                                 outputs[ArgIndices3Ins::dinput].get()));
 }
 
+bool FusedConvolutionBackpropDataOp::IsCudaGraphCompatible() const { return true; }
+
 void FusedConvolutionBackpropDataOp::InitSharedImmutableWorkbuffers(const IOperationExec::Buffers& buffers) {
     OPENVINO_ASSERT(buffers.size() == 1, "Node name: ", GetName());
     const size_t repeat = conv_in_bytes_ / add_in_bytes_;
 
@@ -25,6 +25,8 @@ class FusedConvolutionBackpropDataOp : public OperationCuDnn {
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers&) const override;
+
+    bool IsCudaGraphCompatible() const override;
     void InitSharedImmutableWorkbuffers(const IOperationExec::Buffers& buffers) override;
     WorkbufferRequest GetWorkBufferRequest() const override;
 
 
@@ -95,6 +95,8 @@ void FusedConvolutionCuDnn::Execute(const InferenceRequestContext& context,
                                                 outputs[ArgIndices::output].get()));
 }
 
+bool FusedConvolutionCuDnn::IsCudaGraphCompatible() const { return true; }
+
 WorkbufferRequest FusedConvolutionCuDnn::GetWorkBufferRequest() const {
     if (conv_descs_->Algo().memory != 0)
         return {{}, {conv_descs_->Algo().memory}};
 
@@ -34,6 +34,8 @@ class FusedConvolutionCuDnn : public OperationCuDnn {
                  Inputs inputTensors,
                  Outputs outputTensors,
                  const Workbuffers&) const override;
+
+    bool IsCudaGraphCompatible() const override;
     void InitSharedImmutableWorkbuffers(const IOperationExec::Buffers&) override {}
     WorkbufferRequest GetWorkBufferRequest() const override;
Original file line number	Diff line number	Diff line change
`@@ -59,5 +59,7 @@ void ActivationForwardCuDnnOpBase::Execute(const InferenceRequestContext& contex`
`59`	`59`	`outputTensors[0].get());`
`60`	`60`	`}`
`61`	`61`
	`62`	`+bool ActivationForwardCuDnnOpBase::IsCudaGraphCompatible() const { return true; }`
	`63`	`+`
`62`	`64`	`} // namespace nvidia_gpu`
`63`	`65`	`} // namespace ov`
Original file line number	Diff line number	Diff line change
`@@ -30,6 +30,8 @@ void AvgPoolOp::Execute(const InferenceRequestContext& context,`
`30`	`30`	`outputs[PoolingImpl::output_index].get());`
`31`	`31`	`}`
`32`	`32`
	`33`	`+bool AvgPoolOp::IsCudaGraphCompatible() const { return true; }`
	`34`	`+`
`33`	`35`	`OPERATION_REGISTER(AvgPoolOp, AvgPool);`
`34`	`36`
`35`	`37`	`} // namespace nvidia_gpu`
Original file line number	Diff line number	Diff line change
`@@ -65,6 +65,8 @@ void BroadcastOp::Execute(const InferenceRequestContext& context,`
`65`	`65`	`(*kernel_)(stream, inputs[0].get(), broadcast_params_->mapper(workbuffers.immutable_buffers), outputs[0].get());`
`66`	`66`	`}`
`67`	`67`
	`68`	`+bool BroadcastOp::IsCudaGraphCompatible() const { return true; }`
	`69`	`+`
`68`	`70`	`WorkbufferRequest BroadcastOp::GetWorkBufferRequest() const { return {immutable_buffer_sizes_, {}}; }`
`69`	`71`
`70`	`72`	`void BroadcastOp::InitSharedImmutableWorkbuffers(const Buffers& buffers) {`
Original file line number	Diff line number	Diff line change
`@@ -51,5 +51,7 @@ void ClampCudaOp::Execute(const InferenceRequestContext& context,`
`51`	`51`	`(*kernel_)(context.getThreadContext().stream().get(), inputTensors[0].get(), outputTensors[0].get());`
`52`	`52`	`}`
`53`	`53`
	`54`	`+bool ClampCudaOp::IsCudaGraphCompatible() const { return true; }`
	`55`	`+`
`54`	`56`	`} // namespace nvidia_gpu`
`55`	`57`	`} // namespace ov`
Original file line number	Diff line number	Diff line change
`@@ -97,6 +97,8 @@ void ClampCuDnnOp::Execute(const InferenceRequestContext& context,`
`97`	`97`	`outputTensors[0].get());`
`98`	`98`	`}`
`99`	`99`
	`100`	`+bool ClampCuDnnOp::IsCudaGraphCompatible() const { return true; }`
	`101`	`+`
`100`	`102`	`void ClampCuDnnOp::InitSharedImmutableWorkbuffers(const Buffers& buffers) {`
`101`	`103`	`switch (data_type_) {`
`102`	`104`	`case CUDNN_DATA_FLOAT:`
Original file line number	Diff line number	Diff line change
`@@ -84,6 +84,8 @@ Comparison::Comparison(const CreationContext& context,`
`84`	`84`	`threads_per_block};`
`85`	`85`	`}`
`86`	`86`
	`87`	`+bool Comparison::IsCudaGraphCompatible() const { return true; }`
	`88`	`+`
`87`	`89`	`void Comparison::Execute(const InferenceRequestContext& context,`
`88`	`90`	`Inputs inputs,`
`89`	`91`	`Outputs outputs,`
Original file line number	Diff line number	Diff line change
`@@ -95,6 +95,8 @@ void ConcatOp::Execute(const InferenceRequestContext& context,`
`95`	`95`	`outputs[0].get());`
`96`	`96`	`}`
`97`	`97`
	`98`	`+bool ConcatOp::IsCudaGraphCompatible() const { return false; }`
	`99`	`+`
`98`	`100`	`OPERATION_REGISTER(ConcatOp, Concat);`
`99`	`101`	`} // namespace nvidia_gpu`
`100`	`102`	`} // namespace ov`
Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,8 @@ void ConvertOp::Execute(const InferenceRequestContext& context,`
`55`	`55`	`(*convert_kernel_)(stream.get(), outputs[0].get(), inputs[0].get());`
`56`	`56`	`}`
`57`	`57`
	`58`	`+bool ConvertOp::IsCudaGraphCompatible() const { return true; }`
	`59`	`+`
`58`	`60`	`OPERATION_REGISTER(ConvertOp, Convert);`
`59`	`61`
`60`	`62`	`} // namespace nvidia_gpu`
Original file line number	Diff line number	Diff line change
`@@ -91,6 +91,8 @@ class I420ConvertColorBase : public OperationBase {`
`91`	`91`	`}`
`92`	`92`	`}`
`93`	`93`
	`94`	`+ bool IsCudaGraphCompatible() const override { return true; }`
	`95`	`+`
`94`	`96`	`private:`
`95`	`97`	`std::optional<TKernel> kernel_;`
`96`	`98`	`};`
Original file line number	Diff line number	Diff line change
`@@ -90,6 +90,8 @@ class NV12ConvertColorBase : public OperationBase {`
`90`	`90`	`}`
`91`	`91`	`}`
`92`	`92`
	`93`	`+ bool IsCudaGraphCompatible() const override { return true; }`
	`94`	`+`
`93`	`95`	`private:`
`94`	`96`	`std::optional<TKernel> kernel_;`
`95`	`97`	`};`