TR-mbed/TensorConvolutionSycl_8h_source.html

// This file is part of Eigen, a lightweight C++ template library

// for linear algebra.

//

// Mehdi Goli    Codeplay Software Ltd.

// Ralph Potter  Codeplay Software Ltd.

// Luke Iwanski  Codeplay Software Ltd.

// Contact: <eigen@codeplay.com>

// Copyright (C) 2016 Benoit Steiner <benoit.steiner.goog@gmail.com>


//

// This Source Code Form is subject to the terms of the Mozilla

// Public License v. 2.0. If a copy of the MPL was not distributed

// with this file, You can obtain one at http://mozilla.org/MPL/2.0/.


#ifndef EIGEN_CXX11_TENSOR_TENSOR_CONVOLUTION_SYCL_H

#define EIGEN_CXX11_TENSOR_TENSOR_CONVOLUTION_SYCL_H


namespace Eigen {


enum class convolution_type { CONV1D, CONV2D, CONV3D };

template <typename Evaluator, typename CoeffReturnType, typename KernelType, typename Index, typename InputDims,

          typename Kernel_accessor, typename Buffer_accessor, convolution_type Conv_Dim>

struct EigenConvolutionKernel;

template <typename Evaluator, typename CoeffReturnType, typename KernelType, typename Index, typename InputDims,

          typename Kernel_accessor, typename Buffer_accessor>


struct EigenConvolutionKernel<Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor,

                              Buffer_accessor, convolution_type::CONV1D> {

  typedef cl::sycl::accessor<CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local>

      Local_accessor;

  Local_accessor local_acc;

  Evaluator device_evaluator;

  Kernel_accessor kernel_filter;

  Buffer_accessor buffer_acc;

  internal::IndexMapper<Index, InputDims, 1, Evaluator::Layout> indexMapper;

  const size_t kernelSize;

  const cl::sycl::range<2> input_range;


  EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_,

                         Buffer_accessor buffer_acc_,

                         internal::IndexMapper<Index, InputDims, 1, Evaluator::Layout> indexMapper_,

                         const size_t kernelSize_, const cl::sycl::range<2> input_range_)

      : local_acc(local_acc_),

        device_evaluator(device_evaluator_),

        kernel_filter(kernel_filter_),

        buffer_acc(buffer_acc_),

        indexMapper(indexMapper_),

        kernelSize(kernelSize_),

        input_range(input_range_) {}


  template <typename BooleanDim2>


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim2 boolean_check) {

    return (boolean_check[0] && boolean_check[1]);

  }


  void operator()(cl::sycl::nd_item<2> itemID) {

    auto buffer_ptr = buffer_acc.get_pointer();

    auto kernel_ptr = kernel_filter.get_pointer();

    // the required row to be calculated for the for each plane in shered memory

    const size_t num_input = (itemID.get_local_range()[0] + kernelSize - 1);

    const size_t plane_kernel_offset = itemID.get_local_id(1) * num_input;

    const size_t input_offset = itemID.get_group(0) * itemID.get_local_range()[0];

    const size_t plane_tensor_offset = indexMapper.mapGpuInputPlaneToTensorInputOffset(itemID.get_global_id(1));

    for (size_t i = itemID.get_local_id(0); i < num_input; i += itemID.get_local_range()[0]) {

      const size_t local_index = i + plane_kernel_offset;

      const size_t tensor_index =

          plane_tensor_offset + indexMapper.mapGpuInputKernelToTensorInputOffset(i + input_offset);


      local_acc[local_index] =

          (((i + input_offset) < (input_range[0] + kernelSize - 1)) && itemID.get_global_id(1) < input_range[1])

              ? device_evaluator.coeff(tensor_index)

              : CoeffReturnType(0);

    }


    itemID.barrier(cl::sycl::access::fence_space::local_space);


    // calculate the convolution // output start x

    const size_t first_output_start = itemID.get_group(0) * (itemID.get_local_range()[0]);

    if (boundary_check(itemID.get_global_id() < input_range)) {

      CoeffReturnType result = static_cast<CoeffReturnType>(0);

      const size_t index = plane_kernel_offset + itemID.get_local_id(0);

      for (size_t k = 0; k < kernelSize; ++k) {

        result += (local_acc[k + index] * kernel_ptr[k]);

      }

      const size_t tensor_index =

          indexMapper.mapGpuOutputPlaneToTensorOutputOffset(itemID.get_global_id(1)) +

          indexMapper.mapGpuOutputKernelToTensorOutputOffset(itemID.get_local_id(0) + first_output_start);

      buffer_ptr[tensor_index] = result;

    }

  }


};


template <typename Evaluator, typename CoeffReturnType, typename KernelType, typename Index, typename InputDims,

          typename Kernel_accessor, typename Buffer_accessor>


struct EigenConvolutionKernel<Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor,

                              Buffer_accessor, convolution_type::CONV2D> {

  typedef cl::sycl::accessor<CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local>

      Local_accessor;

  Local_accessor local_acc;

  Evaluator device_evaluator;

  Kernel_accessor kernel_filter;

  Buffer_accessor buffer_acc;

  internal::IndexMapper<Index, InputDims, 2, Evaluator::Layout> indexMapper;

  const cl::sycl::range<2> kernel_size;

  const cl::sycl::range<3> input_range;


  EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_,

                         Buffer_accessor buffer_acc_,

                         internal::IndexMapper<Index, InputDims, 2, Evaluator::Layout> indexMapper_,

                         const cl::sycl::range<2> kernel_size_, const cl::sycl::range<3> input_range_)

      : local_acc(local_acc_),

        device_evaluator(device_evaluator_),

        kernel_filter(kernel_filter_),

        buffer_acc(buffer_acc_),

        indexMapper(indexMapper_),

        kernel_size(kernel_size_),

        input_range(input_range_) {}


  template <typename BooleanDim3>


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim3 boolean_check) {

    return (boolean_check[0] && boolean_check[1] && boolean_check[2]);

  }


  void operator()(cl::sycl::nd_item<3> itemID) {

    auto buffer_ptr = buffer_acc.get_pointer();

    auto kernel_ptr = kernel_filter.get_pointer();

    // the required row to be calculated for the for each plane in shered memory

    const auto num_input = cl::sycl::range<2>{

        (cl::sycl::range<2>(itemID.get_local_range()[0], itemID.get_local_range()[1]) + kernel_size - 1)};


    const size_t plane_input_offset = indexMapper.mapGpuInputPlaneToTensorInputOffset(itemID.get_global_id(2));

    const size_t plane_kernel_offset = itemID.get_local_id(2) * num_input[1];


    const auto input_offset = cl::sycl::range<2>{itemID.get_group(0) * itemID.get_local_range()[0],

                                                 itemID.get_group(1) * itemID.get_local_range()[1]};


    // fill the local memory

    bool in_range_dim2 = itemID.get_global_id(2) < input_range[2];

    for (size_t j = itemID.get_local_id(1); j < num_input[1]; j += itemID.get_local_range()[1]) {

      const size_t local_input_offset = num_input[0] * (j + plane_kernel_offset);

      bool in_range_dim1 = ((j + input_offset[1]) < (input_range[1] + kernel_size[1] - 1));

      for (size_t i = itemID.get_local_id(0); i < num_input[0]; i += itemID.get_local_range()[0]) {

        const size_t local_index = i + local_input_offset;

        const size_t tensor_index = plane_input_offset + indexMapper.mapGpuInputKernelToTensorInputOffset(

                                                             i + input_offset[0], j + input_offset[1]);

        local_acc[local_index] = (((i + input_offset[0]) < (input_range[0] + kernel_size[0] - 1)) &&

                                  in_range_dim1 && in_range_dim2)

                                     ? device_evaluator.coeff(tensor_index)

                                     : CoeffReturnType(0);

      }

    }


    itemID.barrier(cl::sycl::access::fence_space::local_space);


    // output offset start for each thread

    const auto output_offset = cl::sycl::range<2>{itemID.get_group(0) * itemID.get_local_range()[0],

                                                  itemID.get_group(1) * itemID.get_local_range()[1]};


    if (boundary_check(itemID.get_global_id() < input_range)) {

      CoeffReturnType result = static_cast<CoeffReturnType>(0);


      for (size_t j = 0; j < kernel_size[1]; j++) {

        size_t kernel_offset = kernel_size[0] * j;

        const size_t index =

            (num_input[0] * (plane_kernel_offset + j + itemID.get_local_id(1))) + itemID.get_local_id(0);

        for (size_t i = 0; i < kernel_size[0]; i++) {

          result += (local_acc[i + index] * kernel_ptr[i + kernel_offset]);

        }

      }

      const size_t tensor_index =

          indexMapper.mapGpuOutputPlaneToTensorOutputOffset(itemID.get_global_id(2)) +

          indexMapper.mapGpuOutputKernelToTensorOutputOffset(itemID.get_local_id(0) + output_offset[0],

                                                             itemID.get_local_id(1) + output_offset[1]);


      buffer_ptr[tensor_index] = result;

    }

  }


};


template <typename Evaluator, typename CoeffReturnType, typename KernelType, typename Index, typename InputDims,

          typename Kernel_accessor, typename Buffer_accessor>


struct EigenConvolutionKernel<Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor,

                              Buffer_accessor, convolution_type::CONV3D> {

  typedef cl::sycl::accessor<CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local>

      Local_accessor;

  Local_accessor local_acc;

  Evaluator device_evaluator;

  Kernel_accessor kernel_filter;

  Buffer_accessor buffer_acc;

  internal::IndexMapper<Index, InputDims, 3, Evaluator::Layout> indexMapper;

  const cl::sycl::range<3> kernel_size;

  const cl::sycl::range<3> input_range;

  const size_t numP;


  EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_,

                         Buffer_accessor buffer_acc_,

                         internal::IndexMapper<Index, InputDims, 3, Evaluator::Layout> indexMapper_,

                         const cl::sycl::range<3> kernel_size_, const cl::sycl::range<3> input_range_,

                         const size_t numP_)

      : local_acc(local_acc_),

        device_evaluator(device_evaluator_),

        kernel_filter(kernel_filter_),

        buffer_acc(buffer_acc_),

        indexMapper(indexMapper_),

        kernel_size(kernel_size_),

        input_range(input_range_),

        numP(numP_) {}


  template <typename BooleanDim3>


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim3 boolean_check) {

    return (boolean_check[0] && boolean_check[1] && boolean_check[2]);

  }


  void operator()(cl::sycl::nd_item<3> itemID) {

    auto buffer_ptr = buffer_acc.get_pointer();

    auto kernel_ptr = kernel_filter.get_pointer();

    const auto num_input = cl::sycl::range<3>{itemID.get_local_range() + kernel_size - 1};


    const auto input_offset = cl::sycl::range<3>{itemID.get_group().get_id() * itemID.get_local_range()};


    const auto output_offset =

          cl::sycl::range<3>{itemID.get_group().get_id() * itemID.get_local_range() + itemID.get_local_id()};


    for (size_t p = 0; p < numP; p++) {

      const size_t plane_input_offset = indexMapper.mapGpuInputPlaneToTensorInputOffset(p);

      for (size_t k = itemID.get_local_id(2); k < num_input[2]; k += itemID.get_local_range()[2]) {

        size_t local_index_dim2 = num_input[0] * num_input[1] * k;

        bool cond_k_dim = (k + input_offset[2] < (input_range[2] + kernel_size[2] - 1));

        for (size_t j = itemID.get_local_id(1); j < num_input[1]; j += itemID.get_local_range()[1]) {

          bool cond_j_dim = cond_k_dim && (j + input_offset[1] < (input_range[1] + kernel_size[1] - 1));

          size_t local_index_dim1 = (num_input[0] * j)  + local_index_dim2;

          for (size_t i = itemID.get_local_id(0); i < num_input[0]; i += itemID.get_local_range()[0]) {

            bool conds = cond_j_dim && (i + input_offset[0] < (input_range[0] + kernel_size[0] - 1));

            const size_t local_index = local_index_dim1 + i;

            const size_t tensor_index =

                plane_input_offset + indexMapper.mapGpuInputKernelToTensorInputOffset(

                                         i + input_offset[0], j + input_offset[1], k + input_offset[2]);

            local_acc[local_index] = conds ? device_evaluator.coeff(tensor_index) : CoeffReturnType(0);

          }

        }

      }

      itemID.barrier(cl::sycl::access::fence_space::local_space);


      // calculate the convolution


      if (boundary_check(itemID.get_global_id() < input_range)) {

        CoeffReturnType result = static_cast<CoeffReturnType>(0);

        for (size_t k = 0; k < kernel_size[2]; k++) {

          for (size_t j = 0; j < kernel_size[1]; j++) {

            for (size_t i = 0; i < kernel_size[0]; i++) {

              const size_t kernel_index = i + kernel_size[0] * (j + kernel_size[1] * k);

              const size_t local_index =

                  ((i + itemID.get_local_id(0)) +

                   num_input[0] * ((j + itemID.get_local_id(1)) + num_input[1] * (k + itemID.get_local_id(2))));


              result += (local_acc[local_index] * kernel_ptr[kernel_index]);

            }

          }

        }

        const size_t tensor_index =

            indexMapper.mapGpuOutputPlaneToTensorOutputOffset(p) +

            indexMapper.mapGpuOutputKernelToTensorOutputOffset(output_offset[0], output_offset[1], output_offset[2]);

        buffer_ptr[tensor_index] = result;

      }


      itemID.barrier(cl::sycl::access::fence_space::local_space);

    }

  }


};


template <typename Indices, typename InputArgType, typename KernelArgType>


struct TensorEvaluator<const TensorConvolutionOp<Indices, InputArgType, KernelArgType>, Eigen::SyclDevice> {

  typedef TensorConvolutionOp<Indices, InputArgType, KernelArgType> XprType;


  static const int NumDims =

      internal::array_size<typename TensorEvaluator<InputArgType, Eigen::SyclDevice>::Dimensions>::value;

  static const int NumKernelDims = internal::array_size<Indices>::value;

  typedef typename XprType::Index Index;

  typedef DSizes<Index, NumDims> Dimensions;

  typedef typename TensorEvaluator<KernelArgType, Eigen::SyclDevice>::Dimensions KernelDimensions;

  typedef const Eigen::SyclDevice Device;

  typedef typename XprType::CoeffReturnType CoeffReturnType;

  typedef typename PacketType<CoeffReturnType, Eigen::SyclDevice>::type PacketReturnType;

  typedef typename InputArgType::Scalar Scalar;

  static const int PacketSize = PacketType<CoeffReturnType, Device>::size;

  typedef StorageMemory<CoeffReturnType, Eigen::SyclDevice> Storage;

  typedef typename Storage::Type EvaluatorPointerType;

  typedef StorageMemory<const CoeffReturnType, Eigen::SyclDevice> KernelStorage;


  enum {

    IsAligned = TensorEvaluator<InputArgType, Eigen::SyclDevice>::IsAligned &

                TensorEvaluator<KernelArgType, Eigen::SyclDevice>::IsAligned,

    PacketAccess = false,

    BlockAccess = false,

    PreferBlockAccess = false,

    Layout = TensorEvaluator<InputArgType, Eigen::SyclDevice>::Layout,

    CoordAccess = false,  // to be implemented

    RawAccess = false

  };


  //===- Tensor block evaluation strategy (see TensorBlock.h) -------------===//

  typedef internal::TensorBlockNotImplemented TensorBlock;

  //===--------------------------------------------------------------------===//


  TensorEvaluator(const XprType &op, const Eigen::SyclDevice &device)

      : m_inputImpl(op.inputExpression(), device),

        m_kernelArg(op.kernelExpression()),

        m_kernelImpl(op.kernelExpression(), device),

        m_indices(op.indices()),

        m_buf(NULL),

        m_kernel(NULL),

        m_local_kernel(false),

        m_device(device) {

    EIGEN_STATIC_ASSERT((static_cast<int>(TensorEvaluator<InputArgType, Eigen::SyclDevice>::Layout) ==

                         static_cast<int>(TensorEvaluator<KernelArgType, Eigen::SyclDevice>::Layout)),

                        YOU_MADE_A_PROGRAMMING_MISTAKE);


    const typename TensorEvaluator<InputArgType, Eigen::SyclDevice>::Dimensions &input_dims = m_inputImpl.dimensions();

    const typename TensorEvaluator<KernelArgType, Eigen::SyclDevice>::Dimensions &kernel_dims =

        m_kernelImpl.dimensions();


    m_dimensions = m_inputImpl.dimensions();

    for (int i = 0; i < NumKernelDims; ++i) {

      const Index index = op.indices()[i];

      const Index input_dim = input_dims[index];

      const Index kernel_dim = kernel_dims[i];

      const Index result_dim = input_dim - kernel_dim + 1;

      m_dimensions[index] = result_dim;

    }

  }


  EIGEN_DEVICE_FUNC const Dimensions &dimensions() const { return m_dimensions; }


  EIGEN_STRONG_INLINE bool evalSubExprsIfNeeded(EvaluatorPointerType data) {

    preloadKernel();

    m_inputImpl.evalSubExprsIfNeeded(NULL);

    if (data) {

      executeEval(data);

      return false;

    } else {

      m_buf = (EvaluatorPointerType)m_device.get(

          (Scalar *)m_device.allocate_temp(dimensions().TotalSize() * sizeof(Scalar)));

      executeEval(m_buf);

      return true;

    }

  }


  EIGEN_STRONG_INLINE void cleanup() {

    m_inputImpl.cleanup();

    if (m_buf) {

      m_device.deallocate_temp(m_buf);

      m_buf = NULL;

    }

    if (m_local_kernel) {

      m_device.deallocate_temp(m_kernel);

      m_local_kernel = false;

    }

    m_kernel = NULL;

  }


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE const Device &device() const { return m_device; }

  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE EvaluatorPointerType data() const { return m_buf; }


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void preloadKernel() {

    // Don't make a local copy of the kernel unless we have to (i.e. it's an

    // expression that needs to be evaluated)

    typename KernelStorage::Type in_place = m_kernelImpl.data();

    if (in_place) {

      m_kernel = in_place;

      m_local_kernel = false;

    } else {

      ptrdiff_t kernel_sz = m_kernelImpl.dimensions().TotalSize() * sizeof(Scalar);

      EvaluatorPointerType local = (EvaluatorPointerType)m_device.get((Scalar *)m_device.allocate_temp(kernel_sz));

      typedef TensorEvalToOp<const KernelArgType> EvalTo;

      EvalTo evalToTmp(m_device.get(local), m_kernelArg);

      const bool PacketAccess = internal::IsVectorizable<Eigen::SyclDevice, KernelArgType>::value;

      internal::TensorExecutor<const EvalTo, Eigen::SyclDevice, PacketAccess>::run(evalToTmp, m_device);

      m_kernel = local;

      m_local_kernel = true;

    }

  }


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void executeEval(EvaluatorPointerType data) const {

    typedef TensorEvaluator<InputArgType, Eigen::SyclDevice> InputEvaluator;

    typedef typename InputEvaluator::Dimensions InputDims;

    switch (NumKernelDims) {

      case 1: {

        const size_t numX = dimensions()[m_indices[0]];

        const size_t numP = dimensions().TotalSize() / numX;

        const auto input_dim = std::array<size_t, 2>{numX, numP};

        auto global_range = cl::sycl::range<2>{};

        auto local_range = cl::sycl::range<2>{};

        const size_t kernel_size = m_kernelImpl.dimensions().TotalSize();


        m_device.parallel_for_setup(input_dim, global_range, local_range);

        const size_t local_memory_size = (local_range[0] + kernel_size - 1) * (local_range[1]);

        gpu_assert(static_cast<unsigned long>(local_memory_size) <= m_device.sharedMemPerBlock());

        const array<Index, 1> indices{{m_indices[0]}};

        const array<Index, 1> kernel_dims{{m_kernelImpl.dimensions()[0]}};

        internal::IndexMapper<Index, InputDims, 1, Layout> indexMapper(m_inputImpl.dimensions(), kernel_dims, indices);


        typedef EigenConvolutionKernel<InputEvaluator, CoeffReturnType, Scalar, Index, InputDims,

                                       typename KernelStorage::Type, EvaluatorPointerType, convolution_type::CONV1D>

            ConvKernel;


        m_device.template binary_kernel_launcher<CoeffReturnType, ConvKernel>(

            m_inputImpl, m_kernel, data, cl::sycl::nd_range<2>(global_range, local_range), local_memory_size,

            indexMapper, kernel_size, cl::sycl::range<2>(input_dim[0], input_dim[1]));

        break;

      }


      case 2: {

        auto kernel_index = std::array<size_t, 2>{static_cast<int>(Layout) == static_cast<int>(ColMajor) ? 0 : 1,

                                                  static_cast<int>(Layout) == static_cast<int>(ColMajor) ? 1 : 0};

        auto kernel_size = cl::sycl::range<2>{(size_t)m_kernelImpl.dimensions()[kernel_index[0]],

                                              (size_t)m_kernelImpl.dimensions()[kernel_index[1]]};

        const size_t numX = dimensions()[m_indices[kernel_index[0]]];

        const size_t numY = dimensions()[m_indices[kernel_index[1]]];

        const size_t numP = dimensions().TotalSize() / (numX * numY);

        auto input_dim = std::array<size_t, 3>{numX, numY, numP};


        auto global_range = cl::sycl::range<3>{};

        auto local_range = cl::sycl::range<3>{};


        m_device.parallel_for_setup(input_dim, global_range, local_range);


        const size_t local_memory_size =

            (local_range[0] + kernel_size[0] - 1) * (local_range[1] + kernel_size[1] - 1) * local_range[2];

        gpu_assert(static_cast<unsigned long>(local_memory_size) <= m_device.sharedMemPerBlock());

        const array<Index, 2> indices{{m_indices[kernel_index[0]], m_indices[kernel_index[1]]}};

        const array<Index, 2> kernel_dims{

            {m_kernelImpl.dimensions()[kernel_index[0]], m_kernelImpl.dimensions()[kernel_index[1]]}};

        internal::IndexMapper<Index, InputDims, 2, Layout> indexMapper(m_inputImpl.dimensions(), kernel_dims, indices);

        typedef EigenConvolutionKernel<InputEvaluator, CoeffReturnType, Scalar, Index, InputDims,

                                       typename KernelStorage::Type, EvaluatorPointerType, convolution_type::CONV2D>

            ConvKernel;

        m_device.template binary_kernel_launcher<CoeffReturnType, ConvKernel>(

            m_inputImpl, m_kernel, data, cl::sycl::nd_range<3>(global_range, local_range), local_memory_size,

            indexMapper, kernel_size, cl::sycl::range<3>{input_dim[0], input_dim[1], input_dim[2]});

        break;

      }


      case 3: {

        auto kernel_index = std::array<size_t, 3>{static_cast<int>(Layout) == static_cast<int>(ColMajor) ? 0 : 2,

                                                  static_cast<int>(Layout) == static_cast<int>(ColMajor) ? 1 : 1,

                                                  static_cast<int>(Layout) == static_cast<int>(ColMajor) ? 2 : 0};


        auto kernel_size = cl::sycl::range<3>{(size_t)m_kernelImpl.dimensions()[kernel_index[0]],

                                              (size_t)m_kernelImpl.dimensions()[kernel_index[1]],

                                              (size_t)m_kernelImpl.dimensions()[kernel_index[2]]};


        const size_t numX = dimensions()[m_indices[kernel_index[0]]];

        const size_t numY = dimensions()[m_indices[kernel_index[1]]];

        const size_t numZ = dimensions()[m_indices[kernel_index[2]]];

        auto input_dim = std::array<size_t, 3>{numX, numY, numZ};

        const size_t numP = dimensions().TotalSize() / (numX * numY * numZ);


        const array<Index, 3> indices{

            {m_indices[kernel_index[0]], m_indices[kernel_index[1]], m_indices[kernel_index[2]]}};

        const array<Index, 3> kernel_dims{{m_kernelImpl.dimensions()[kernel_index[0]],

                                           m_kernelImpl.dimensions()[kernel_index[1]],

                                           m_kernelImpl.dimensions()[kernel_index[2]]}};


        internal::IndexMapper<Index, InputDims, 3, Layout> indexMapper(m_inputImpl.dimensions(), kernel_dims, indices);


        auto global_range = cl::sycl::range<3>{};

        auto local_range = cl::sycl::range<3>{};


        m_device.parallel_for_setup(input_dim, global_range, local_range);

        auto local_memory_range = (local_range + kernel_size - 1);

        const size_t local_memory_size = local_memory_range[0] * local_memory_range[1] * local_memory_range[2];


        gpu_assert(static_cast<unsigned long>(local_memory_size) <= m_device.sharedMemPerBlock());

        typedef EigenConvolutionKernel<InputEvaluator, CoeffReturnType, Scalar, Index, InputDims,

                                       typename KernelStorage::Type, EvaluatorPointerType, convolution_type::CONV3D>

            ConvKernel;

        m_device.template binary_kernel_launcher<CoeffReturnType, ConvKernel>(

            m_inputImpl, m_kernel, data, cl::sycl::nd_range<3>(global_range, local_range), local_memory_size,

            indexMapper, kernel_size, cl::sycl::range<3>(input_dim[0], input_dim[1], input_dim[2]), numP);

        break;

      }


      default: {

        EIGEN_STATIC_ASSERT((NumKernelDims >= 1 && NumKernelDims <= 3),

                            THIS_METHOD_IS_ONLY_FOR_OBJECTS_OF_A_SPECIFIC_SIZE);

      }

    }

  }


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE CoeffReturnType coeff(Index index) const {

    eigen_assert(m_buf != NULL);

    eigen_assert(index < m_dimensions.TotalSize());

    return m_buf[index];

  }


  template <int LoadMode>


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE PacketReturnType packet(const Index index) const {

    eigen_assert(m_buf != NULL);

    eigen_assert(index < m_dimensions.TotalSize());

    return internal::ploadt<PacketReturnType, LoadMode>(m_buf + index);

  }


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE TensorOpCost costPerCoeff(bool vectorized) const {

    // TODO(rmlarsen): FIXME: For now, this is just a copy of the CPU cost

    // model.

    const double kernel_size = m_kernelImpl.dimensions().TotalSize();

    // We ignore the use of fused multiply-add.

    const double convolve_compute_cost = TensorOpCost::AddCost<Scalar>() + TensorOpCost::MulCost<Scalar>();

    const double firstIndex_compute_cost =

        NumDims *

        (2 * TensorOpCost::AddCost<Index>() + 2 * TensorOpCost::MulCost<Index>() + TensorOpCost::DivCost<Index>());

    return TensorOpCost(0, 0, firstIndex_compute_cost, vectorized, PacketSize) +

           kernel_size * (m_inputImpl.costPerCoeff(vectorized) + m_kernelImpl.costPerCoeff(vectorized) +

                          TensorOpCost(0, 0, convolve_compute_cost, vectorized, PacketSize));

  }


  // binding placeholder accessors to a command group handler for SYCL


  EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void bind(cl::sycl::handler &cgh) const {

    m_kernelImpl.bind(cgh);

    m_inputImpl.bind(cgh);

    m_buf.bind(cgh);

    m_kernel.bind(cgh);

  }


 private:

  // No assignment (copies are needed by the kernels)

  TensorEvaluator &operator=(const TensorEvaluator &);

  TensorEvaluator<InputArgType, Eigen::SyclDevice> m_inputImpl;

  KernelArgType m_kernelArg;

  TensorEvaluator<KernelArgType, Eigen::SyclDevice> m_kernelImpl;

  Indices m_indices;

  Dimensions m_dimensions;

  EvaluatorPointerType m_buf;

  typename KernelStorage::Type m_kernel;

  bool m_local_kernel;

  const Eigen::SyclDevice EIGEN_DEVICE_REF m_device;

};  // namespace Eigen


}  // end namespace Eigen


#endif  // EIGEN_CXX11_TENSOR_TENSOR_CONVOLUTION_H

i
int i
Definition BiCGSTAB_step_by_step.cpp:9

EIGEN_DEVICE_FUNC
#define EIGEN_DEVICE_FUNC
Definition Macros.h:976

eigen_assert
#define eigen_assert(x)
Definition Macros.h:1037

EIGEN_STRONG_INLINE
#define EIGEN_STRONG_INLINE
Definition Macros.h:917

EIGEN_STATIC_ASSERT
#define EIGEN_STATIC_ASSERT(CONDITION, MSG)
Definition StaticAssert.h:127

EIGEN_DEVICE_REF
#define EIGEN_DEVICE_REF
Definition TensorMacros.h:50

p
float * p
Definition Tutorial_Map_using.cpp:9

Eigen::TensorConvolutionOp
Definition TensorConvolution.h:260

Eigen::TensorConvolutionOp::Index
Eigen::internal::traits< TensorConvolutionOp >::Index Index
Definition TensorConvolution.h:268

Eigen::TensorConvolutionOp::CoeffReturnType
internal::promote_storage_type< typenameInputXprType::CoeffReturnType, typenameKernelXprType::CoeffReturnType >::ret CoeffReturnType
Definition TensorConvolution.h:265

Eigen::TensorConvolutionOp::indices
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE const Indices & indices() const
Definition TensorConvolution.h:274

Eigen::TensorEvalToOp
Definition TensorEvalTo.h:69

Eigen::TensorOpCost
Definition TensorCostModel.h:25

Eigen::Triplet< double >

Eigen::array
Definition EmulateArray.h:21

Eigen::internal::TensorBlockNotImplemented
Definition TensorBlock.h:617

Eigen::internal::TensorExecutor::run
static EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void run(const Expression &expr, const Device &device=Device())
Definition TensorExecutor.h:96

Eigen::ColMajor
@ ColMajor
Definition Constants.h:319

Eigen
Namespace containing all symbols from the Eigen library.
Definition bench_norm.cpp:85

Eigen::Index
EIGEN_DEFAULT_DENSE_INDEX_TYPE Index
The Index type as used for the API.
Definition Meta.h:74

Eigen::convolution_type
convolution_type
Definition TensorConvolutionSycl.h:28

Eigen::convolution_type::CONV2D
@ CONV2D

Eigen::convolution_type::CONV3D
@ CONV3D

Eigen::convolution_type::CONV1D
@ CONV1D

Eigen::DSizes
Definition TensorDimensions.h:263

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::operator()
void operator()(cl::sycl::nd_item< 3 > itemID)
Definition TensorConvolutionSycl.h:128

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::Local_accessor
cl::sycl::accessor< CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local > Local_accessor
Definition TensorConvolutionSycl.h:104

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::buffer_acc
Buffer_accessor buffer_acc
Definition TensorConvolutionSycl.h:108

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::device_evaluator
Evaluator device_evaluator
Definition TensorConvolutionSycl.h:106

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::local_acc
Local_accessor local_acc
Definition TensorConvolutionSycl.h:105

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::boundary_check
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim3 boolean_check)
Definition TensorConvolutionSycl.h:124

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::kernel_filter
Kernel_accessor kernel_filter
Definition TensorConvolutionSycl.h:107

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::kernel_size
const cl::sycl::range< 2 > kernel_size
Definition TensorConvolutionSycl.h:110

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::input_range
const cl::sycl::range< 3 > input_range
Definition TensorConvolutionSycl.h:111

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::indexMapper
internal::IndexMapper< Index, InputDims, 2, Evaluator::Layout > indexMapper
Definition TensorConvolutionSycl.h:109

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV2D >::EigenConvolutionKernel
EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_, Buffer_accessor buffer_acc_, internal::IndexMapper< Index, InputDims, 2, Evaluator::Layout > indexMapper_, const cl::sycl::range< 2 > kernel_size_, const cl::sycl::range< 3 > input_range_)
Definition TensorConvolutionSycl.h:112

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::device_evaluator
Evaluator device_evaluator
Definition TensorConvolutionSycl.h:39

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::buffer_acc
Buffer_accessor buffer_acc
Definition TensorConvolutionSycl.h:41

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::local_acc
Local_accessor local_acc
Definition TensorConvolutionSycl.h:38

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::indexMapper
internal::IndexMapper< Index, InputDims, 1, Evaluator::Layout > indexMapper
Definition TensorConvolutionSycl.h:42

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::input_range
const cl::sycl::range< 2 > input_range
Definition TensorConvolutionSycl.h:44

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::EigenConvolutionKernel
EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_, Buffer_accessor buffer_acc_, internal::IndexMapper< Index, InputDims, 1, Evaluator::Layout > indexMapper_, const size_t kernelSize_, const cl::sycl::range< 2 > input_range_)
Definition TensorConvolutionSycl.h:45

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::operator()
void operator()(cl::sycl::nd_item< 2 > itemID)
Definition TensorConvolutionSycl.h:61

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::kernelSize
const size_t kernelSize
Definition TensorConvolutionSycl.h:43

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::boundary_check
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim2 boolean_check)
Definition TensorConvolutionSycl.h:58

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::kernel_filter
Kernel_accessor kernel_filter
Definition TensorConvolutionSycl.h:40

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV1D >::Local_accessor
cl::sycl::accessor< CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local > Local_accessor
Definition TensorConvolutionSycl.h:37

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::operator()
void operator()(cl::sycl::nd_item< 3 > itemID)
Definition TensorConvolutionSycl.h:216

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::kernel_filter
Kernel_accessor kernel_filter
Definition TensorConvolutionSycl.h:192

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::Local_accessor
cl::sycl::accessor< CoeffReturnType, 1, cl::sycl::access::mode::read_write, cl::sycl::access::target::local > Local_accessor
Definition TensorConvolutionSycl.h:189

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::indexMapper
internal::IndexMapper< Index, InputDims, 3, Evaluator::Layout > indexMapper
Definition TensorConvolutionSycl.h:194

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::input_range
const cl::sycl::range< 3 > input_range
Definition TensorConvolutionSycl.h:196

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::device_evaluator
Evaluator device_evaluator
Definition TensorConvolutionSycl.h:191

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::local_acc
Local_accessor local_acc
Definition TensorConvolutionSycl.h:190

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::boundary_check
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE bool boundary_check(const BooleanDim3 boolean_check)
Definition TensorConvolutionSycl.h:213

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::buffer_acc
Buffer_accessor buffer_acc
Definition TensorConvolutionSycl.h:193

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::numP
const size_t numP
Definition TensorConvolutionSycl.h:197

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::EigenConvolutionKernel
EigenConvolutionKernel(Local_accessor local_acc_, Evaluator device_evaluator_, Kernel_accessor kernel_filter_, Buffer_accessor buffer_acc_, internal::IndexMapper< Index, InputDims, 3, Evaluator::Layout > indexMapper_, const cl::sycl::range< 3 > kernel_size_, const cl::sycl::range< 3 > input_range_, const size_t numP_)
Definition TensorConvolutionSycl.h:199

Eigen::EigenConvolutionKernel< Evaluator, CoeffReturnType, KernelType, Index, InputDims, Kernel_accessor, Buffer_accessor, convolution_type::CONV3D >::kernel_size
const cl::sycl::range< 3 > kernel_size
Definition TensorConvolutionSycl.h:195

Eigen::EigenConvolutionKernel
Definition TensorConvolutionSycl.h:31

Eigen::PacketType
Definition TensorMeta.h:50

Eigen::StorageMemory
Definition TensorForwardDeclarations.h:37

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::evalSubExprsIfNeeded
EIGEN_STRONG_INLINE bool evalSubExprsIfNeeded(EvaluatorPointerType data)
Definition TensorConvolutionSycl.h:337

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::Index
XprType::Index Index
Definition TensorConvolutionSycl.h:281

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::Scalar
InputArgType::Scalar Scalar
Definition TensorConvolutionSycl.h:287

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::bind
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void bind(cl::sycl::handler &cgh) const
Definition TensorConvolutionSycl.h:521

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::PacketReturnType
PacketType< CoeffReturnType, Eigen::SyclDevice >::type PacketReturnType
Definition TensorConvolutionSycl.h:286

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::KernelDimensions
TensorEvaluator< KernelArgType, Eigen::SyclDevice >::Dimensions KernelDimensions
Definition TensorConvolutionSycl.h:283

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::costPerCoeff
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE TensorOpCost costPerCoeff(bool vectorized) const
Definition TensorConvolutionSycl.h:507

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::TensorBlock
internal::TensorBlockNotImplemented TensorBlock
Definition TensorConvolutionSycl.h:305

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::CoeffReturnType
XprType::CoeffReturnType CoeffReturnType
Definition TensorConvolutionSycl.h:285

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::KernelStorage
StorageMemory< const CoeffReturnType, Eigen::SyclDevice > KernelStorage
Definition TensorConvolutionSycl.h:291

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::dimensions
EIGEN_DEVICE_FUNC const Dimensions & dimensions() const
Definition TensorConvolutionSycl.h:335

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::data
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE EvaluatorPointerType data() const
used by sycl in order to build the sycl buffer
Definition TensorConvolutionSycl.h:366

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::device
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE const Device & device() const
used by sycl in order to build the sycl buffer
Definition TensorConvolutionSycl.h:364

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::XprType
TensorConvolutionOp< Indices, InputArgType, KernelArgType > XprType
Definition TensorConvolutionSycl.h:276

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::executeEval
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void executeEval(EvaluatorPointerType data) const
Definition TensorConvolutionSycl.h:387

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::packet
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE PacketReturnType packet(const Index index) const
Definition TensorConvolutionSycl.h:501

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::TensorEvaluator
TensorEvaluator(const XprType &op, const Eigen::SyclDevice &device)
Definition TensorConvolutionSycl.h:308

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::cleanup
EIGEN_STRONG_INLINE void cleanup()
Definition TensorConvolutionSycl.h:351

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::Storage
StorageMemory< CoeffReturnType, Eigen::SyclDevice > Storage
Definition TensorConvolutionSycl.h:289

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::Device
const Eigen::SyclDevice Device
Definition TensorConvolutionSycl.h:284

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::EvaluatorPointerType
Storage::Type EvaluatorPointerType
Definition TensorConvolutionSycl.h:290

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::preloadKernel
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE void preloadKernel()
Definition TensorConvolutionSycl.h:368

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::Dimensions
DSizes< Index, NumDims > Dimensions
Definition TensorConvolutionSycl.h:282

Eigen::TensorEvaluator< const TensorConvolutionOp< Indices, InputArgType, KernelArgType >, Eigen::SyclDevice >::coeff
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE CoeffReturnType coeff(Index index) const
Definition TensorConvolutionSycl.h:494

Eigen::TensorEvaluator
A cost model used to limit the number of threads used for evaluating tensor expression.
Definition TensorEvaluator.h:29

Eigen::TensorEvaluator::Scalar
Derived::Scalar Scalar
Definition TensorEvaluator.h:31

Eigen::TensorEvaluator::m_device
const Device EIGEN_DEVICE_REF m_device
Definition TensorEvaluator.h:192

Eigen::TensorEvaluator::EvaluatorPointerType
Storage::Type EvaluatorPointerType
Definition TensorEvaluator.h:39

Eigen::TensorEvaluator::dimensions
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE const Dimensions & dimensions() const
Definition TensorEvaluator.h:73

Eigen::TensorEvaluator::data
EIGEN_DEVICE_FUNC EvaluatorPointerType data() const
Definition TensorEvaluator.h:181

Eigen::TensorEvaluator::CoeffReturnType
Derived::Scalar CoeffReturnType
Definition TensorEvaluator.h:32

Eigen::TensorEvaluator::BlockAccess
@ BlockAccess
Definition TensorEvaluator.h:48

Eigen::TensorEvaluator::PreferBlockAccess
@ PreferBlockAccess
Definition TensorEvaluator.h:49

Eigen::TensorEvaluator::PacketAccess
@ PacketAccess
Definition TensorEvaluator.h:47

Eigen::TensorEvaluator::Layout
@ Layout
Definition TensorEvaluator.h:50

Eigen::TensorEvaluator::IsAligned
@ IsAligned
Definition TensorEvaluator.h:46

Eigen::TensorEvaluator::Index
Derived::Index Index
Definition TensorEvaluator.h:30

Eigen::TensorEvaluator::Dimensions
Derived::Dimensions Dimensions
Definition TensorEvaluator.h:34

Eigen::TensorEvaluator::PacketSize
static const int PacketSize
Definition TensorEvaluator.h:36

Eigen::internal::IsVectorizable
Definition TensorForwardDeclarations.h:147

Eigen::internal::array_size
Definition Meta.h:445

Eigen::internal::traits
Definition ForwardDeclarations.h:17

j
std::ptrdiff_t j
Definition tut_arithmetic_redux_minmax.cpp:2