KleidiCV Coverage Report

Directory:	./
File:	kleidicv/src/transform/remap_s16point5_sve2.cpp
Date:	2025-09-25 14:13:34
	Exec	Total	Coverage
Lines:	816	816	100.0%
Functions:	55	55	100.0%
Branches:	88	88	100.0%
  
      Line
      Branch
      Exec
      Source
    
      // SPDX-FileCopyrightText: 2024 - 2025 Arm Limited and/or its affiliates <open-source-office@arm.com>
    
      //
    
      // SPDX-License-Identifier: Apache-2.0
    
      #include <cassert>
    
      #include <cmath>
    
      #include <cstddef>
    
      #include <cstdint>
    
      #include "kleidicv/sve2.h"
    
      #include "kleidicv/traits.h"
    
      #include "kleidicv/transform/remap.h"
    
      #include "transform_sve2.h"
    
      namespace kleidicv::sve2 {
    
      template <typename ScalarType>
    
      inline svuint16_t interpolate_16point5(svbool_t pg, svuint16_t frac,
    
                                             svuint16_t src_a, svuint16_t src_b,
    
                                             svuint16_t src_c, svuint16_t src_d,
    
                                             svuint32_t bias);
    
      template <>
    
      10546
      inline svuint16_t interpolate_16point5<uint8_t>(
    
          svbool_t pg, svuint16_t frac, svuint16_t src_a, svuint16_t src_b,
    
          svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      10546
        svuint16_t xfrac = svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      21092
        svuint16_t yfrac =
    
      21092
            svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      10546
                    svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      21092
        svuint16_t nxfrac =
    
      10546
            svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac);
    
      21092
        svuint16_t nyfrac =
    
      10546
            svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac);
    
      10546
        svuint16_t line0 = svmla_x(pg, svmul_x(pg, xfrac, src_b), nxfrac, src_a);
    
      10546
        svuint16_t line1 = svmla_x(pg, svmul_x(pg, xfrac, src_d), nxfrac, src_c);
    
      10546
        svuint32_t acc_b = svmlalb_u32(bias, line0, nyfrac);
    
      10546
        svuint32_t acc_t = svmlalt_u32(bias, line0, nyfrac);
    
      10546
        acc_b = svmlalb_u32(acc_b, line1, yfrac);
    
      10546
        acc_t = svmlalt_u32(acc_t, line1, yfrac);
    
      21092
        return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                       2ULL * REMAP16POINT5_FRAC_BITS);
    
      10546
      }
    
      template <>
    
      9946
      inline svuint16_t interpolate_16point5<uint16_t>(
    
          svbool_t pg, svuint16_t frac, svuint16_t src_a, svuint16_t src_b,
    
          svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      9946
        svuint16_t xfrac = svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      19892
        svuint16_t yfrac =
    
      19892
            svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      9946
                    svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      19892
        svuint16_t nxfrac =
    
      9946
            svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac);
    
      19892
        svuint16_t nyfrac =
    
      9946
            svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac);
    
      19892
        svuint32_t line0_b = svmla_x(pg, svmullb(xfrac, src_b), svmovlb_u32(nxfrac),
    
      9946
                                     svmovlb_u32(src_a));
    
      19892
        svuint32_t line0_t = svmla_x(pg, svmullt(xfrac, src_b), svmovlt_u32(nxfrac),
    
      9946
                                     svmovlt_u32(src_a));
    
      19892
        svuint32_t line1_b = svmla_x(pg, svmullb(xfrac, src_d), svmovlb_u32(nxfrac),
    
      9946
                                     svmovlb_u32(src_c));
    
      19892
        svuint32_t line1_t = svmla_x(pg, svmullt(xfrac, src_d), svmovlt_u32(nxfrac),
    
      9946
                                     svmovlt_u32(src_c));
    
      19892
        svuint32_t acc_b =
    
      19892
            svmla_u32_x(pg, svmla_u32_x(pg, bias, line0_b, svmovlb_u32(nyfrac)),
    
      9946
                        line1_b, svmovlb_u32(yfrac));
    
      19892
        svuint32_t acc_t =
    
      19892
            svmla_u32_x(pg, svmla_u32_x(pg, bias, line0_t, svmovlt_u32(nyfrac)),
    
      9946
                        line1_t, svmovlt_u32(yfrac));
    
      19892
        return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                       2ULL * REMAP16POINT5_FRAC_BITS);
    
      9946
      }
    
      template <typename ScalarType>
    
      class RemapS16Point5Replicate;
    
      template <>
    
      class RemapS16Point5Replicate<uint8_t> {
    
       public:
    
        using ScalarType = uint8_t;
    
        using MapVecTraits = VecTraits<int16_t>;
    
        using MapVectorType = typename MapVecTraits::VectorType;
    
        using MapVector2Type = typename MapVecTraits::Vector2Type;
    
        using FracVecTraits = VecTraits<uint16_t>;
    
        using FracVectorType = typename FracVecTraits::VectorType;
    
      134
        RemapS16Point5Replicate(Rows<const ScalarType> src_rows, size_t src_width,
    
                                size_t src_height, svuint16_t& v_src_stride,
    
                                MapVectorType& v_x_max, MapVectorType& v_y_max)
    
      134
            : src_rows_{src_rows},
    
      134
              v_src_stride_{v_src_stride},
    
      134
              v_xmax_{v_x_max},
    
      134
              v_ymax_{v_y_max} {
    
      134
          v_src_stride_ = svdup_u16(src_rows.stride());
    
      134
          v_xmax_ = svdup_s16(static_cast<int16_t>(src_width - 1));
    
      134
          v_ymax_ = svdup_s16(static_cast<int16_t>(src_height - 1));
    
      134
        }
    
      158
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      158
          svuint16_t src_a, src_b, src_c, src_d;
    
      158
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
      5432
          auto vector_path = [&](svbool_t pg, ptrdiff_t step) {
    
      5274
            load_source(pg, step, mapxy, src_a, src_b, src_c, src_d);
    
      10548
            interpolate_and_store(pg, step, mapfrac, dst, src_a, src_b, src_c, src_d,
    
      5274
                                  bias);
    
      5274
          };
    
      158
          LoopUnroll loop{width, MapVecTraits::num_lanes()};
    
      5358
          loop.unroll_once([&](size_t step) {
    
      5200
            svbool_t pg = MapVecTraits::svptrue();
    
      5200
            vector_path(pg, static_cast<ptrdiff_t>(step));
    
      5200
          });
    
      232
          loop.remaining([&](size_t length, size_t step) {
    
      74
            svbool_t pg = MapVecTraits::svwhilelt(step - length, step);
    
      74
            vector_path(pg, static_cast<ptrdiff_t>(length));
    
      74
          });
    
      158
        }
    
       protected:
    
      21096
        svuint16_t gather_load_src(svbool_t pg_b, svuint32_t offsets_b, svbool_t pg_t,
    
                                   svuint32_t offsets_t) {
    
      42192
          svuint32_t src_b =
    
      21096
              svldnt1ub_gather_u32offset_u32(pg_b, &src_rows_[0], offsets_b);
    
      42192
          svuint32_t src_t =
    
      21096
              svldnt1ub_gather_u32offset_u32(pg_t, &src_rows_[0], offsets_t);
    
      63288
          return svtrn1_u16(svreinterpret_u16_u32(src_b),
    
      21096
                            svreinterpret_u16_u32(src_t));
    
      21096
        }
    
      5274
        void load_source(svbool_t pg, ptrdiff_t step, Columns<const int16_t>& mapxy,
    
                         svuint16_t& src_a, svuint16_t& src_b, svuint16_t& src_c,
    
                         svuint16_t& src_d) {
    
      5274
          MapVector2Type xy = svld2_s16(pg, &mapxy[0]);
    
          // Clamp coordinates to within the dimensions of the source image
    
      10548
          svuint16_t x0 = svreinterpret_u16_s16(
    
      5274
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 0), v_xmax_)));
    
      10548
          svuint16_t y0 = svreinterpret_u16_s16(
    
      5274
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 1), v_ymax_)));
    
          // x1 = x0 + 1, and clamp it too
    
      10548
          svuint16_t x1 = svreinterpret_u16_s16(
    
      10548
              svmax_x(pg, svdup_n_s16(0),
    
      5274
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 0), 1), v_xmax_)));
    
      10548
          svuint16_t y1 = svreinterpret_u16_s16(
    
      10548
              svmax_x(pg, svdup_n_s16(0),
    
      5274
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 1), 1), v_ymax_)));
    
      5274
          svbool_t pg_b = svwhilelt_b32(int64_t{0}, (step + 1) / 2);
    
      5274
          svbool_t pg_t = svwhilelt_b32(int64_t{0}, step / 2);
    
          // Calculate offsets from coordinates (y * stride + x)
    
      5274
          svuint32_t offsets_a_b = svmlalb_u32(svmovlb_u32(x0), y0, v_src_stride_);
    
      5274
          svuint32_t offsets_a_t = svmlalt_u32(svmovlt_u32(x0), y0, v_src_stride_);
    
      5274
          svuint32_t offsets_b_b = svmlalb_u32(svmovlb_u32(x1), y0, v_src_stride_);
    
      5274
          svuint32_t offsets_b_t = svmlalt_u32(svmovlt_u32(x1), y0, v_src_stride_);
    
      5274
          svuint32_t offsets_c_b = svmlalb_u32(svmovlb_u32(x0), y1, v_src_stride_);
    
      5274
          svuint32_t offsets_c_t = svmlalt_u32(svmovlt_u32(x0), y1, v_src_stride_);
    
      5274
          svuint32_t offsets_d_b = svmlalb_u32(svmovlb_u32(x1), y1, v_src_stride_);
    
      5274
          svuint32_t offsets_d_t = svmlalt_u32(svmovlt_u32(x1), y1, v_src_stride_);
    
          // Load pixels from source
    
      5274
          src_a = gather_load_src(pg_b, offsets_a_b, pg_t, offsets_a_t);
    
      5274
          src_b = gather_load_src(pg_b, offsets_b_b, pg_t, offsets_b_t);
    
      5274
          src_c = gather_load_src(pg_b, offsets_c_b, pg_t, offsets_c_t);
    
      5274
          src_d = gather_load_src(pg_b, offsets_d_b, pg_t, offsets_d_t);
    
      5274
          mapxy += step;
    
      5274
        }
    
      5274
        void interpolate_and_store(svbool_t pg, ptrdiff_t step,
    
                                   Columns<const uint16_t>& mapfrac,
    
                                   Columns<ScalarType>& dst, svuint16_t src_a,
    
                                   svuint16_t src_b, svuint16_t src_c,
    
                                   svuint16_t src_d, svuint32_t bias) {
    
      5274
          FracVectorType frac = svld1_u16(pg, &mapfrac[0]);
    
      10548
          svuint16_t result = interpolate_16point5<uint8_t>(pg, frac, src_a, src_b,
    
      5274
                                                            src_c, src_d, bias);
    
      5274
          svst1b_u16(pg, &dst[0], result);
    
      5274
          mapfrac += step;
    
      5274
          dst += step;
    
      5274
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint16_t& v_src_stride_;
    
        MapVectorType& v_xmax_;
    
        MapVectorType& v_ymax_;
    
      };  // end of class RemapS16Point5Replicate<uint8_t>
    
      template <>
    
      class RemapS16Point5Replicate<uint16_t> {
    
       public:
    
        using ScalarType = uint16_t;
    
        using MapVecTraits = VecTraits<int16_t>;
    
        using MapVectorType = typename MapVecTraits::VectorType;
    
        using MapVector2Type = typename MapVecTraits::Vector2Type;
    
        using FracVecTraits = VecTraits<uint16_t>;
    
        using FracVectorType = typename FracVecTraits::VectorType;
    
      134
        RemapS16Point5Replicate(Rows<const ScalarType> src_rows, size_t src_width,
    
                                size_t src_height, svuint16_t& v_src_stride,
    
                                MapVectorType& v_x_max, MapVectorType& v_y_max)
    
      134
            : src_rows_{src_rows},
    
      134
              v_src_element_stride_{v_src_stride},
    
      134
              v_xmax_{v_x_max},
    
      134
              v_ymax_{v_y_max} {
    
      134
          v_src_element_stride_ = svdup_u16(src_rows.stride() / sizeof(ScalarType));
    
      134
          v_xmax_ = svdup_s16(static_cast<int16_t>(src_width - 1));
    
      134
          v_ymax_ = svdup_s16(static_cast<int16_t>(src_height - 1));
    
      134
        }
    
      158
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      158
          svuint16_t src_a, src_b, src_c, src_d;
    
      158
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
      5132
          auto vector_path = [&](svbool_t pg, ptrdiff_t step) {
    
      4974
            load_source(pg, step, mapxy, src_a, src_b, src_c, src_d);
    
      9948
            interpolate_and_store(pg, step, mapfrac, dst, src_a, src_b, src_c, src_d,
    
      4974
                                  bias);
    
      4974
          };
    
      158
          LoopUnroll loop{width, MapVecTraits::num_lanes()};
    
      5058
          loop.unroll_once([&](size_t step) {
    
      4900
            svbool_t pg = MapVecTraits::svptrue();
    
      4900
            vector_path(pg, static_cast<ptrdiff_t>(step));
    
      4900
          });
    
      232
          loop.remaining([&](size_t length, size_t step) {
    
      74
            svbool_t pg = MapVecTraits::svwhilelt(step - length, step);
    
      74
            vector_path(pg, static_cast<ptrdiff_t>(length));
    
      74
          });
    
      158
        }
    
       protected:
    
      19896
        svuint16_t gather_load_src(svbool_t pg_b, svuint32_t offsets_b, svbool_t pg_t,
    
                                   svuint32_t offsets_t) {
    
          // Account for the size of the source type when calculating offset
    
      19896
          offsets_b = svlsl_n_u32_x(pg_b, offsets_b, 1);
    
      19896
          offsets_t = svlsl_n_u32_x(pg_t, offsets_t, 1);
    
      39792
          svuint32_t src_b =
    
      19896
              svldnt1uh_gather_u32offset_u32(pg_b, &src_rows_[0], offsets_b);
    
      39792
          svuint32_t src_t =
    
      19896
              svldnt1uh_gather_u32offset_u32(pg_t, &src_rows_[0], offsets_t);
    
      59688
          return svtrn1_u16(svreinterpret_u16_u32(src_b),
    
      19896
                            svreinterpret_u16_u32(src_t));
    
      19896
        }
    
      4974
        void load_source(svbool_t pg, ptrdiff_t step, Columns<const int16_t>& mapxy,
    
                         svuint16_t& src_a, svuint16_t& src_b, svuint16_t& src_c,
    
                         svuint16_t& src_d) {
    
      4974
          MapVector2Type xy = svld2_s16(pg, &mapxy[0]);
    
          // Clamp coordinates to within the dimensions of the source image
    
      9948
          svuint16_t x0 = svreinterpret_u16_s16(
    
      4974
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 0), v_xmax_)));
    
      9948
          svuint16_t y0 = svreinterpret_u16_s16(
    
      4974
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 1), v_ymax_)));
    
          // x1 = x0 + 1, and clamp it too
    
      9948
          svuint16_t x1 = svreinterpret_u16_s16(
    
      9948
              svmax_x(pg, svdup_n_s16(0),
    
      4974
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 0), 1), v_xmax_)));
    
      9948
          svuint16_t y1 = svreinterpret_u16_s16(
    
      9948
              svmax_x(pg, svdup_n_s16(0),
    
      4974
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 1), 1), v_ymax_)));
    
      4974
          svbool_t pg_b = svwhilelt_b32(int64_t{0}, (step + 1) / 2);
    
      4974
          svbool_t pg_t = svwhilelt_b32(int64_t{0}, step / 2);
    
          // Calculate offsets from coordinates (y * stride/sizeof(ScalarType) + x)
    
      9948
          svuint32_t offsets_a_b =
    
      4974
              svmlalb_u32(svmovlb_u32(x0), y0, v_src_element_stride_);
    
      9948
          svuint32_t offsets_a_t =
    
      4974
              svmlalt_u32(svmovlt_u32(x0), y0, v_src_element_stride_);
    
      9948
          svuint32_t offsets_b_b =
    
      4974
              svmlalb_u32(svmovlb_u32(x1), y0, v_src_element_stride_);
    
      9948
          svuint32_t offsets_b_t =
    
      4974
              svmlalt_u32(svmovlt_u32(x1), y0, v_src_element_stride_);
    
      9948
          svuint32_t offsets_c_b =
    
      4974
              svmlalb_u32(svmovlb_u32(x0), y1, v_src_element_stride_);
    
      9948
          svuint32_t offsets_c_t =
    
      4974
              svmlalt_u32(svmovlt_u32(x0), y1, v_src_element_stride_);
    
      9948
          svuint32_t offsets_d_b =
    
      4974
              svmlalb_u32(svmovlb_u32(x1), y1, v_src_element_stride_);
    
      9948
          svuint32_t offsets_d_t =
    
      4974
              svmlalt_u32(svmovlt_u32(x1), y1, v_src_element_stride_);
    
          // Load pixels from source
    
      4974
          src_a = gather_load_src(pg_b, offsets_a_b, pg_t, offsets_a_t);
    
      4974
          src_b = gather_load_src(pg_b, offsets_b_b, pg_t, offsets_b_t);
    
      4974
          src_c = gather_load_src(pg_b, offsets_c_b, pg_t, offsets_c_t);
    
      4974
          src_d = gather_load_src(pg_b, offsets_d_b, pg_t, offsets_d_t);
    
      4974
          mapxy += step;
    
      4974
        }
    
      4974
        void interpolate_and_store(svbool_t pg, ptrdiff_t step,
    
                                   Columns<const uint16_t>& mapfrac,
    
                                   Columns<ScalarType>& dst, svuint16_t src_a,
    
                                   svuint16_t src_b, svuint16_t src_c,
    
                                   svuint16_t src_d, svuint32_t bias) {
    
      4974
          FracVectorType frac = svld1_u16(pg, &mapfrac[0]);
    
      9948
          svuint16_t result = interpolate_16point5<uint16_t>(pg, frac, src_a, src_b,
    
      4974
                                                             src_c, src_d, bias);
    
      4974
          svst1_u16(pg, &dst[0], result);
    
      4974
          mapfrac += step;
    
      4974
          dst += step;
    
      4974
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint16_t& v_src_element_stride_;
    
        MapVectorType& v_xmax_;
    
        MapVectorType& v_ymax_;
    
      };  // end of class RemapS16Point5Replicate<uint16_t>
    
      template <typename ScalarType>
    
      class RemapS16Point5ConstantBorder;
    
      template <>
    
      class RemapS16Point5ConstantBorder<uint8_t> {
    
       public:
    
        using ScalarType = uint8_t;
    
      132
        RemapS16Point5ConstantBorder(Rows<const ScalarType> src_rows,
    
                                     size_t src_width, size_t src_height,
    
                                     const ScalarType* border_value,
    
                                     svuint16_t& v_src_stride, svuint16_t& v_width,
    
                                     svuint16_t& v_height, svuint16_t& v_border)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_stride_{v_src_stride},
    
      132
              v_width_{v_width},
    
      132
              v_height_{v_height},
    
      132
              v_border_{v_border} {
    
      132
          v_src_stride_ = svdup_u16(src_rows.stride());
    
      132
          v_width_ = svdup_u16(static_cast<uint16_t>(src_width));
    
      132
          v_height_ = svdup_u16(static_cast<uint16_t>(src_height));
    
      132
          v_border_ = svdup_u16(*border_value);
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          svuint16_t one = svdup_n_u16(1);
    
      156
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
        2/2✓ Branch 0 taken 156 times.
✓ Branch 1 taken 5272 times.

      5428
          for (size_t i = 0; i < width; i += svcnth()) {
    
      5272
            svbool_t pg = svwhilelt_b16_u64(i, width);
    
      10544
            svuint16x2_t xy =
    
      10544
                svld2_u16(pg, reinterpret_cast<const uint16_t*>(
    
      5272
                                  &mapxy[static_cast<ptrdiff_t>(i * 2)]));
    
      5272
            svuint16_t x0 = svget2(xy, 0);
    
      5272
            svuint16_t y0 = svget2(xy, 1);
    
      5272
            svuint16_t x1 = svadd_x(pg, x0, one);
    
      5272
            svuint16_t y1 = svadd_x(pg, y0, one);
    
      10544
            svuint16_t v00 = load_pixels_or_constant_border(
    
      5272
                src_rows_, v_src_stride_, v_width_, v_height_, v_border_, pg, x0, y0);
    
      10544
            svuint16_t v01 = load_pixels_or_constant_border(
    
      5272
                src_rows_, v_src_stride_, v_width_, v_height_, v_border_, pg, x0, y1);
    
      10544
            svuint16_t v10 = load_pixels_or_constant_border(
    
      5272
                src_rows_, v_src_stride_, v_width_, v_height_, v_border_, pg, x1, y0);
    
      10544
            svuint16_t v11 = load_pixels_or_constant_border(
    
      5272
                src_rows_, v_src_stride_, v_width_, v_height_, v_border_, pg, x1, y1);
    
      5272
            svuint16_t frac = svld1_u16(pg, &mapfrac[static_cast<ptrdiff_t>(i)]);
    
      10544
            svuint16_t result =
    
      5272
                interpolate_16point5<uint8_t>(pg, frac, v00, v10, v01, v11, bias);
    
      5272
            svst1b_u16(pg, &dst[static_cast<ptrdiff_t>(i)], result);
    
      5272
          }
    
      156
        }
    
       private:
    
      21088
        svuint16_t load_pixels_or_constant_border(Rows<const ScalarType> src_rows_,
    
                                                  svuint16_t& v_src_stride_,
    
                                                  svuint16_t& v_width_,
    
                                                  svuint16_t& v_height_,
    
                                                  svuint16_t& v_border_, svbool_t pg,
    
                                                  svuint16_t x, svuint16_t y) {
    
          // Find whether coordinates are within the image dimensions.
    
      42176
          svbool_t in_range = svand_b_z(pg, svcmplt_u16(pg, x, v_width_),
    
      21088
                                        svcmplt_u16(pg, y, v_height_));
    
          // Calculate offsets from coordinates (y * stride + x)
    
      21088
          svuint32_t offsets_b = svmlalb_u32(svmovlb_u32(x), y, v_src_stride_);
    
      21088
          svuint32_t offsets_t = svmlalt_u32(svmovlt_u32(x), y, v_src_stride_);
    
      21088
          svbool_t pg_b = in_range;
    
      21088
          svbool_t pg_t = svtrn2_b16(in_range, svpfalse());
    
          // Copy pixels from source
    
      42176
          svuint32_t result_b =
    
      21088
              svld1ub_gather_u32offset_u32(pg_b, &src_rows_[0], offsets_b);
    
      42176
          svuint32_t result_t =
    
      21088
              svld1ub_gather_u32offset_u32(pg_t, &src_rows_[0], offsets_t);
    
      42176
          svuint16_t result = svtrn1_u16(svreinterpret_u16_u32(result_b),
    
      21088
                                         svreinterpret_u16_u32(result_t));
    
      42176
          return svsel(in_range, result, v_border_);
    
      21088
        }
    
        Rows<const ScalarType> src_rows_;
    
        svuint16_t& v_src_stride_;
    
        svuint16_t& v_width_;
    
        svuint16_t& v_height_;
    
        svuint16_t& v_border_;
    
      };  // end of class RemapS16Point5ConstantBorder<uint8_t>
    
      template <>
    
      class RemapS16Point5ConstantBorder<uint16_t> {
    
       public:
    
        using ScalarType = uint16_t;
    
      132
        RemapS16Point5ConstantBorder(Rows<const ScalarType> src_rows,
    
                                     size_t src_width, size_t src_height,
    
                                     const ScalarType* border_value,
    
                                     svuint16_t& v_src_stride, svuint16_t& v_width,
    
                                     svuint16_t& v_height, svuint16_t& v_border)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_element_stride_{v_src_stride},
    
      132
              v_width_{v_width},
    
      132
              v_height_{v_height},
    
      132
              v_border_{v_border} {
    
      132
          v_src_element_stride_ = svdup_u16(src_rows.stride() / sizeof(ScalarType));
    
      132
          v_width_ = svdup_u16(static_cast<uint16_t>(src_width));
    
      132
          v_height_ = svdup_u16(static_cast<uint16_t>(src_height));
    
      132
          v_border_ = svdup_u16(*border_value);
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          svuint16_t one = svdup_n_u16(1);
    
      156
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
        2/2✓ Branch 0 taken 156 times.
✓ Branch 1 taken 4972 times.

      5128
          for (size_t i = 0; i < width; i += svcnth()) {
    
      4972
            svbool_t pg = svwhilelt_b16_u64(i, width);
    
      9944
            svuint16x2_t xy =
    
      9944
                svld2_u16(pg, reinterpret_cast<const uint16_t*>(
    
      4972
                                  &mapxy[static_cast<ptrdiff_t>(i * 2)]));
    
      4972
            svuint16_t x0 = svget2(xy, 0);
    
      4972
            svuint16_t y0 = svget2(xy, 1);
    
      4972
            svuint16_t x1 = svadd_x(pg, x0, one);
    
      4972
            svuint16_t y1 = svadd_x(pg, y0, one);
    
      9944
            svuint16_t v00 = load_pixels_or_constant_border(
    
      4972
                src_rows_, v_src_element_stride_, v_width_, v_height_, v_border_, pg,
    
      4972
                x0, y0);
    
      9944
            svuint16_t v01 = load_pixels_or_constant_border(
    
      4972
                src_rows_, v_src_element_stride_, v_width_, v_height_, v_border_, pg,
    
      4972
                x0, y1);
    
      9944
            svuint16_t v10 = load_pixels_or_constant_border(
    
      4972
                src_rows_, v_src_element_stride_, v_width_, v_height_, v_border_, pg,
    
      4972
                x1, y0);
    
      9944
            svuint16_t v11 = load_pixels_or_constant_border(
    
      4972
                src_rows_, v_src_element_stride_, v_width_, v_height_, v_border_, pg,
    
      4972
                x1, y1);
    
      4972
            svuint16_t frac = svld1_u16(pg, &mapfrac[static_cast<ptrdiff_t>(i)]);
    
      9944
            svuint16_t result =
    
      4972
                interpolate_16point5<uint16_t>(pg, frac, v00, v10, v01, v11, bias);
    
      4972
            svst1_u16(pg, &dst[static_cast<ptrdiff_t>(i)], result);
    
      4972
          }
    
      156
        }
    
       private:
    
      19888
        svuint16_t load_pixels_or_constant_border(Rows<const ScalarType> src_rows_,
    
                                                  svuint16_t& v_src_element_stride_,
    
                                                  svuint16_t& v_width_,
    
                                                  svuint16_t& v_height_,
    
                                                  svuint16_t& v_border_, svbool_t pg,
    
                                                  svuint16_t x, svuint16_t y) {
    
          // Find whether coordinates are within the image dimensions.
    
      39776
          svbool_t in_range = svand_b_z(pg, svcmplt_u16(pg, x, v_width_),
    
      19888
                                        svcmplt_u16(pg, y, v_height_));
    
          // Calculate offsets from coordinates (y * stride/sizeof(ScalarType) + x)
    
      39776
          svuint32_t offsets_b =
    
      19888
              svmlalb_u32(svmovlb_u32(x), y, v_src_element_stride_);
    
      39776
          svuint32_t offsets_t =
    
      19888
              svmlalt_u32(svmovlt_u32(x), y, v_src_element_stride_);
    
      19888
          svbool_t pg_b = in_range;
    
      19888
          svbool_t pg_t = svtrn2_b16(in_range, svpfalse());
    
          // Account for the size of the source type when calculating offset
    
      19888
          offsets_b = svlsl_n_u32_x(pg_b, offsets_b, 1);
    
      19888
          offsets_t = svlsl_n_u32_x(pg_t, offsets_t, 1);
    
          // Copy pixels from source
    
      39776
          svuint32_t result_b =
    
      19888
              svld1uh_gather_u32offset_u32(pg_b, &src_rows_[0], offsets_b);
    
      39776
          svuint32_t result_t =
    
      19888
              svld1uh_gather_u32offset_u32(pg_t, &src_rows_[0], offsets_t);
    
      39776
          svuint16_t result = svtrn1_u16(svreinterpret_u16_u32(result_b),
    
      19888
                                         svreinterpret_u16_u32(result_t));
    
      39776
          return svsel(in_range, result, v_border_);
    
      19888
        }
    
        Rows<const ScalarType> src_rows_;
    
        svuint16_t& v_src_element_stride_;
    
        svuint16_t& v_width_;
    
        svuint16_t& v_height_;
    
        svuint16_t& v_border_;
    
      };  // end of class RemapS16Point5ConstantBorder<uint16_t>
    
      template <typename ScalarType>
    
      class RemapS16Point5Replicate4ch;
    
      template <>
    
      class RemapS16Point5Replicate4ch<uint8_t> {
    
       public:
    
        using ScalarType = uint8_t;
    
        using MapVecTraits = VecTraits<int16_t>;
    
        using MapVectorType = typename MapVecTraits::VectorType;
    
        using MapVector2Type = typename MapVecTraits::Vector2Type;
    
        using FracVecTraits = VecTraits<uint16_t>;
    
        using FracVectorType = typename FracVecTraits::VectorType;
    
      132
        RemapS16Point5Replicate4ch(Rows<const ScalarType> src_rows, size_t src_width,
    
                                   size_t src_height, svuint16_t& v_src_stride,
    
                                   MapVectorType& v_x_max, MapVectorType& v_y_max)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_stride_{v_src_stride},
    
      132
              v_xmax_{v_x_max},
    
      132
              v_ymax_{v_y_max} {
    
      132
          v_src_stride_ = svdup_u16(src_rows.stride());
    
      132
          v_xmax_ = svdup_s16(static_cast<int16_t>(src_width - 1));
    
      132
          v_ymax_ = svdup_s16(static_cast<int16_t>(src_height - 1));
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          LoopUnroll loop{width, MapVecTraits::num_lanes()};
    
      5354
          loop.unroll_once([&](size_t step) {
    
      5198
            svbool_t pg = MapVecTraits::svptrue();
    
      5198
            vector_path(pg, mapxy, mapfrac, dst, static_cast<ptrdiff_t>(step));
    
      5198
          });
    
      230
          loop.remaining([&](size_t length, size_t step) {
    
      74
            svbool_t pg = MapVecTraits::svwhilelt(step - length, step);
    
      74
            vector_path(pg, mapxy, mapfrac, dst, static_cast<ptrdiff_t>(length));
    
      74
          });
    
      156
        }
    
      5272
        void vector_path(svbool_t pg, Columns<const int16_t>& mapxy,
    
                         Columns<const uint16_t>& mapfrac, Columns<ScalarType>& dst,
    
                         ptrdiff_t step) {
    
      5272
          MapVector2Type xy = svld2_s16(pg, &mapxy[0]);
    
      5272
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
          // Clamp coordinates to within the dimensions of the source image
    
      10544
          svuint16_t x0 = svreinterpret_u16_s16(
    
      5272
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 0), v_xmax_)));
    
      10544
          svuint16_t y0 = svreinterpret_u16_s16(
    
      5272
              svmax_x(pg, svdup_n_s16(0), svmin_x(pg, svget2(xy, 1), v_ymax_)));
    
          // x1 = x0 + 1, and clamp it too
    
      10544
          svuint16_t x1 = svreinterpret_u16_s16(
    
      10544
              svmax_x(pg, svdup_n_s16(0),
    
      5272
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 0), 1), v_xmax_)));
    
      10544
          svuint16_t y1 = svreinterpret_u16_s16(
    
      10544
              svmax_x(pg, svdup_n_s16(0),
    
      5272
                      svmin_x(pg, svqadd_n_s16_x(pg, svget2(xy, 1), 1), v_ymax_)));
    
      5272
          svbool_t pg_b = svwhilelt_b32(int64_t{0}, (step + 1) / 2);
    
      5272
          svbool_t pg_t = svwhilelt_b32(int64_t{0}, step / 2);
    
          // Calculate offsets from coordinates (y * stride + x), x multiplied by 4
    
          // channels
    
      26360
          auto load_4ch_b = [&](svuint16_t x, svuint16_t y) {
    
      21088
            return svreinterpret_u8_u32(svld1_gather_u32offset_u32(
    
      21088
                pg_b, reinterpret_cast<const uint32_t*>(&src_rows_[0]),
    
      21088
                svmlalb_u32(svshllb_n_u32(x, 2), y, v_src_stride_)));
    
          };
    
      26360
          auto load_4ch_t = [&](svuint16_t x, svuint16_t y) {
    
      21088
            return svreinterpret_u8_u32(svld1_gather_u32offset_u32(
    
      21088
                pg_t, reinterpret_cast<const uint32_t*>(&src_rows_[0]),
    
      21088
                svmlalt_u32(svshllt_n_u32(x, 2), y, v_src_stride_)));
    
          };
    
      5272
          FracVectorType frac = svld1_u16(pg, &mapfrac[0]);
    
      10544
          svuint16_t xfrac =
    
      5272
              svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      10544
          svuint16_t yfrac =
    
      10544
              svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      5272
                      svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      26360
          auto lerp2d = [&](svuint16_t xfrac, svuint16_t yfrac, svuint16_t nxfrac,
    
                            svuint16_t nyfrac, svuint16_t src_a, svuint16_t src_b,
    
                            svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      42176
            svuint16_t line0 = svmla_x(
    
      21088
                svptrue_b16(), svmul_x(svptrue_b16(), xfrac, src_b), nxfrac, src_a);
    
      42176
            svuint16_t line1 = svmla_x(
    
      21088
                svptrue_b16(), svmul_x(svptrue_b16(), xfrac, src_d), nxfrac, src_c);
    
      21088
            svuint32_t acc_b = svmlalb_u32(bias, line0, nyfrac);
    
      21088
            svuint32_t acc_t = svmlalt_u32(bias, line0, nyfrac);
    
      21088
            acc_b = svmlalb_u32(acc_b, line1, yfrac);
    
      21088
            acc_t = svmlalt_u32(acc_t, line1, yfrac);
    
      42176
            return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                           2ULL * REMAP16POINT5_FRAC_BITS);
    
      21088
          };
    
          // bottom part
    
      5272
          svuint8_t a = load_4ch_b(x0, y0);
    
      5272
          svuint8_t b = load_4ch_b(x1, y0);
    
      5272
          svuint8_t c = load_4ch_b(x0, y1);
    
      5272
          svuint8_t d = load_4ch_b(x1, y1);
    
          // from xfrac, we need the bottom part twice
    
      5272
          svuint16_t xfrac2b = svtrn1_u16(xfrac, xfrac);
    
      10544
          svuint16_t nxfrac2b = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac2b);
    
      5272
          svuint16_t yfrac2b = svtrn1_u16(yfrac, yfrac);
    
      10544
          svuint16_t nyfrac2b = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac2b);
    
          // a,b,c,d looks like 12341234...(four channels)
    
          // bottom is 1313...
    
      10544
          svuint16_t res_bb =
    
      10544
              lerp2d(xfrac2b, yfrac2b, nxfrac2b, nyfrac2b, svmovlb_u16(a),
    
      5272
                     svmovlb_u16(b), svmovlb_u16(c), svmovlb_u16(d), bias);
    
          // top is 2424...
    
      10544
          svuint16_t res_bt =
    
      10544
              lerp2d(xfrac2b, yfrac2b, nxfrac2b, nyfrac2b, svmovlt_u16(a),
    
      5272
                     svmovlt_u16(b), svmovlt_u16(c), svmovlt_u16(d), bias);
    
      10544
          svuint8_t res_b =
    
      5272
              svtrn1_u8(svreinterpret_u8_u16(res_bb), svreinterpret_u8_u16(res_bt));
    
          // top part
    
      5272
          a = load_4ch_t(x0, y0);
    
      5272
          b = load_4ch_t(x1, y0);
    
      5272
          c = load_4ch_t(x0, y1);
    
      5272
          d = load_4ch_t(x1, y1);
    
          // from xfrac, we need the top part twice
    
      5272
          svuint16_t xfrac2t = svtrn2_u16(xfrac, xfrac);
    
      10544
          svuint16_t nxfrac2t = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac2t);
    
      5272
          svuint16_t yfrac2t = svtrn2_u16(yfrac, yfrac);
    
      10544
          svuint16_t nyfrac2t = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac2t);
    
          // a,b,c,d looks like 12341234...(four channels)
    
          // bottom is 1313...
    
      10544
          svuint16_t res_tb =
    
      10544
              lerp2d(xfrac2t, yfrac2t, nxfrac2t, nyfrac2t, svmovlb_u16(a),
    
      5272
                     svmovlb_u16(b), svmovlb_u16(c), svmovlb_u16(d), bias);
    
          // top is 2424...
    
      10544
          svuint16_t res_tt =
    
      10544
              lerp2d(xfrac2t, yfrac2t, nxfrac2t, nyfrac2t, svmovlt_u16(a),
    
      5272
                     svmovlt_u16(b), svmovlt_u16(c), svmovlt_u16(d), bias);
    
      10544
          svuint8_t res_t =
    
      5272
              svtrn1_u8(svreinterpret_u8_u16(res_tb), svreinterpret_u8_u16(res_tt));
    
      5272
          svbool_t pg_low = svwhilelt_b32_u64(0L, static_cast<size_t>(step));
    
      5272
          svbool_t pg_high = svwhilelt_b32_u64(svcntw(), static_cast<size_t>(step));
    
      10544
          svuint32_t res_low =
    
      5272
              svzip1_u32(svreinterpret_u32_u8(res_b), svreinterpret_u32_u8(res_t));
    
      10544
          svuint32_t res_high =
    
      5272
              svzip2_u32(svreinterpret_u32_u8(res_b), svreinterpret_u32_u8(res_t));
    
      5272
          mapxy += step;
    
      5272
          svst1_u32(pg_low, reinterpret_cast<uint32_t*>(&dst[0]), res_low);
    
      10544
          svst1_u32(pg_high, reinterpret_cast<uint32_t*>(&dst[0]) + svcntw(),
    
      5272
                    res_high);
    
      5272
          mapfrac += step;
    
      5272
          dst += step;
    
      5272
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint16_t& v_src_stride_;
    
        MapVectorType& v_xmax_;
    
        MapVectorType& v_ymax_;
    
      };  // end of class RemapS16Point5Replicate4ch<uint8_t>
    
      template <>
    
      class RemapS16Point5Replicate4ch<uint16_t> {
    
       public:
    
        using ScalarType = uint16_t;
    
      132
        RemapS16Point5Replicate4ch(Rows<const ScalarType> src_rows, size_t src_width,
    
                                   size_t src_height, svuint32_t& v_src_stride,
    
                                   svint32_t& v_x_max, svint32_t& v_y_max)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_stride_{v_src_stride},
    
      132
              v_xmax_{v_x_max},
    
      132
              v_ymax_{v_y_max} {
    
      132
          v_src_stride_ = svdup_u32(src_rows.stride());
    
      132
          v_xmax_ = svdup_s32(static_cast<int32_t>(src_width - 1));
    
      132
          v_ymax_ = svdup_s32(static_cast<int32_t>(src_height - 1));
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          LoopUnroll loop{width, svcntw()};
    
      10006
          loop.unroll_once([&](size_t step) {
    
      19700
            vector_path(svptrue_b32(), svptrue_b64(), svptrue_b64(), svptrue_b64(),
    
      9850
                        svptrue_b64(), mapxy, mapfrac, dst,
    
      9850
                        static_cast<ptrdiff_t>(step));
    
      9850
          });
    
      216
          loop.remaining([&](size_t length, size_t step) {
    
      60
            svbool_t pg = svwhilelt_b32_u64(step, step + length);
    
      60
            svbool_t pg64_b = svtrn1_b32(pg, svpfalse());
    
      60
            svbool_t pg64_t = svtrn2_b32(pg, svpfalse());
    
      60
            svbool_t pg_low = svzip1_b32(pg, svpfalse());
    
      60
            svbool_t pg_high = svzip2_b32(pg, svpfalse());
    
      120
            vector_path(pg, pg64_b, pg64_t, pg_low, pg_high, mapxy, mapfrac, dst,
    
      60
                        static_cast<ptrdiff_t>(length));
    
      60
          });
    
      156
        }
    
      9910
        void vector_path(svbool_t pg, svbool_t pg64_b, svbool_t pg64_t,
    
                         svbool_t pg_low, svbool_t pg_high,
    
                         Columns<const int16_t>& mapxy,
    
                         Columns<const uint16_t>& mapfrac, Columns<ScalarType>& dst,
    
                         ptrdiff_t step) {
    
          // Load one vector of xy: even coordinates are x, odd are y
    
      19820
          svint16_t xy = svreinterpret_s16_u32(
    
      9910
              svld1_u32(pg, reinterpret_cast<const uint32_t*>(&mapxy[0])));
    
      9910
          svint32_t x = svmovlb(xy);
    
      9910
          svint32_t y = svmovlt(xy);
    
          // Clamp coordinates to within the dimensions of the source image
    
      19820
          svuint32_t x0 = svreinterpret_u32_s32(
    
      9910
              svmax_x(pg, svdup_n_s32(0), svmin_x(pg, x, v_xmax_)));
    
      19820
          svuint32_t y0 = svreinterpret_u32_s32(
    
      9910
              svmax_x(pg, svdup_n_s32(0), svmin_x(pg, y, v_ymax_)));
    
          // x1 = x0 + 1, and clamp it too
    
      19820
          svuint32_t x1 = svreinterpret_u32_s32(svmax_x(
    
      9910
              pg, svdup_n_s32(0), svmin_x(pg, svqadd_n_s32_x(pg, x, 1), v_xmax_)));
    
      19820
          svuint32_t y1 = svreinterpret_u32_s32(svmax_x(
    
      9910
              pg, svdup_n_s32(0), svmin_x(pg, svqadd_n_s32_x(pg, y, 1), v_ymax_)));
    
      89190
          auto load_4ch = [&](svbool_t pg, svuint64_t offsets) {
    
      79280
            return svreinterpret_u16_u64(svld1_gather_u64offset_u64(
    
      79280
                pg, reinterpret_cast<const uint64_t*>(&src_rows_[0]), offsets));
    
          };
    
      9910
          svuint16_t xfrac, yfrac, nxfrac, nyfrac;
    
          {
    
            // Fractions are loaded into even lanes
    
      9910
            svuint16_t rawfrac = svreinterpret_u16_u32(svld1uh_u32(pg, &mapfrac[0]));
    
            // Fractions are doubled, 00112233... (will be doubled again later)
    
      9910
            svuint16_t frac = svtrn1(rawfrac, rawfrac);
    
      9910
            xfrac = svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      19820
            yfrac = svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      9910
                            svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      9910
            nxfrac = svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac);
    
      9910
            nyfrac = svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac);
    
      9910
          }
    
      9910
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
      29730
          auto lerp2d = [&](svuint16_t xfrac, svuint16_t yfrac, svuint16_t nxfrac,
    
                            svuint16_t nyfrac, svuint16_t src_a, svuint16_t src_b,
    
                            svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      19820
            svuint32_t line0_b = svmlalb(svmullb(xfrac, src_b), nxfrac, src_a);
    
      19820
            svuint32_t line0_t = svmlalt(svmullt(xfrac, src_b), nxfrac, src_a);
    
      19820
            svuint32_t line1_b = svmlalb(svmullb(xfrac, src_d), nxfrac, src_c);
    
      19820
            svuint32_t line1_t = svmlalt(svmullt(xfrac, src_d), nxfrac, src_c);
    
      39640
            svuint32_t acc_b =
    
      19820
                svmla_u32_x(svptrue_b32(), bias, line0_b, svmovlb_u32(nyfrac));
    
      39640
            svuint32_t acc_t =
    
      19820
                svmla_u32_x(svptrue_b32(), bias, line0_t, svmovlt_u32(nyfrac));
    
      19820
            acc_b = svmla_u32_x(svptrue_b32(), acc_b, line1_b, svmovlb_u32(yfrac));
    
      19820
            acc_t = svmla_u32_x(svptrue_b32(), acc_t, line1_t, svmovlt_u32(yfrac));
    
      39640
            return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                           2ULL * REMAP16POINT5_FRAC_BITS);
    
      19820
          };
    
          // Data is 4x16 = 64 bits, twice as wide as the widened coords (32-bit)
    
          // Calculation is done in 2 parts, top and bottom
    
      9910
          svuint16_t res_b, res_t;
    
          {  // bottom
    
      9910
            svuint64_t x0w = svshllb_n_u64(x0, 3);
    
      9910
            svuint64_t x1w = svshllb_n_u64(x1, 3);
    
      9910
            svuint64_t ys0w = svmullb_u64(y0, v_src_stride_);
    
      9910
            svuint64_t ys1w = svmullb_u64(y1, v_src_stride_);
    
      9910
            svuint64_t offsets_a = svadd_x(pg64_b, x0w, ys0w);
    
      9910
            svuint64_t offsets_b = svadd_x(pg64_b, x1w, ys0w);
    
      9910
            svuint64_t offsets_c = svadd_x(pg64_b, x0w, ys1w);
    
      9910
            svuint64_t offsets_d = svadd_x(pg64_b, x1w, ys1w);
    
      9910
            svuint16_t a = load_4ch(pg64_b, offsets_a);
    
      9910
            svuint16_t b = load_4ch(pg64_b, offsets_b);
    
      9910
            svuint16_t c = load_4ch(pg64_b, offsets_c);
    
      9910
            svuint16_t d = load_4ch(pg64_b, offsets_d);
    
            // Copy even lanes twice -> 000022224444... these are the "bottom"
    
            // fractions
    
      19820
            svuint16_t xfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(xfrac), svreinterpret_u32_u16(xfrac)));
    
      19820
            svuint16_t nxfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(nxfrac), svreinterpret_u32_u16(nxfrac)));
    
      19820
            svuint16_t yfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(yfrac), svreinterpret_u32_u16(yfrac)));
    
      19820
            svuint16_t nyfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(nyfrac), svreinterpret_u32_u16(nyfrac)));
    
      9910
            res_b = lerp2d(xfr, yfr, nxfr, nyfr, a, b, c, d, bias);
    
      9910
          }
    
          {  // top
    
      9910
            svuint64_t x0w = svshllt_n_u64(x0, 3);
    
      9910
            svuint64_t x1w = svshllt_n_u64(x1, 3);
    
      9910
            svuint64_t ys0w = svmullt_u64(y0, v_src_stride_);
    
      9910
            svuint64_t ys1w = svmullt_u64(y1, v_src_stride_);
    
      9910
            svuint64_t offsets_a = svadd_x(pg64_b, x0w, ys0w);
    
      9910
            svuint64_t offsets_b = svadd_x(pg64_b, x1w, ys0w);
    
      9910
            svuint64_t offsets_c = svadd_x(pg64_b, x0w, ys1w);
    
      9910
            svuint64_t offsets_d = svadd_x(pg64_b, x1w, ys1w);
    
      9910
            svuint16_t a = load_4ch(pg64_t, offsets_a);
    
      9910
            svuint16_t b = load_4ch(pg64_t, offsets_b);
    
      9910
            svuint16_t c = load_4ch(pg64_t, offsets_c);
    
      9910
            svuint16_t d = load_4ch(pg64_t, offsets_d);
    
            // Copy odd lanes twice -> 111133335555... these are the "top"
    
            // fractions
    
      19820
            svuint16_t xfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(xfrac), svreinterpret_u32_u16(xfrac)));
    
      19820
            svuint16_t nxfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(nxfrac), svreinterpret_u32_u16(nxfrac)));
    
      19820
            svuint16_t yfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(yfrac), svreinterpret_u32_u16(yfrac)));
    
      19820
            svuint16_t nyfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(nyfrac), svreinterpret_u32_u16(nyfrac)));
    
      9910
            res_t = lerp2d(xfr, yfr, nxfr, nyfr, a, b, c, d, bias);
    
      9910
          }
    
      19820
          svuint64_t res_low =
    
      9910
              svzip1_u64(svreinterpret_u64_u16(res_b), svreinterpret_u64_u16(res_t));
    
      19820
          svuint64_t res_high =
    
      9910
              svzip2_u64(svreinterpret_u64_u16(res_b), svreinterpret_u64_u16(res_t));
    
      9910
          svst1_u64(pg_low, reinterpret_cast<uint64_t*>(&dst[0]), res_low);
    
      19820
          svst1_u64(pg_high, reinterpret_cast<uint64_t*>(&dst[0]) + svcntd(),
    
      9910
                    res_high);
    
      9910
          mapxy += step;
    
      9910
          mapfrac += step;
    
      9910
          dst += step;
    
      9910
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint32_t& v_src_stride_;
    
        svint32_t& v_xmax_;
    
        svint32_t& v_ymax_;
    
      };  // end of class RemapS16Point5Replicate4ch<uint16_t>
    
      template <typename ScalarType>
    
      class RemapS16Point5Constant4ch;
    
      template <>
    
      class RemapS16Point5Constant4ch<uint8_t> {
    
       public:
    
        using ScalarType = uint8_t;
    
      132
        RemapS16Point5Constant4ch(Rows<const ScalarType> src_rows, size_t src_width,
    
                                  size_t src_height, const ScalarType* border_value,
    
                                  svuint16_t& v_src_stride, svuint16_t& v_x_max,
    
                                  svuint16_t& v_y_max, svuint32_t& v_border)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_stride_{v_src_stride},
    
      132
              v_xmax_{v_x_max},
    
      132
              v_ymax_{v_y_max},
    
      132
              v_border_{v_border} {
    
      132
          v_src_stride_ = svdup_u16(src_rows.stride());
    
      132
          v_xmax_ = svdup_u16(static_cast<uint16_t>(src_width - 1));
    
      132
          v_ymax_ = svdup_u16(static_cast<uint16_t>(src_height - 1));
    
      132
          uint32_t border_value_u32{};
    
      132
          memcpy(&border_value_u32, border_value, sizeof(uint32_t));
    
      132
          v_border_ = svdup_u32(border_value_u32);
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          LoopUnroll loop{width, svcnth()};
    
      5354
          loop.unroll_once([&](size_t step) {
    
      5198
            svbool_t pg = svptrue_b16();
    
      5198
            vector_path(pg, mapxy, mapfrac, dst, static_cast<ptrdiff_t>(step));
    
      5198
          });
    
      230
          loop.remaining([&](size_t length, size_t step) {
    
      74
            svbool_t pg = svwhilelt_b16_u64(step - length, step);
    
      74
            vector_path(pg, mapxy, mapfrac, dst, static_cast<ptrdiff_t>(length));
    
      74
          });
    
      156
        }
    
      5272
        void vector_path(svbool_t pg, Columns<const int16_t>& mapxy,
    
                         Columns<const uint16_t>& mapfrac, Columns<ScalarType>& dst,
    
                         ptrdiff_t step) {
    
      10544
          svuint16x2_t xy =
    
      5272
              svld2_u16(pg, reinterpret_cast<const uint16_t*>(&mapxy[0]));
    
      5272
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
          // Negative values become big positive ones
    
      5272
          svuint16_t x0 = svget2(xy, 0);
    
      5272
          svuint16_t y0 = svget2(xy, 1);
    
      5272
          svuint16_t x1 = svadd_n_u16_x(pg, x0, 1);
    
      5272
          svuint16_t y1 = svadd_n_u16_x(pg, y0, 1);
    
          // Calculate offsets from coordinates (y * stride + x), x multiplied by 4
    
          // channels
    
      26360
          auto load_4ch_or_border_b = [&](svuint16_t x, svuint16_t y) {
    
      42176
            svbool_t in_range_b16 =
    
      21088
                svand_b_z(pg, svcmple(pg, x, v_xmax_), svcmple(pg, y, v_ymax_));
    
      21088
            svbool_t in_range = svtrn1_b16(in_range_b16, svpfalse());
    
      42176
            svuint32_t image = svld1_gather_u32offset_u32(
    
      21088
                in_range, reinterpret_cast<const uint32_t*>(&src_rows_[0]),
    
      21088
                svmlalb_u32(svshllb_n_u32(x, 2), y, v_src_stride_));
    
      42176
            return svreinterpret_u8_u32(svsel(in_range, image, v_border_));
    
      21088
          };
    
      26360
          auto load_4ch_or_border_t = [&](svuint16_t x, svuint16_t y) {
    
      42176
            svbool_t in_range_b16 =
    
      21088
                svand_b_z(pg, svcmple(pg, x, v_xmax_), svcmple(pg, y, v_ymax_));
    
      21088
            svbool_t in_range = svtrn2_b16(in_range_b16, svpfalse());
    
      42176
            svuint32_t image = svld1_gather_u32offset_u32(
    
      21088
                in_range, reinterpret_cast<const uint32_t*>(&src_rows_[0]),
    
      21088
                svmlalt_u32(svshllt_n_u32(x, 2), y, v_src_stride_));
    
      42176
            return svreinterpret_u8_u32(svsel(in_range, image, v_border_));
    
      21088
          };
    
      5272
          svuint16_t frac = svld1_u16(pg, &mapfrac[0]);
    
      10544
          svuint16_t xfrac =
    
      5272
              svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      10544
          svuint16_t yfrac =
    
      10544
              svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      5272
                      svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      26360
          auto lerp2d = [&](svuint16_t xfrac, svuint16_t yfrac, svuint16_t nxfrac,
    
                            svuint16_t nyfrac, svuint16_t src_a, svuint16_t src_b,
    
                            svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      42176
            svuint16_t line0 = svmla_x(
    
      21088
                svptrue_b16(), svmul_x(svptrue_b16(), xfrac, src_b), nxfrac, src_a);
    
      42176
            svuint16_t line1 = svmla_x(
    
      21088
                svptrue_b16(), svmul_x(svptrue_b16(), xfrac, src_d), nxfrac, src_c);
    
      21088
            svuint32_t acc_b = svmlalb_u32(bias, line0, nyfrac);
    
      21088
            svuint32_t acc_t = svmlalt_u32(bias, line0, nyfrac);
    
      21088
            acc_b = svmlalb_u32(acc_b, line1, yfrac);
    
      21088
            acc_t = svmlalt_u32(acc_t, line1, yfrac);
    
      42176
            return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                           2ULL * REMAP16POINT5_FRAC_BITS);
    
      21088
          };
    
          // bottom part
    
      5272
          svuint8_t a = load_4ch_or_border_b(x0, y0);
    
      5272
          svuint8_t b = load_4ch_or_border_b(x1, y0);
    
      5272
          svuint8_t c = load_4ch_or_border_b(x0, y1);
    
      5272
          svuint8_t d = load_4ch_or_border_b(x1, y1);
    
          // from xfrac, we need the bottom part twice
    
      5272
          svuint16_t xfrac2b = svtrn1_u16(xfrac, xfrac);
    
      10544
          svuint16_t nxfrac2b = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac2b);
    
      5272
          svuint16_t yfrac2b = svtrn1_u16(yfrac, yfrac);
    
      10544
          svuint16_t nyfrac2b = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac2b);
    
          // a,b,c,d looks like 12341234...(four channels)
    
          // bottom is 1313...
    
      10544
          svuint16_t res_bb =
    
      10544
              lerp2d(xfrac2b, yfrac2b, nxfrac2b, nyfrac2b, svmovlb_u16(a),
    
      5272
                     svmovlb_u16(b), svmovlb_u16(c), svmovlb_u16(d), bias);
    
          // top is 2424...
    
      10544
          svuint16_t res_bt =
    
      10544
              lerp2d(xfrac2b, yfrac2b, nxfrac2b, nyfrac2b, svmovlt_u16(a),
    
      5272
                     svmovlt_u16(b), svmovlt_u16(c), svmovlt_u16(d), bias);
    
      10544
          svuint8_t res_b =
    
      5272
              svtrn1_u8(svreinterpret_u8_u16(res_bb), svreinterpret_u8_u16(res_bt));
    
          // top part
    
      5272
          a = load_4ch_or_border_t(x0, y0);
    
      5272
          b = load_4ch_or_border_t(x1, y0);
    
      5272
          c = load_4ch_or_border_t(x0, y1);
    
      5272
          d = load_4ch_or_border_t(x1, y1);
    
          // from xfrac, we need the top part twice
    
      5272
          svuint16_t xfrac2t = svtrn2_u16(xfrac, xfrac);
    
      10544
          svuint16_t nxfrac2t = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac2t);
    
      5272
          svuint16_t yfrac2t = svtrn2_u16(yfrac, yfrac);
    
      10544
          svuint16_t nyfrac2t = svsub_u16_x(
    
      5272
              svptrue_b16(), svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac2t);
    
          // a,b,c,d looks like 12341234...(four channels)
    
          // bottom is 1313...
    
      10544
          svuint16_t res_tb =
    
      10544
              lerp2d(xfrac2t, yfrac2t, nxfrac2t, nyfrac2t, svmovlb_u16(a),
    
      5272
                     svmovlb_u16(b), svmovlb_u16(c), svmovlb_u16(d), bias);
    
          // top is 2424...
    
      10544
          svuint16_t res_tt =
    
      10544
              lerp2d(xfrac2t, yfrac2t, nxfrac2t, nyfrac2t, svmovlt_u16(a),
    
      5272
                     svmovlt_u16(b), svmovlt_u16(c), svmovlt_u16(d), bias);
    
      10544
          svuint8_t res_t =
    
      5272
              svtrn1_u8(svreinterpret_u8_u16(res_tb), svreinterpret_u8_u16(res_tt));
    
      5272
          svbool_t pg_low = svwhilelt_b32_u64(0L, static_cast<size_t>(step));
    
      5272
          svbool_t pg_high = svwhilelt_b32_u64(svcntw(), static_cast<size_t>(step));
    
      10544
          svuint32_t res_low =
    
      5272
              svzip1_u32(svreinterpret_u32_u8(res_b), svreinterpret_u32_u8(res_t));
    
      10544
          svuint32_t res_high =
    
      5272
              svzip2_u32(svreinterpret_u32_u8(res_b), svreinterpret_u32_u8(res_t));
    
      5272
          mapxy += step;
    
      5272
          svst1_u32(pg_low, reinterpret_cast<uint32_t*>(&dst[0]), res_low);
    
      10544
          svst1_u32(pg_high, reinterpret_cast<uint32_t*>(&dst[0]) + svcntw(),
    
      5272
                    res_high);
    
      5272
          mapfrac += step;
    
      5272
          dst += step;
    
      5272
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint16_t& v_src_stride_;
    
        svuint16_t& v_xmax_;
    
        svuint16_t& v_ymax_;
    
        svuint32_t& v_border_;
    
      };  // end of class RemapS16Point5Constant4ch<uint8_t>
    
      template <>
    
      class RemapS16Point5Constant4ch<uint16_t> {
    
       public:
    
        using ScalarType = uint16_t;
    
      132
        RemapS16Point5Constant4ch(Rows<const ScalarType> src_rows, size_t src_width,
    
                                  size_t src_height, const ScalarType* border_value,
    
                                  svuint32_t& v_src_stride, svuint32_t& v_x_max,
    
                                  svuint32_t& v_y_max, svuint64_t& v_border)
    
      132
            : src_rows_{src_rows},
    
      132
              v_src_stride_{v_src_stride},
    
      132
              v_xmax_{v_x_max},
    
      132
              v_ymax_{v_y_max},
    
      132
              v_border_{v_border} {
    
      132
          v_src_stride_ = svdup_u32(src_rows.stride());
    
      132
          v_xmax_ = svdup_u32(static_cast<uint32_t>(src_width - 1));
    
      132
          v_ymax_ = svdup_u32(static_cast<uint32_t>(src_height - 1));
    
      132
          uint64_t border_value_u64{};
    
      132
          memcpy(&border_value_u64, border_value, sizeof(uint64_t));
    
      132
          v_border_ = svdup_u64(border_value_u64);
    
      132
        }
    
      156
        void process_row(size_t width, Columns<const int16_t> mapxy,
    
                         Columns<const uint16_t> mapfrac, Columns<ScalarType> dst) {
    
      156
          LoopUnroll loop{width, svcntw()};
    
      10006
          loop.unroll_once([&](size_t step) {
    
      19700
            vector_path(svptrue_b32(), svptrue_b64(), svptrue_b64(), mapxy, mapfrac,
    
      9850
                        dst, static_cast<ptrdiff_t>(step));
    
      9850
          });
    
      216
          loop.remaining([&](size_t length, size_t step) {
    
      60
            svbool_t pg = svwhilelt_b32_u64(step, step + length);
    
      60
            svbool_t pg_low = svzip1_b32(pg, svpfalse());
    
      60
            svbool_t pg_high = svzip2_b32(pg, svpfalse());
    
      120
            vector_path(pg, pg_low, pg_high, mapxy, mapfrac, dst,
    
      60
                        static_cast<ptrdiff_t>(length));
    
      60
          });
    
      156
        }
    
      9910
        void vector_path(svbool_t pg, svbool_t pg_low, svbool_t pg_high,
    
                         Columns<const int16_t>& mapxy,
    
                         Columns<const uint16_t>& mapfrac, Columns<ScalarType>& dst,
    
                         ptrdiff_t step) {
    
          // Load one vector of xy: even coordinates are x, odd are y
    
      19820
          svint16_t xy = svreinterpret_s16_u32(
    
      9910
              svld1_u32(pg, reinterpret_cast<const uint32_t*>(&mapxy[0])));
    
          // Negative values become big positive ones
    
          // Widening is signed, so 16-bit -1 becomes 32-bit -1
    
      9910
          svuint32_t x0 = svreinterpret_u32_s32(svmovlb(xy));
    
      9910
          svuint32_t y0 = svreinterpret_u32_s32(svmovlt(xy));
    
      9910
          svuint32_t x1 = svadd_n_u32_x(pg, x0, 1);
    
      9910
          svuint32_t y1 = svadd_n_u32_x(pg, y0, 1);
    
      49550
          auto load_4ch_or_border_b = [&](svuint32_t x, svuint32_t y) {
    
      79280
            svbool_t in_range_b32 =
    
      39640
                svand_b_z(pg, svcmple(pg, x, v_xmax_), svcmple(pg, y, v_ymax_));
    
      39640
            svbool_t in_range = svtrn1_b32(in_range_b32, svpfalse());
    
      79280
            svuint64_t image = svld1_gather_u64offset_u64(
    
      39640
                in_range, reinterpret_cast<const uint64_t*>(&src_rows_[0]),
    
      39640
                svmlalb_u64(svshllb_n_u64(x, 3), y, v_src_stride_));
    
      79280
            return svreinterpret_u16_u64(svsel(in_range, image, v_border_));
    
      39640
          };
    
      49550
          auto load_4ch_or_border_t = [&](svuint32_t x, svuint32_t y) {
    
      79280
            svbool_t in_range_b32 =
    
      39640
                svand_b_z(pg, svcmple(pg, x, v_xmax_), svcmple(pg, y, v_ymax_));
    
      39640
            svbool_t in_range = svtrn2_b32(in_range_b32, svpfalse());
    
      79280
            svuint64_t image = svld1_gather_u64offset_u64(
    
      39640
                in_range, reinterpret_cast<const uint64_t*>(&src_rows_[0]),
    
      39640
                svmlalt_u64(svshllt_n_u64(x, 3), y, v_src_stride_));
    
      79280
            return svreinterpret_u16_u64(svsel(in_range, image, v_border_));
    
      39640
          };
    
      9910
          svuint16_t xfrac, yfrac, nxfrac, nyfrac;
    
          {
    
            // Fractions are loaded into even lanes
    
      9910
            svuint16_t rawfrac = svreinterpret_u16_u32(svld1uh_u32(pg, &mapfrac[0]));
    
            // Fractions are doubled, 00112233... (will be doubled again later)
    
      9910
            svuint16_t frac = svtrn1(rawfrac, rawfrac);
    
      9910
            xfrac = svand_x(pg, frac, svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      19820
            yfrac = svand_x(pg, svlsr_n_u16_x(pg, frac, REMAP16POINT5_FRAC_BITS),
    
      9910
                            svdup_n_u16(REMAP16POINT5_FRAC_MAX - 1));
    
      9910
            nxfrac = svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), xfrac);
    
      9910
            nyfrac = svsub_u16_x(pg, svdup_n_u16(REMAP16POINT5_FRAC_MAX), yfrac);
    
      9910
          }
    
      9910
          svuint32_t bias = svdup_n_u32(REMAP16POINT5_FRAC_MAX_SQUARE / 2);
    
      29730
          auto lerp2d = [&](svuint16_t xfrac, svuint16_t yfrac, svuint16_t nxfrac,
    
                            svuint16_t nyfrac, svuint16_t src_a, svuint16_t src_b,
    
                            svuint16_t src_c, svuint16_t src_d, svuint32_t bias) {
    
      19820
            svuint32_t line0_b = svmlalb(svmullb(xfrac, src_b), nxfrac, src_a);
    
      19820
            svuint32_t line0_t = svmlalt(svmullt(xfrac, src_b), nxfrac, src_a);
    
      19820
            svuint32_t line1_b = svmlalb(svmullb(xfrac, src_d), nxfrac, src_c);
    
      19820
            svuint32_t line1_t = svmlalt(svmullt(xfrac, src_d), nxfrac, src_c);
    
      39640
            svuint32_t acc_b =
    
      19820
                svmla_u32_x(svptrue_b32(), bias, line0_b, svmovlb_u32(nyfrac));
    
      39640
            svuint32_t acc_t =
    
      19820
                svmla_u32_x(svptrue_b32(), bias, line0_t, svmovlt_u32(nyfrac));
    
      19820
            acc_b = svmla_u32_x(svptrue_b32(), acc_b, line1_b, svmovlb_u32(yfrac));
    
      19820
            acc_t = svmla_u32_x(svptrue_b32(), acc_t, line1_t, svmovlt_u32(yfrac));
    
      39640
            return svshrnt(svshrnb(acc_b, 2ULL * REMAP16POINT5_FRAC_BITS), acc_t,
    
                           2ULL * REMAP16POINT5_FRAC_BITS);
    
      19820
          };
    
          // Data is 4x16 = 64 bits, twice as wide as the widened coords (32-bit)
    
          // Calculation is done in 2 parts, top and bottom
    
      9910
          svuint16_t res_b, res_t;
    
          {  // bottom
    
      9910
            svuint16_t a = load_4ch_or_border_b(x0, y0);
    
      9910
            svuint16_t b = load_4ch_or_border_b(x1, y0);
    
      9910
            svuint16_t c = load_4ch_or_border_b(x0, y1);
    
      9910
            svuint16_t d = load_4ch_or_border_b(x1, y1);
    
            // Copy even lanes twice -> 000022224444... these are the "bottom"
    
            // fractions
    
      19820
            svuint16_t xfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(xfrac), svreinterpret_u32_u16(xfrac)));
    
      19820
            svuint16_t nxfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(nxfrac), svreinterpret_u32_u16(nxfrac)));
    
      19820
            svuint16_t yfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(yfrac), svreinterpret_u32_u16(yfrac)));
    
      19820
            svuint16_t nyfr = svreinterpret_u16_u32(svtrn1_u32(
    
      9910
                svreinterpret_u32_u16(nyfrac), svreinterpret_u32_u16(nyfrac)));
    
      9910
            res_b = lerp2d(xfr, yfr, nxfr, nyfr, a, b, c, d, bias);
    
      9910
          }
    
          {  // top
    
      9910
            svuint16_t a = load_4ch_or_border_t(x0, y0);
    
      9910
            svuint16_t b = load_4ch_or_border_t(x1, y0);
    
      9910
            svuint16_t c = load_4ch_or_border_t(x0, y1);
    
      9910
            svuint16_t d = load_4ch_or_border_t(x1, y1);
    
            // Copy odd lanes twice -> 111133335555... these are the "top"
    
            // fractions
    
      19820
            svuint16_t xfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(xfrac), svreinterpret_u32_u16(xfrac)));
    
      19820
            svuint16_t nxfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(nxfrac), svreinterpret_u32_u16(nxfrac)));
    
      19820
            svuint16_t yfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(yfrac), svreinterpret_u32_u16(yfrac)));
    
      19820
            svuint16_t nyfr = svreinterpret_u16_u32(svtrn2_u32(
    
      9910
                svreinterpret_u32_u16(nyfrac), svreinterpret_u32_u16(nyfrac)));
    
      9910
            res_t = lerp2d(xfr, yfr, nxfr, nyfr, a, b, c, d, bias);
    
      9910
          }
    
      19820
          svuint64_t res_low =
    
      9910
              svzip1_u64(svreinterpret_u64_u16(res_b), svreinterpret_u64_u16(res_t));
    
      19820
          svuint64_t res_high =
    
      9910
              svzip2_u64(svreinterpret_u64_u16(res_b), svreinterpret_u64_u16(res_t));
    
      9910
          svst1_u64(pg_low, reinterpret_cast<uint64_t*>(&dst[0]), res_low);
    
      19820
          svst1_u64(pg_high, reinterpret_cast<uint64_t*>(&dst[0]) + svcntd(),
    
      9910
                    res_high);
    
      9910
          mapxy += step;
    
      9910
          mapfrac += step;
    
      9910
          dst += step;
    
      9910
        }
    
        Rows<const ScalarType> src_rows_;
    
       private:
    
        svuint32_t& v_src_stride_;
    
        svuint32_t& v_xmax_;
    
        svuint32_t& v_ymax_;
    
        svuint64_t& v_border_;
    
      };  // end of class RemapS16Point5Constant4ch<uint16_t>
    
      // Most of the complexity comes from parameter checking.
    
      // NOLINTBEGIN(readability-function-cognitive-complexity)
    
      template <typename T>
    
      1140
      kleidicv_error_t remap_s16point5(const T* src, size_t src_stride,
    
                                       size_t src_width, size_t src_height, T* dst,
    
                                       size_t dst_stride, size_t dst_width,
    
                                       size_t dst_height, size_t channels,
    
                                       const int16_t* mapxy, size_t mapxy_stride,
    
                                       const uint16_t* mapfrac, size_t mapfrac_stride,
    
                                       kleidicv_border_type_t border_type,
    
                                       const T* border_value) {
    
        8/8✓ Branch 0 taken 2 times.
✓ Branch 1 taken 568 times.
✓ Branch 2 taken 2 times.
✓ Branch 3 taken 568 times.
✓ Branch 4 taken 2 times.
✓ Branch 5 taken 568 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 568 times.

      1140
        CHECK_POINTER_AND_STRIDE(src, src_stride, src_height);
    
        8/8✓ Branch 0 taken 2 times.
✓ Branch 1 taken 566 times.
✓ Branch 2 taken 2 times.
✓ Branch 3 taken 566 times.
✓ Branch 4 taken 2 times.
✓ Branch 5 taken 566 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 566 times.

      1136
        CHECK_POINTER_AND_STRIDE(dst, dst_stride, dst_height);
    
        8/8✓ Branch 0 taken 2 times.
✓ Branch 1 taken 564 times.
✓ Branch 2 taken 2 times.
✓ Branch 3 taken 564 times.
✓ Branch 4 taken 2 times.
✓ Branch 5 taken 564 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 564 times.

      1132
        CHECK_POINTER_AND_STRIDE(mapxy, mapxy_stride, dst_height);
    
        8/8✓ Branch 0 taken 2 times.
✓ Branch 1 taken 562 times.
✓ Branch 2 taken 2 times.
✓ Branch 3 taken 562 times.
✓ Branch 4 taken 2 times.
✓ Branch 5 taken 562 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 562 times.

      1128
        CHECK_POINTER_AND_STRIDE(mapfrac, mapfrac_stride, dst_height);
    
        12/12✓ Branch 0 taken 2 times.
✓ Branch 1 taken 560 times.
✓ Branch 2 taken 4 times.
✓ Branch 3 taken 556 times.
✓ Branch 4 taken 6 times.
✓ Branch 5 taken 556 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 560 times.
✓ Branch 8 taken 4 times.
✓ Branch 9 taken 556 times.
✓ Branch 10 taken 6 times.
✓ Branch 11 taken 556 times.

      1124
        CHECK_IMAGE_SIZE(src_width, src_height);
    
        12/12✓ Branch 0 taken 2 times.
✓ Branch 1 taken 554 times.
✓ Branch 2 taken 2 times.
✓ Branch 3 taken 552 times.
✓ Branch 4 taken 4 times.
✓ Branch 5 taken 552 times.
✓ Branch 6 taken 2 times.
✓ Branch 7 taken 554 times.
✓ Branch 8 taken 2 times.
✓ Branch 9 taken 552 times.
✓ Branch 10 taken 4 times.
✓ Branch 11 taken 552 times.

      1112
        CHECK_IMAGE_SIZE(dst_width, dst_height);
    
        8/8✓ Branch 0 taken 268 times.
✓ Branch 1 taken 284 times.
✓ Branch 2 taken 266 times.
✓ Branch 3 taken 2 times.
✓ Branch 4 taken 268 times.
✓ Branch 5 taken 284 times.
✓ Branch 6 taken 266 times.
✓ Branch 7 taken 2 times.

      1104
        if (border_type == KLEIDICV_BORDER_TYPE_CONSTANT && nullptr == border_value) {
    
      4
          return KLEIDICV_ERROR_NULL_POINTER;
    
        }
    
        8/8✓ Branch 0 taken 530 times.
✓ Branch 1 taken 20 times.
✓ Branch 2 taken 530 times.
✓ Branch 3 taken 20 times.
✓ Branch 4 taken 530 times.
✓ Branch 5 taken 20 times.
✓ Branch 6 taken 530 times.
✓ Branch 7 taken 20 times.

      2200
        if (!remap_s16point5_is_implemented<T>(src_stride, src_width, src_height,
    
      1100
                                               dst_width, border_type, channels)) {
    
      40
          return KLEIDICV_ERROR_NOT_IMPLEMENTED;
    
        }
    
      1060
        Rows<const T> src_rows{src, src_stride, channels};
    
      1060
        Rows<const int16_t> mapxy_rows{mapxy, mapxy_stride, 2};
    
      1060
        Rows<const uint16_t> mapfrac_rows{mapfrac, mapfrac_stride, 1};
    
      1060
        Rows<T> dst_rows{dst, dst_stride, channels};
    
      1060
        svuint16_t sv_src_stride;
    
      1060
        Rectangle rect{dst_width, dst_height};
    
        4/4✓ Branch 0 taken 266 times.
✓ Branch 1 taken 264 times.
✓ Branch 2 taken 266 times.
✓ Branch 3 taken 264 times.

      1060
        if (border_type == KLEIDICV_BORDER_TYPE_CONSTANT) {
    
        4/4✓ Branch 0 taken 132 times.
✓ Branch 1 taken 132 times.
✓ Branch 2 taken 132 times.
✓ Branch 3 taken 132 times.

      528
          if (channels == 1) {
    
      264
            svuint16_t sv_width, sv_height, sv_border;
    
      528
            RemapS16Point5ConstantBorder<T> operation{
    
      264
                src_rows,      src_width, src_height, border_value,
    
                sv_src_stride, sv_width,  sv_height,  sv_border};
    
      264
            zip_rows(operation, rect, mapxy_rows, mapfrac_rows, dst_rows);
    
      264
          } else {
    
            assert(channels == 4);
    
            typedef typename double_element_width<T>::type DoubleType;
    
            typedef typename double_element_width<DoubleType>::type QuadType;
    
      264
            typename VecTraits<DoubleType>::VectorType sv_width, sv_height,
    
                sv_src_stride;
    
      264
            typename VecTraits<QuadType>::VectorType sv_border;
    
      528
            RemapS16Point5Constant4ch<T> operation{
    
      264
                src_rows,      src_width, src_height, border_value,
    
                sv_src_stride, sv_width,  sv_height,  sv_border};
    
      264
            zip_rows(operation, rect, mapxy_rows, mapfrac_rows, dst_rows);
    
      264
          }
    
      528
        } else {
    
          assert(border_type == KLEIDICV_BORDER_TYPE_REPLICATE);
    
      532
          svint16_t sv_xmax, sv_ymax;
    
        4/4✓ Branch 0 taken 134 times.
✓ Branch 1 taken 132 times.
✓ Branch 2 taken 134 times.
✓ Branch 3 taken 132 times.

      532
          if (channels == 1) {
    
      268
            RemapS16Point5Replicate<T> operation{src_rows,      src_width, src_height,
    
                                                 sv_src_stride, sv_xmax,   sv_ymax};
    
      268
            zip_rows(operation, rect, mapxy_rows, mapfrac_rows, dst_rows);
    
      268
          } else {
    
            assert(channels == 4);
    
            if constexpr (std::is_same<T, uint8_t>::value) {
    
      264
              RemapS16Point5Replicate4ch<T> operation{
    
      132
                  src_rows, src_width, src_height, sv_src_stride, sv_xmax, sv_ymax};
    
      132
              zip_rows(operation, rect, mapxy_rows, mapfrac_rows, dst_rows);
    
      132
            }
    
            if constexpr (std::is_same<T, uint16_t>::value) {
    
      132
              svuint32_t stride;
    
      132
              svint32_t xmax, ymax;
    
      132
              RemapS16Point5Replicate4ch<T> operation{src_rows, src_width, src_height,
    
                                                      stride,   xmax,      ymax};
    
      132
              zip_rows(operation, rect, mapxy_rows, mapfrac_rows, dst_rows);
    
      132
            }
    
          }
    
      532
        }
    
      1060
        return KLEIDICV_OK;
    
      1140
      }
    
      // NOLINTEND(readability-function-cognitive-complexity)
    
      #define KLEIDICV_INSTANTIATE_TEMPLATE_REMAP_S16Point5(type)                    \
    
        template KLEIDICV_TARGET_FN_ATTRS kleidicv_error_t remap_s16point5<type>(    \
    
            const type* src, size_t src_stride, size_t src_width, size_t src_height, \
    
            type* dst, size_t dst_stride, size_t dst_width, size_t dst_height,       \
    
            size_t channels, const int16_t* mapxy, size_t mapxy_stride,              \
    
            const uint16_t* mapfrac, size_t mapfrac_stride,                          \
    
            kleidicv_border_type_t border_type, const type* border_value)
    
      KLEIDICV_INSTANTIATE_TEMPLATE_REMAP_S16Point5(uint8_t);
    
      KLEIDICV_INSTANTIATE_TEMPLATE_REMAP_S16Point5(uint16_t);
    
      }  // namespace kleidicv::sve2