aarch64/sve/pow.c

edc5c0deSAndrew Turner/*
edc5c0deSAndrew Turner * Double-precision SVE pow(x, y) function.
edc5c0deSAndrew Turner *
9d1de259SAndrew Turner * Copyright (c) 2022-2025, Arm Limited.
edc5c0deSAndrew Turner * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
edc5c0deSAndrew Turner */
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner#include "sv_math.h"
9d1de259SAndrew Turner#include "test_sig.h"
9d1de259SAndrew Turner#include "test_defs.h"
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* This version share a similar algorithm as AOR scalar pow.
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner   The core computation consists in computing pow(x, y) as
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner     exp (y * log (x)).
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner   The algorithms for exp and log are very similar to scalar exp and log.
edc5c0deSAndrew Turner   The log relies on table lookup for 3 variables and an order 8 polynomial.
edc5c0deSAndrew Turner   It returns a high and a low contribution that are then passed to the exp,
edc5c0deSAndrew Turner   to minimise the loss of accuracy in both routines.
edc5c0deSAndrew Turner   The exp is based on 8-bit table lookup for scale and order-4 polynomial.
edc5c0deSAndrew Turner   The SVE algorithm drops the tail in the exp computation at the price of
edc5c0deSAndrew Turner   a lower accuracy, slightly above 1ULP.
edc5c0deSAndrew Turner   The SVE algorithm also drops the special treatement of small (< 2^-65) and
9d1de259SAndrew Turner   large (> 2^63) finite values of |y|, as they only affect non-round to
9d1de259SAndrew Turner   nearest modes.
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner   Maximum measured error is 1.04 ULPs:
edc5c0deSAndrew Turner   SV_NAME_D2 (pow) (0x1.3d2d45bc848acp+63, -0x1.a48a38b40cd43p-12)
edc5c0deSAndrew Turner     got 0x1.f7116284221fcp-1
edc5c0deSAndrew Turner    want 0x1.f7116284221fdp-1.  */
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Data is defined in v_pow_log_data.c.  */
edc5c0deSAndrew Turner#define N_LOG (1 << V_POW_LOG_TABLE_BITS)
edc5c0deSAndrew Turner#define Off 0x3fe6955500000000
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Data is defined in v_pow_exp_data.c.  */
edc5c0deSAndrew Turner#define N_EXP (1 << V_POW_EXP_TABLE_BITS)
edc5c0deSAndrew Turner#define SignBias (0x800 << V_POW_EXP_TABLE_BITS)
edc5c0deSAndrew Turner#define SmallExp 0x3c9 /* top12(0x1p-54).  */
edc5c0deSAndrew Turner#define BigExp 0x408   /* top12(512.).  */
edc5c0deSAndrew Turner#define ThresExp 0x03f /* BigExp - SmallExp.  */
edc5c0deSAndrew Turner#define HugeExp 0x409  /* top12(1024.).  */
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Constants associated with pow.  */
9d1de259SAndrew Turner#define SmallBoundX 0x1p-126
edc5c0deSAndrew Turner#define SmallPowX 0x001 /* top12(0x1p-126).  */
edc5c0deSAndrew Turner#define BigPowX 0x7ff	/* top12(INFINITY).  */
edc5c0deSAndrew Turner#define ThresPowX 0x7fe /* BigPowX - SmallPowX.  */
edc5c0deSAndrew Turner#define SmallPowY 0x3be /* top12(0x1.e7b6p-65).  */
edc5c0deSAndrew Turner#define BigPowY 0x43e	/* top12(0x1.749p62).  */
edc5c0deSAndrew Turner#define ThresPowY 0x080 /* BigPowY - SmallPowY.  */
edc5c0deSAndrew Turner
9d1de259SAndrew Turnerstatic const struct data
9d1de259SAndrew Turner{
9d1de259SAndrew Turner  double log_c0, log_c2, log_c4, log_c6, ln2_hi, ln2_lo;
9d1de259SAndrew Turner  double log_c1, log_c3, log_c5, off;
9d1de259SAndrew Turner  double n_over_ln2, exp_c2, ln2_over_n_hi, ln2_over_n_lo;
9d1de259SAndrew Turner  double exp_c0, exp_c1;
9d1de259SAndrew Turner} data = {
9d1de259SAndrew Turner  .log_c0 = -0x1p-1,
9d1de259SAndrew Turner  .log_c1 = -0x1.555555555556p-1,
9d1de259SAndrew Turner  .log_c2 = 0x1.0000000000006p-1,
9d1de259SAndrew Turner  .log_c3 = 0x1.999999959554ep-1,
9d1de259SAndrew Turner  .log_c4 = -0x1.555555529a47ap-1,
9d1de259SAndrew Turner  .log_c5 = -0x1.2495b9b4845e9p0,
9d1de259SAndrew Turner  .log_c6 = 0x1.0002b8b263fc3p0,
9d1de259SAndrew Turner  .off = Off,
9d1de259SAndrew Turner  .exp_c0 = 0x1.fffffffffffd4p-2,
9d1de259SAndrew Turner  .exp_c1 = 0x1.5555571d6ef9p-3,
9d1de259SAndrew Turner  .exp_c2 = 0x1.5555576a5adcep-5,
9d1de259SAndrew Turner  .ln2_hi = 0x1.62e42fefa3800p-1,
9d1de259SAndrew Turner  .ln2_lo = 0x1.ef35793c76730p-45,
9d1de259SAndrew Turner  .n_over_ln2 = 0x1.71547652b82fep0 * N_EXP,
9d1de259SAndrew Turner  .ln2_over_n_hi = 0x1.62e42fefc0000p-9,
9d1de259SAndrew Turner  .ln2_over_n_lo = -0x1.c610ca86c3899p-45,
9d1de259SAndrew Turner};
9d1de259SAndrew Turner
edc5c0deSAndrew Turner/* Check if x is an integer.  */
edc5c0deSAndrew Turnerstatic inline svbool_t
edc5c0deSAndrew Turnersv_isint (svbool_t pg, svfloat64_t x)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  return svcmpeq (pg, svrintz_z (pg, x), x);
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Check if x is real not integer valued.  */
edc5c0deSAndrew Turnerstatic inline svbool_t
edc5c0deSAndrew Turnersv_isnotint (svbool_t pg, svfloat64_t x)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  return svcmpne (pg, svrintz_z (pg, x), x);
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Check if x is an odd integer.  */
edc5c0deSAndrew Turnerstatic inline svbool_t
edc5c0deSAndrew Turnersv_isodd (svbool_t pg, svfloat64_t x)
edc5c0deSAndrew Turner{
9d1de259SAndrew Turner  svfloat64_t y = svmul_x (svptrue_b64 (), x, 0.5);
edc5c0deSAndrew Turner  return sv_isnotint (pg, y);
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Returns 0 if not int, 1 if odd int, 2 if even int.  The argument is
edc5c0deSAndrew Turner   the bit representation of a non-zero finite floating-point value.  */
edc5c0deSAndrew Turnerstatic inline int
edc5c0deSAndrew Turnercheckint (uint64_t iy)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  int e = iy >> 52 & 0x7ff;
edc5c0deSAndrew Turner  if (e < 0x3ff)
edc5c0deSAndrew Turner    return 0;
edc5c0deSAndrew Turner  if (e > 0x3ff + 52)
edc5c0deSAndrew Turner    return 2;
edc5c0deSAndrew Turner  if (iy & ((1ULL << (0x3ff + 52 - e)) - 1))
edc5c0deSAndrew Turner    return 0;
edc5c0deSAndrew Turner  if (iy & (1ULL << (0x3ff + 52 - e)))
edc5c0deSAndrew Turner    return 1;
edc5c0deSAndrew Turner  return 2;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Top 12 bits (sign and exponent of each double float lane).  */
edc5c0deSAndrew Turnerstatic inline svuint64_t
edc5c0deSAndrew Turnersv_top12 (svfloat64_t x)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  return svlsr_x (svptrue_b64 (), svreinterpret_u64 (x), 52);
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Returns 1 if input is the bit representation of 0, infinity or nan.  */
edc5c0deSAndrew Turnerstatic inline int
edc5c0deSAndrew Turnerzeroinfnan (uint64_t i)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  return 2 * i - 1 >= 2 * asuint64 (INFINITY) - 1;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Returns 1 if input is the bit representation of 0, infinity or nan.  */
edc5c0deSAndrew Turnerstatic inline svbool_t
edc5c0deSAndrew Turnersv_zeroinfnan (svbool_t pg, svuint64_t i)
edc5c0deSAndrew Turner{
9d1de259SAndrew Turner  return svcmpge (pg, svsub_x (pg, svadd_x (pg, i, i), 1),
edc5c0deSAndrew Turner		  2 * asuint64 (INFINITY) - 1);
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Handle cases that may overflow or underflow when computing the result that
edc5c0deSAndrew Turner   is scale*(1+TMP) without intermediate rounding.  The bit representation of
edc5c0deSAndrew Turner   scale is in SBITS, however it has a computed exponent that may have
edc5c0deSAndrew Turner   overflown into the sign bit so that needs to be adjusted before using it as
edc5c0deSAndrew Turner   a double.  (int32_t)KI is the k used in the argument reduction and exponent
edc5c0deSAndrew Turner   adjustment of scale, positive k here means the result may overflow and
edc5c0deSAndrew Turner   negative k means the result may underflow.  */
edc5c0deSAndrew Turnerstatic inline double
edc5c0deSAndrew Turnerspecialcase (double tmp, uint64_t sbits, uint64_t ki)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  double scale;
edc5c0deSAndrew Turner  if ((ki & 0x80000000) == 0)
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      /* k > 0, the exponent of scale might have overflowed by <= 460.  */
edc5c0deSAndrew Turner      sbits -= 1009ull << 52;
edc5c0deSAndrew Turner      scale = asdouble (sbits);
edc5c0deSAndrew Turner      return 0x1p1009 * (scale + scale * tmp);
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner  /* k < 0, need special care in the subnormal range.  */
edc5c0deSAndrew Turner  sbits += 1022ull << 52;
edc5c0deSAndrew Turner  /* Note: sbits is signed scale.  */
edc5c0deSAndrew Turner  scale = asdouble (sbits);
edc5c0deSAndrew Turner  double y = scale + scale * tmp;
edc5c0deSAndrew Turner  return 0x1p-1022 * y;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Scalar fallback for special cases of SVE pow's exp.  */
edc5c0deSAndrew Turnerstatic inline svfloat64_t
edc5c0deSAndrew Turnersv_call_specialcase (svfloat64_t x1, svuint64_t u1, svuint64_t u2,
edc5c0deSAndrew Turner		     svfloat64_t y, svbool_t cmp)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  svbool_t p = svpfirst (cmp, svpfalse ());
edc5c0deSAndrew Turner  while (svptest_any (cmp, p))
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      double sx1 = svclastb (p, 0, x1);
edc5c0deSAndrew Turner      uint64_t su1 = svclastb (p, 0, u1);
edc5c0deSAndrew Turner      uint64_t su2 = svclastb (p, 0, u2);
edc5c0deSAndrew Turner      double elem = specialcase (sx1, su1, su2);
edc5c0deSAndrew Turner      svfloat64_t y2 = sv_f64 (elem);
edc5c0deSAndrew Turner      y = svsel (p, y2, y);
edc5c0deSAndrew Turner      p = svpnext_b64 (cmp, p);
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner  return y;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner/* Compute y+TAIL = log(x) where the rounded result is y and TAIL has about
edc5c0deSAndrew Turner   additional 15 bits precision.  IX is the bit representation of x, but
edc5c0deSAndrew Turner   normalized in the subnormal range using the sign bit for the exponent.  */
edc5c0deSAndrew Turnerstatic inline svfloat64_t
9d1de259SAndrew Turnersv_log_inline (svbool_t pg, svuint64_t ix, svfloat64_t *tail,
9d1de259SAndrew Turner	       const struct data *d)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  /* x = 2^k z; where z is in range [Off,2*Off) and exact.
edc5c0deSAndrew Turner     The range is split into N subintervals.
edc5c0deSAndrew Turner     The ith subinterval contains z and c is near its center.  */
9d1de259SAndrew Turner  svuint64_t tmp = svsub_x (pg, ix, d->off);
edc5c0deSAndrew Turner  svuint64_t i = svand_x (pg, svlsr_x (pg, tmp, 52 - V_POW_LOG_TABLE_BITS),
edc5c0deSAndrew Turner			  sv_u64 (N_LOG - 1));
edc5c0deSAndrew Turner  svint64_t k = svasr_x (pg, svreinterpret_s64 (tmp), 52);
9d1de259SAndrew Turner  svuint64_t iz = svsub_x (pg, ix, svlsl_x (pg, svreinterpret_u64 (k), 52));
edc5c0deSAndrew Turner  svfloat64_t z = svreinterpret_f64 (iz);
edc5c0deSAndrew Turner  svfloat64_t kd = svcvt_f64_x (pg, k);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* log(x) = k*Ln2 + log(c) + log1p(z/c-1).  */
edc5c0deSAndrew Turner  /* SVE lookup requires 3 separate lookup tables, as opposed to scalar version
9d1de259SAndrew Turner     that uses array of structures. We also do the lookup earlier in the code
9d1de259SAndrew Turner     to make sure it finishes as early as possible.  */
edc5c0deSAndrew Turner  svfloat64_t invc = svld1_gather_index (pg, __v_pow_log_data.invc, i);
edc5c0deSAndrew Turner  svfloat64_t logc = svld1_gather_index (pg, __v_pow_log_data.logc, i);
edc5c0deSAndrew Turner  svfloat64_t logctail = svld1_gather_index (pg, __v_pow_log_data.logctail, i);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Note: 1/c is j/N or j/N/2 where j is an integer in [N,2N) and
edc5c0deSAndrew Turner     |z/c - 1| < 1/N, so r = z/c - 1 is exactly representible.  */
edc5c0deSAndrew Turner  svfloat64_t r = svmad_x (pg, z, invc, -1.0);
edc5c0deSAndrew Turner  /* k*Ln2 + log(c) + r.  */
9d1de259SAndrew Turner
9d1de259SAndrew Turner  svfloat64_t ln2_hilo = svld1rq_f64 (svptrue_b64 (), &d->ln2_hi);
9d1de259SAndrew Turner  svfloat64_t t1 = svmla_lane_f64 (logc, kd, ln2_hilo, 0);
edc5c0deSAndrew Turner  svfloat64_t t2 = svadd_x (pg, t1, r);
9d1de259SAndrew Turner  svfloat64_t lo1 = svmla_lane_f64 (logctail, kd, ln2_hilo, 1);
edc5c0deSAndrew Turner  svfloat64_t lo2 = svadd_x (pg, svsub_x (pg, t1, t2), r);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Evaluation is optimized assuming superscalar pipelined execution.  */
9d1de259SAndrew Turner
9d1de259SAndrew Turner  svfloat64_t log_c02 = svld1rq_f64 (svptrue_b64 (), &d->log_c0);
9d1de259SAndrew Turner  svfloat64_t ar = svmul_lane_f64 (r, log_c02, 0);
9d1de259SAndrew Turner  svfloat64_t ar2 = svmul_x (svptrue_b64 (), r, ar);
9d1de259SAndrew Turner  svfloat64_t ar3 = svmul_x (svptrue_b64 (), r, ar2);
edc5c0deSAndrew Turner  /* k*Ln2 + log(c) + r + A[0]*r*r.  */
edc5c0deSAndrew Turner  svfloat64_t hi = svadd_x (pg, t2, ar2);
9d1de259SAndrew Turner  svfloat64_t lo3 = svmls_x (pg, ar2, ar, r);
edc5c0deSAndrew Turner  svfloat64_t lo4 = svadd_x (pg, svsub_x (pg, t2, hi), ar2);
edc5c0deSAndrew Turner  /* p = log1p(r) - r - A[0]*r*r.  */
edc5c0deSAndrew Turner  /* p = (ar3 * (A[1] + r * A[2] + ar2 * (A[3] + r * A[4] + ar2 * (A[5] + r *
edc5c0deSAndrew Turner     A[6])))).  */
9d1de259SAndrew Turner
9d1de259SAndrew Turner  svfloat64_t log_c46 = svld1rq_f64 (svptrue_b64 (), &d->log_c4);
9d1de259SAndrew Turner  svfloat64_t a56 = svmla_lane_f64 (sv_f64 (d->log_c5), r, log_c46, 1);
9d1de259SAndrew Turner  svfloat64_t a34 = svmla_lane_f64 (sv_f64 (d->log_c3), r, log_c46, 0);
9d1de259SAndrew Turner  svfloat64_t a12 = svmla_lane_f64 (sv_f64 (d->log_c1), r, log_c02, 1);
edc5c0deSAndrew Turner  svfloat64_t p = svmla_x (pg, a34, ar2, a56);
edc5c0deSAndrew Turner  p = svmla_x (pg, a12, ar2, p);
9d1de259SAndrew Turner  p = svmul_x (svptrue_b64 (), ar3, p);
edc5c0deSAndrew Turner  svfloat64_t lo = svadd_x (
9d1de259SAndrew Turner      pg, svadd_x (pg, svsub_x (pg, svadd_x (pg, lo1, lo2), lo3), lo4), p);
edc5c0deSAndrew Turner  svfloat64_t y = svadd_x (pg, hi, lo);
edc5c0deSAndrew Turner  *tail = svadd_x (pg, svsub_x (pg, hi, y), lo);
edc5c0deSAndrew Turner  return y;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
9d1de259SAndrew Turnerstatic inline svfloat64_t
9d1de259SAndrew Turnersv_exp_core (svbool_t pg, svfloat64_t x, svfloat64_t xtail,
9d1de259SAndrew Turner	     svuint64_t sign_bias, svfloat64_t *tmp, svuint64_t *sbits,
9d1de259SAndrew Turner	     svuint64_t *ki, const struct data *d)
9d1de259SAndrew Turner{
9d1de259SAndrew Turner  /* exp(x) = 2^(k/N) * exp(r), with exp(r) in [2^(-1/2N),2^(1/2N)].  */
9d1de259SAndrew Turner  /* x = ln2/N*k + r, with int k and r in [-ln2/2N, ln2/2N].  */
9d1de259SAndrew Turner  svfloat64_t n_over_ln2_and_c2 = svld1rq_f64 (svptrue_b64 (), &d->n_over_ln2);
9d1de259SAndrew Turner  svfloat64_t z = svmul_lane_f64 (x, n_over_ln2_and_c2, 0);
9d1de259SAndrew Turner  /* z - kd is in [-1, 1] in non-nearest rounding modes.  */
9d1de259SAndrew Turner  svfloat64_t kd = svrinta_x (pg, z);
9d1de259SAndrew Turner  *ki = svreinterpret_u64 (svcvt_s64_x (pg, kd));
9d1de259SAndrew Turner
9d1de259SAndrew Turner  svfloat64_t ln2_over_n_hilo
9d1de259SAndrew Turner      = svld1rq_f64 (svptrue_b64 (), &d->ln2_over_n_hi);
9d1de259SAndrew Turner  svfloat64_t r = x;
9d1de259SAndrew Turner  r = svmls_lane_f64 (r, kd, ln2_over_n_hilo, 0);
9d1de259SAndrew Turner  r = svmls_lane_f64 (r, kd, ln2_over_n_hilo, 1);
9d1de259SAndrew Turner  /* The code assumes 2^-200 < |xtail| < 2^-8/N.  */
9d1de259SAndrew Turner  r = svadd_x (pg, r, xtail);
9d1de259SAndrew Turner  /* 2^(k/N) ~= scale.  */
9d1de259SAndrew Turner  svuint64_t idx = svand_x (pg, *ki, N_EXP - 1);
9d1de259SAndrew Turner  svuint64_t top
9d1de259SAndrew Turner      = svlsl_x (pg, svadd_x (pg, *ki, sign_bias), 52 - V_POW_EXP_TABLE_BITS);
9d1de259SAndrew Turner  /* This is only a valid scale when -1023*N < k < 1024*N.  */
9d1de259SAndrew Turner  *sbits = svld1_gather_index (pg, __v_pow_exp_data.sbits, idx);
9d1de259SAndrew Turner  *sbits = svadd_x (pg, *sbits, top);
9d1de259SAndrew Turner  /* exp(x) = 2^(k/N) * exp(r) ~= scale + scale * (exp(r) - 1).  */
9d1de259SAndrew Turner  svfloat64_t r2 = svmul_x (svptrue_b64 (), r, r);
9d1de259SAndrew Turner  *tmp = svmla_lane_f64 (sv_f64 (d->exp_c1), r, n_over_ln2_and_c2, 1);
9d1de259SAndrew Turner  *tmp = svmla_x (pg, sv_f64 (d->exp_c0), r, *tmp);
9d1de259SAndrew Turner  *tmp = svmla_x (pg, r, r2, *tmp);
9d1de259SAndrew Turner  svfloat64_t scale = svreinterpret_f64 (*sbits);
9d1de259SAndrew Turner  /* Note: tmp == 0 or |tmp| > 2^-200 and scale > 2^-739, so there
9d1de259SAndrew Turner     is no spurious underflow here even without fma.  */
9d1de259SAndrew Turner  z = svmla_x (pg, scale, scale, *tmp);
9d1de259SAndrew Turner  return z;
9d1de259SAndrew Turner}
9d1de259SAndrew Turner
edc5c0deSAndrew Turner/* Computes sign*exp(x+xtail) where |xtail| < 2^-8/N and |xtail| <= |x|.
edc5c0deSAndrew Turner   The sign_bias argument is SignBias or 0 and sets the sign to -1 or 1.  */
edc5c0deSAndrew Turnerstatic inline svfloat64_t
edc5c0deSAndrew Turnersv_exp_inline (svbool_t pg, svfloat64_t x, svfloat64_t xtail,
9d1de259SAndrew Turner	       svuint64_t sign_bias, const struct data *d)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  /* 3 types of special cases: tiny (uflow and spurious uflow), huge (oflow)
edc5c0deSAndrew Turner     and other cases of large values of x (scale * (1 + TMP) oflow).  */
edc5c0deSAndrew Turner  svuint64_t abstop = svand_x (pg, sv_top12 (x), 0x7ff);
edc5c0deSAndrew Turner  /* |x| is large (|x| >= 512) or tiny (|x| <= 0x1p-54).  */
edc5c0deSAndrew Turner  svbool_t uoflow = svcmpge (pg, svsub_x (pg, abstop, SmallExp), ThresExp);
edc5c0deSAndrew Turner
9d1de259SAndrew Turner  svfloat64_t tmp;
9d1de259SAndrew Turner  svuint64_t sbits, ki;
edc5c0deSAndrew Turner  if (unlikely (svptest_any (pg, uoflow)))
edc5c0deSAndrew Turner    {
9d1de259SAndrew Turner      svfloat64_t z
9d1de259SAndrew Turner	  = sv_exp_core (pg, x, xtail, sign_bias, &tmp, &sbits, &ki, d);
9d1de259SAndrew Turner
edc5c0deSAndrew Turner      /* |x| is tiny (|x| <= 0x1p-54).  */
9d1de259SAndrew Turner      svbool_t uflow
9d1de259SAndrew Turner	  = svcmpge (pg, svsub_x (pg, abstop, SmallExp), 0x80000000);
edc5c0deSAndrew Turner      uflow = svand_z (pg, uoflow, uflow);
edc5c0deSAndrew Turner      /* |x| is huge (|x| >= 1024).  */
9d1de259SAndrew Turner      svbool_t oflow = svcmpge (pg, abstop, HugeExp);
edc5c0deSAndrew Turner      oflow = svand_z (pg, uoflow, svbic_z (pg, oflow, uflow));
9d1de259SAndrew Turner
edc5c0deSAndrew Turner      /* For large |x| values (512 < |x| < 1024) scale * (1 + TMP) can overflow
edc5c0deSAndrew Turner    or underflow.  */
9d1de259SAndrew Turner      svbool_t special = svbic_z (pg, uoflow, svorr_z (pg, uflow, oflow));
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner      /* Update result with special and large cases.  */
edc5c0deSAndrew Turner      z = sv_call_specialcase (tmp, sbits, ki, z, special);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner      /* Handle underflow and overflow.  */
9d1de259SAndrew Turner      svbool_t x_is_neg = svcmplt (pg, x, 0);
9d1de259SAndrew Turner      svuint64_t sign_mask
9d1de259SAndrew Turner	  = svlsl_x (pg, sign_bias, 52 - V_POW_EXP_TABLE_BITS);
9d1de259SAndrew Turner      svfloat64_t res_uoflow
9d1de259SAndrew Turner	  = svsel (x_is_neg, sv_f64 (0.0), sv_f64 (INFINITY));
edc5c0deSAndrew Turner      res_uoflow = svreinterpret_f64 (
edc5c0deSAndrew Turner	  svorr_x (pg, svreinterpret_u64 (res_uoflow), sign_mask));
edc5c0deSAndrew Turner      /* Avoid spurious underflow for tiny x.  */
edc5c0deSAndrew Turner      svfloat64_t res_spurious_uflow
edc5c0deSAndrew Turner	  = svreinterpret_f64 (svorr_x (pg, sign_mask, 0x3ff0000000000000));
edc5c0deSAndrew Turner
9d1de259SAndrew Turner      z = svsel (oflow, res_uoflow, z);
9d1de259SAndrew Turner      z = svsel (uflow, res_spurious_uflow, z);
edc5c0deSAndrew Turner      return z;
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner
9d1de259SAndrew Turner  return sv_exp_core (pg, x, xtail, sign_bias, &tmp, &sbits, &ki, d);
9d1de259SAndrew Turner}
9d1de259SAndrew Turner
edc5c0deSAndrew Turnerstatic inline double
edc5c0deSAndrew Turnerpow_sc (double x, double y)
edc5c0deSAndrew Turner{
edc5c0deSAndrew Turner  uint64_t ix = asuint64 (x);
edc5c0deSAndrew Turner  uint64_t iy = asuint64 (y);
edc5c0deSAndrew Turner  /* Special cases: |x| or |y| is 0, inf or nan.  */
edc5c0deSAndrew Turner  if (unlikely (zeroinfnan (iy)))
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      if (2 * iy == 0)
edc5c0deSAndrew Turner	return issignaling_inline (x) ? x + y : 1.0;
edc5c0deSAndrew Turner      if (ix == asuint64 (1.0))
edc5c0deSAndrew Turner	return issignaling_inline (y) ? x + y : 1.0;
edc5c0deSAndrew Turner      if (2 * ix > 2 * asuint64 (INFINITY) || 2 * iy > 2 * asuint64 (INFINITY))
edc5c0deSAndrew Turner	return x + y;
edc5c0deSAndrew Turner      if (2 * ix == 2 * asuint64 (1.0))
edc5c0deSAndrew Turner	return 1.0;
edc5c0deSAndrew Turner      if ((2 * ix < 2 * asuint64 (1.0)) == !(iy >> 63))
edc5c0deSAndrew Turner	return 0.0; /* |x|<1 && y==inf or |x|>1 && y==-inf.  */
edc5c0deSAndrew Turner      return y * y;
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner  if (unlikely (zeroinfnan (ix)))
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      double_t x2 = x * x;
edc5c0deSAndrew Turner      if (ix >> 63 && checkint (iy) == 1)
edc5c0deSAndrew Turner	x2 = -x2;
9d1de259SAndrew Turner      return (iy >> 63) ? 1 / x2 : x2;
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner  return x;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
edc5c0deSAndrew Turnersvfloat64_t SV_NAME_D2 (pow) (svfloat64_t x, svfloat64_t y, const svbool_t pg)
edc5c0deSAndrew Turner{
9d1de259SAndrew Turner  const struct data *d = ptr_barrier (&data);
9d1de259SAndrew Turner
edc5c0deSAndrew Turner  /* This preamble handles special case conditions used in the final scalar
edc5c0deSAndrew Turner     fallbacks. It also updates ix and sign_bias, that are used in the core
edc5c0deSAndrew Turner     computation too, i.e., exp( y * log (x) ).  */
edc5c0deSAndrew Turner  svuint64_t vix0 = svreinterpret_u64 (x);
edc5c0deSAndrew Turner  svuint64_t viy0 = svreinterpret_u64 (y);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Negative x cases.  */
9d1de259SAndrew Turner  svbool_t xisneg = svcmplt (pg, x, 0);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Set sign_bias and ix depending on sign of x and nature of y.  */
9d1de259SAndrew Turner  svbool_t yint_or_xpos = pg;
edc5c0deSAndrew Turner  svuint64_t sign_bias = sv_u64 (0);
edc5c0deSAndrew Turner  svuint64_t vix = vix0;
edc5c0deSAndrew Turner  if (unlikely (svptest_any (pg, xisneg)))
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      /* Determine nature of y.  */
9d1de259SAndrew Turner      yint_or_xpos = sv_isint (xisneg, y);
edc5c0deSAndrew Turner      svbool_t yisodd_xisneg = sv_isodd (xisneg, y);
edc5c0deSAndrew Turner      /* ix set to abs(ix) if y is integer.  */
9d1de259SAndrew Turner      vix = svand_m (yint_or_xpos, vix0, 0x7fffffffffffffff);
edc5c0deSAndrew Turner      /* Set to SignBias if x is negative and y is odd.  */
edc5c0deSAndrew Turner      sign_bias = svsel (yisodd_xisneg, sv_u64 (SignBias), sv_u64 (0));
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Small cases of x: |x| < 0x1p-126.  */
9d1de259SAndrew Turner  svbool_t xsmall = svaclt (yint_or_xpos, x, SmallBoundX);
9d1de259SAndrew Turner  if (unlikely (svptest_any (yint_or_xpos, xsmall)))
edc5c0deSAndrew Turner    {
edc5c0deSAndrew Turner      /* Normalize subnormal x so exponent becomes negative.  */
9d1de259SAndrew Turner      svuint64_t vtopx = svlsr_x (svptrue_b64 (), vix, 52);
9d1de259SAndrew Turner      svbool_t topx_is_null = svcmpeq (xsmall, vtopx, 0);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner      svuint64_t vix_norm = svreinterpret_u64 (svmul_m (xsmall, x, 0x1p52));
edc5c0deSAndrew Turner      vix_norm = svand_m (xsmall, vix_norm, 0x7fffffffffffffff);
edc5c0deSAndrew Turner      vix_norm = svsub_m (xsmall, vix_norm, 52ULL << 52);
edc5c0deSAndrew Turner      vix = svsel (topx_is_null, vix_norm, vix);
edc5c0deSAndrew Turner    }
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* y_hi = log(ix, &y_lo).  */
edc5c0deSAndrew Turner  svfloat64_t vlo;
9d1de259SAndrew Turner  svfloat64_t vhi = sv_log_inline (yint_or_xpos, vix, &vlo, d);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* z = exp(y_hi, y_lo, sign_bias).  */
9d1de259SAndrew Turner  svfloat64_t vehi = svmul_x (svptrue_b64 (), y, vhi);
9d1de259SAndrew Turner  svfloat64_t vemi = svmls_x (yint_or_xpos, vehi, y, vhi);
9d1de259SAndrew Turner  svfloat64_t velo = svnmls_x (yint_or_xpos, vemi, y, vlo);
9d1de259SAndrew Turner  svfloat64_t vz = sv_exp_inline (yint_or_xpos, vehi, velo, sign_bias, d);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Cases of finite y and finite negative x.  */
9d1de259SAndrew Turner  vz = svsel (yint_or_xpos, vz, sv_f64 (__builtin_nan ("")));
9d1de259SAndrew Turner
9d1de259SAndrew Turner  /* Special cases of x or y: zero, inf and nan.  */
9d1de259SAndrew Turner  svbool_t xspecial = sv_zeroinfnan (svptrue_b64 (), vix0);
9d1de259SAndrew Turner  svbool_t yspecial = sv_zeroinfnan (svptrue_b64 (), viy0);
9d1de259SAndrew Turner  svbool_t special = svorr_z (svptrue_b64 (), xspecial, yspecial);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  /* Cases of zero/inf/nan x or y.  */
9d1de259SAndrew Turner  if (unlikely (svptest_any (svptrue_b64 (), special)))
edc5c0deSAndrew Turner    vz = sv_call2_f64 (pow_sc, x, y, vz, special);
edc5c0deSAndrew Turner
edc5c0deSAndrew Turner  return vz;
edc5c0deSAndrew Turner}
edc5c0deSAndrew Turner
9d1de259SAndrew TurnerTEST_SIG (SV, D, 2, pow)
9d1de259SAndrew TurnerTEST_ULP (SV_NAME_D2 (pow), 0.55)
9d1de259SAndrew TurnerTEST_DISABLE_FENV (SV_NAME_D2 (pow))
edc5c0deSAndrew Turner/* Wide intervals spanning the whole domain but shared between x and y.  */
edc5c0deSAndrew Turner#define SV_POW_INTERVAL2(xlo, xhi, ylo, yhi, n)                               \
9d1de259SAndrew Turner  TEST_INTERVAL2 (SV_NAME_D2 (pow), xlo, xhi, ylo, yhi, n)                    \
9d1de259SAndrew Turner  TEST_INTERVAL2 (SV_NAME_D2 (pow), xlo, xhi, -ylo, -yhi, n)                  \
9d1de259SAndrew Turner  TEST_INTERVAL2 (SV_NAME_D2 (pow), -xlo, -xhi, ylo, yhi, n)                  \
9d1de259SAndrew Turner  TEST_INTERVAL2 (SV_NAME_D2 (pow), -xlo, -xhi, -ylo, -yhi, n)
edc5c0deSAndrew Turner#define EXPAND(str) str##000000000
edc5c0deSAndrew Turner#define SHL52(str) EXPAND (str)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0, SHL52 (SmallPowX), 0, inf, 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (SHL52 (SmallPowX), SHL52 (BigPowX), 0, inf, 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (SHL52 (BigPowX), inf, 0, inf, 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0, inf, 0, SHL52 (SmallPowY), 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0, inf, SHL52 (SmallPowY), SHL52 (BigPowY), 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0, inf, SHL52 (BigPowY), inf, 40000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0, inf, 0, inf, 1000)
edc5c0deSAndrew Turner/* x~1 or y~1.  */
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0x1p-1, 0x1p1, 0x1p-10, 0x1p10, 10000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0x1.ep-1, 0x1.1p0, 0x1p8, 0x1p16, 10000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0x1p-500, 0x1p500, 0x1p-1, 0x1p1, 10000)
edc5c0deSAndrew Turner/* around estimated argmaxs of ULP error.  */
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0x1p-300, 0x1p-200, 0x1p-20, 0x1p-10, 10000)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0x1p50, 0x1p100, 0x1p-20, 0x1p-10, 10000)
edc5c0deSAndrew Turner/* x is negative, y is odd or even integer, or y is real not integer.  */
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), -0.0, -10.0, 3.0, 3.0, 10000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), -0.0, -10.0, 4.0, 4.0, 10000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), -0.0, -10.0, 0.0, 10.0, 10000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), 0.0, 10.0, -0.0, -10.0, 10000)
edc5c0deSAndrew Turner/* |x| is inf, y is odd or even integer, or y is real not integer.  */
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (inf, inf, 0.5, 0.5, 1)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (inf, inf, 1.0, 1.0, 1)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (inf, inf, 2.0, 2.0, 1)
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (inf, inf, 3.0, 3.0, 1)
edc5c0deSAndrew Turner/* 0.0^y.  */
edc5c0deSAndrew TurnerSV_POW_INTERVAL2 (0.0, 0.0, 0.0, 0x1p120, 1000)
edc5c0deSAndrew Turner/* 1.0^y.  */
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), 1.0, 1.0, 0.0, 0x1p-50, 1000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), 1.0, 1.0, 0x1p-50, 1.0, 1000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), 1.0, 1.0, 1.0, 0x1p100, 1000)
9d1de259SAndrew TurnerTEST_INTERVAL2 (SV_NAME_D2 (pow), 1.0, 1.0, -1.0, -0x1p120, 1000)
9d1de259SAndrew TurnerCLOSE_SVE_ATTR