1a4f3ed62SAlex Bennée /*
2a4f3ed62SAlex Bennée * Common Float Helpers
3a4f3ed62SAlex Bennée *
4a4f3ed62SAlex Bennée * This contains a series of useful utility routines and a set of
5a4f3ed62SAlex Bennée * floating point constants useful for exercising the edge cases in
6a4f3ed62SAlex Bennée * floating point tests.
7a4f3ed62SAlex Bennée *
8*542b10bdSAlex Bennée * Copyright (c) 2019, 2024 Linaro
9a4f3ed62SAlex Bennée *
10*542b10bdSAlex Bennée * SPDX-License-Identifier: GPL-2.0-or-later
11a4f3ed62SAlex Bennée */
12a4f3ed62SAlex Bennée
13a4f3ed62SAlex Bennée /* we want additional float type definitions */
14a4f3ed62SAlex Bennée #define __STDC_WANT_IEC_60559_BFP_EXT__
15a4f3ed62SAlex Bennée #define __STDC_WANT_IEC_60559_TYPES_EXT__
16a4f3ed62SAlex Bennée
17a4f3ed62SAlex Bennée #define _GNU_SOURCE
18a4f3ed62SAlex Bennée #include <stdio.h>
19a4f3ed62SAlex Bennée #include <stdlib.h>
20a4f3ed62SAlex Bennée #include <inttypes.h>
21a4f3ed62SAlex Bennée #include <math.h>
22a4f3ed62SAlex Bennée #include <float.h>
23a4f3ed62SAlex Bennée #include <fenv.h>
24a4f3ed62SAlex Bennée
255343a837SAlex Bennée #include "../float_helpers.h"
26a4f3ed62SAlex Bennée
27a4f3ed62SAlex Bennée #define ARRAY_SIZE(x) (sizeof(x) / sizeof((x)[0]))
28a4f3ed62SAlex Bennée
29a4f3ed62SAlex Bennée /*
30a4f3ed62SAlex Bennée * Half Precision Numbers
31a4f3ed62SAlex Bennée *
32a4f3ed62SAlex Bennée * Not yet well standardised so we return a plain uint16_t for now.
33a4f3ed62SAlex Bennée */
34a4f3ed62SAlex Bennée
35a4f3ed62SAlex Bennée /* no handy defines for these numbers */
36a4f3ed62SAlex Bennée static uint16_t f16_numbers[] = {
37a4f3ed62SAlex Bennée 0xffff, /* -NaN / AHP -Max */
38a4f3ed62SAlex Bennée 0xfcff, /* -NaN / AHP */
39a4f3ed62SAlex Bennée 0xfc01, /* -NaN / AHP */
40a4f3ed62SAlex Bennée 0xfc00, /* -Inf */
41a4f3ed62SAlex Bennée 0xfbff, /* -Max */
42a4f3ed62SAlex Bennée 0xc000, /* -2 */
43a4f3ed62SAlex Bennée 0xbc00, /* -1 */
44a4f3ed62SAlex Bennée 0x8001, /* -MIN subnormal */
45a4f3ed62SAlex Bennée 0x8000, /* -0 */
46a4f3ed62SAlex Bennée 0x0000, /* +0 */
47a4f3ed62SAlex Bennée 0x0001, /* MIN subnormal */
48a4f3ed62SAlex Bennée 0x3c00, /* 1 */
49a4f3ed62SAlex Bennée 0x7bff, /* Max */
50a4f3ed62SAlex Bennée 0x7c00, /* Inf */
51a4f3ed62SAlex Bennée 0x7c01, /* NaN / AHP */
52a4f3ed62SAlex Bennée 0x7cff, /* NaN / AHP */
53a4f3ed62SAlex Bennée 0x7fff, /* NaN / AHP +Max*/
54a4f3ed62SAlex Bennée };
55a4f3ed62SAlex Bennée
56a4f3ed62SAlex Bennée static const int num_f16 = ARRAY_SIZE(f16_numbers);
57a4f3ed62SAlex Bennée
get_num_f16(void)58a4f3ed62SAlex Bennée int get_num_f16(void)
59a4f3ed62SAlex Bennée {
60a4f3ed62SAlex Bennée return num_f16;
61a4f3ed62SAlex Bennée }
62a4f3ed62SAlex Bennée
get_f16(int i)63a4f3ed62SAlex Bennée uint16_t get_f16(int i)
64a4f3ed62SAlex Bennée {
65a4f3ed62SAlex Bennée return f16_numbers[i % num_f16];
66a4f3ed62SAlex Bennée }
67a4f3ed62SAlex Bennée
68a4f3ed62SAlex Bennée /* only display as hex */
fmt_16(uint16_t num)69a4f3ed62SAlex Bennée char *fmt_16(uint16_t num)
70a4f3ed62SAlex Bennée {
71a4f3ed62SAlex Bennée char *fmt;
72a4f3ed62SAlex Bennée asprintf(&fmt, "f16(%#04x)", num);
73a4f3ed62SAlex Bennée return fmt;
74a4f3ed62SAlex Bennée }
75a4f3ed62SAlex Bennée
76a4f3ed62SAlex Bennée /*
77a4f3ed62SAlex Bennée * Single Precision Numbers
78a4f3ed62SAlex Bennée */
79a4f3ed62SAlex Bennée
80a4f3ed62SAlex Bennée #ifndef SNANF
81a4f3ed62SAlex Bennée /* Signaling NaN macros, if supported. */
82a4f3ed62SAlex Bennée # define SNANF (__builtin_nansf (""))
83a4f3ed62SAlex Bennée # define SNAN (__builtin_nans (""))
84a4f3ed62SAlex Bennée # define SNANL (__builtin_nansl (""))
85a4f3ed62SAlex Bennée #endif
86a4f3ed62SAlex Bennée
87a4f3ed62SAlex Bennée static float f32_numbers[] = {
88a4f3ed62SAlex Bennée -SNANF,
89a4f3ed62SAlex Bennée -NAN,
90a4f3ed62SAlex Bennée -INFINITY,
91a4f3ed62SAlex Bennée -FLT_MAX,
92a4f3ed62SAlex Bennée -0x1.1874b2p+103,
93a4f3ed62SAlex Bennée -0x1.c0bab6p+99,
94a4f3ed62SAlex Bennée -0x1.31f75p-40,
95a4f3ed62SAlex Bennée -0x1.505444p-66,
96a4f3ed62SAlex Bennée -FLT_MIN,
97a4f3ed62SAlex Bennée 0.0,
98a4f3ed62SAlex Bennée FLT_MIN,
99a4f3ed62SAlex Bennée 0x1p-25,
100a4f3ed62SAlex Bennée 0x1.ffffe6p-25, /* min positive FP16 subnormal */
101a4f3ed62SAlex Bennée 0x1.ff801ap-15, /* max subnormal FP16 */
102a4f3ed62SAlex Bennée 0x1.00000cp-14, /* min positive normal FP16 */
103a4f3ed62SAlex Bennée 1.0,
104a4f3ed62SAlex Bennée 0x1.004p+0, /* smallest float after 1.0 FP16 */
105a4f3ed62SAlex Bennée 2.0,
106a4f3ed62SAlex Bennée M_E, M_PI,
107a4f3ed62SAlex Bennée 0x1.ffbep+15,
108a4f3ed62SAlex Bennée 0x1.ffcp+15, /* max FP16 */
109a4f3ed62SAlex Bennée 0x1.ffc2p+15,
110a4f3ed62SAlex Bennée 0x1.ffbfp+16,
111a4f3ed62SAlex Bennée 0x1.ffcp+16, /* max AFP */
112a4f3ed62SAlex Bennée 0x1.ffc1p+16,
113a4f3ed62SAlex Bennée 0x1.c0bab6p+99,
114a4f3ed62SAlex Bennée FLT_MAX,
115a4f3ed62SAlex Bennée INFINITY,
116a4f3ed62SAlex Bennée NAN,
117a4f3ed62SAlex Bennée SNANF
118a4f3ed62SAlex Bennée };
119a4f3ed62SAlex Bennée
120a4f3ed62SAlex Bennée static const int num_f32 = ARRAY_SIZE(f32_numbers);
121a4f3ed62SAlex Bennée
get_num_f32(void)122a4f3ed62SAlex Bennée int get_num_f32(void)
123a4f3ed62SAlex Bennée {
124a4f3ed62SAlex Bennée return num_f32;
125a4f3ed62SAlex Bennée }
126a4f3ed62SAlex Bennée
get_f32(int i)127a4f3ed62SAlex Bennée float get_f32(int i)
128a4f3ed62SAlex Bennée {
129a4f3ed62SAlex Bennée return f32_numbers[i % num_f32];
130a4f3ed62SAlex Bennée }
131a4f3ed62SAlex Bennée
fmt_f32(float num)132a4f3ed62SAlex Bennée char *fmt_f32(float num)
133a4f3ed62SAlex Bennée {
134a4f3ed62SAlex Bennée uint32_t single_as_hex = *(uint32_t *) #
135a4f3ed62SAlex Bennée char *fmt;
136a4f3ed62SAlex Bennée asprintf(&fmt, "f32(%02.20a:%#010x)", num, single_as_hex);
137a4f3ed62SAlex Bennée return fmt;
138a4f3ed62SAlex Bennée }
139a4f3ed62SAlex Bennée
140a4f3ed62SAlex Bennée
141a4f3ed62SAlex Bennée /* This allows us to initialise some doubles as pure hex */
142a4f3ed62SAlex Bennée typedef union {
143a4f3ed62SAlex Bennée double d;
144a4f3ed62SAlex Bennée uint64_t h;
145a4f3ed62SAlex Bennée } test_doubles;
146a4f3ed62SAlex Bennée
147a4f3ed62SAlex Bennée static test_doubles f64_numbers[] = {
148a4f3ed62SAlex Bennée {SNAN},
149a4f3ed62SAlex Bennée {-NAN},
150a4f3ed62SAlex Bennée {-INFINITY},
151a4f3ed62SAlex Bennée {-DBL_MAX},
152a4f3ed62SAlex Bennée {-FLT_MAX-1.0},
153a4f3ed62SAlex Bennée {-FLT_MAX},
154a4f3ed62SAlex Bennée {-1.111E+31},
155a4f3ed62SAlex Bennée {-1.111E+30}, /* half prec */
156a4f3ed62SAlex Bennée {-2.0}, {-1.0},
157a4f3ed62SAlex Bennée {-DBL_MIN},
158a4f3ed62SAlex Bennée {-FLT_MIN},
159a4f3ed62SAlex Bennée {0.0},
160a4f3ed62SAlex Bennée {FLT_MIN},
161a4f3ed62SAlex Bennée {2.98023224e-08},
162a4f3ed62SAlex Bennée {5.96046E-8}, /* min positive FP16 subnormal */
163a4f3ed62SAlex Bennée {6.09756E-5}, /* max subnormal FP16 */
164a4f3ed62SAlex Bennée {6.10352E-5}, /* min positive normal FP16 */
165a4f3ed62SAlex Bennée {1.0},
166a4f3ed62SAlex Bennée {1.0009765625}, /* smallest float after 1.0 FP16 */
167a4f3ed62SAlex Bennée {DBL_MIN},
168a4f3ed62SAlex Bennée {1.3789972848607228e-308},
169a4f3ed62SAlex Bennée {1.4914738736681624e-308},
170a4f3ed62SAlex Bennée {1.0}, {2.0},
171a4f3ed62SAlex Bennée {M_E}, {M_PI},
172a4f3ed62SAlex Bennée {65503.0},
173a4f3ed62SAlex Bennée {65504.0}, /* max FP16 */
174a4f3ed62SAlex Bennée {65505.0},
175a4f3ed62SAlex Bennée {131007.0},
176a4f3ed62SAlex Bennée {131008.0}, /* max AFP */
177a4f3ed62SAlex Bennée {131009.0},
178a4f3ed62SAlex Bennée {.h = 0x41dfffffffc00000 }, /* to int = 0x7fffffff */
179a4f3ed62SAlex Bennée {FLT_MAX},
180a4f3ed62SAlex Bennée {FLT_MAX + 1.0},
181a4f3ed62SAlex Bennée {DBL_MAX},
182a4f3ed62SAlex Bennée {INFINITY},
183a4f3ed62SAlex Bennée {NAN},
184a4f3ed62SAlex Bennée {.h = 0x7ff0000000000001}, /* SNAN */
185a4f3ed62SAlex Bennée {SNAN},
186a4f3ed62SAlex Bennée };
187a4f3ed62SAlex Bennée
188a4f3ed62SAlex Bennée static const int num_f64 = ARRAY_SIZE(f64_numbers);
189a4f3ed62SAlex Bennée
get_num_f64(void)190a4f3ed62SAlex Bennée int get_num_f64(void)
191a4f3ed62SAlex Bennée {
192a4f3ed62SAlex Bennée return num_f64;
193a4f3ed62SAlex Bennée }
194a4f3ed62SAlex Bennée
get_f64(int i)195a4f3ed62SAlex Bennée double get_f64(int i)
196a4f3ed62SAlex Bennée {
197a4f3ed62SAlex Bennée return f64_numbers[i % num_f64].d;
198a4f3ed62SAlex Bennée }
199a4f3ed62SAlex Bennée
fmt_f64(double num)200a4f3ed62SAlex Bennée char *fmt_f64(double num)
201a4f3ed62SAlex Bennée {
202a4f3ed62SAlex Bennée uint64_t double_as_hex = *(uint64_t *) #
203a4f3ed62SAlex Bennée char *fmt;
204a4f3ed62SAlex Bennée asprintf(&fmt, "f64(%02.20a:%#020" PRIx64 ")", num, double_as_hex);
205a4f3ed62SAlex Bennée return fmt;
206a4f3ed62SAlex Bennée }
207a4f3ed62SAlex Bennée
208a4f3ed62SAlex Bennée /*
209a4f3ed62SAlex Bennée * Float flags
210a4f3ed62SAlex Bennée */
fmt_flags(void)211a4f3ed62SAlex Bennée char *fmt_flags(void)
212a4f3ed62SAlex Bennée {
213a4f3ed62SAlex Bennée int flags = fetestexcept(FE_ALL_EXCEPT);
214a4f3ed62SAlex Bennée char *fmt;
215a4f3ed62SAlex Bennée
216a4f3ed62SAlex Bennée if (flags) {
217a4f3ed62SAlex Bennée asprintf(&fmt, "%s%s%s%s%s",
218a4f3ed62SAlex Bennée flags & FE_OVERFLOW ? "OVERFLOW " : "",
219a4f3ed62SAlex Bennée flags & FE_UNDERFLOW ? "UNDERFLOW " : "",
220a4f3ed62SAlex Bennée flags & FE_DIVBYZERO ? "DIV0 " : "",
221a4f3ed62SAlex Bennée flags & FE_INEXACT ? "INEXACT " : "",
222a4f3ed62SAlex Bennée flags & FE_INVALID ? "INVALID" : "");
223a4f3ed62SAlex Bennée } else {
224a4f3ed62SAlex Bennée asprintf(&fmt, "OK");
225a4f3ed62SAlex Bennée }
226a4f3ed62SAlex Bennée
227a4f3ed62SAlex Bennée return fmt;
228a4f3ed62SAlex Bennée }
229