xref: /linux/io_uring/bpf_filter.c (revision e67bf352a0847a65a157d5b02a6024c65a781e08)
1d42eb05eSJens Axboe // SPDX-License-Identifier: GPL-2.0
2d42eb05eSJens Axboe /*
3d42eb05eSJens Axboe  * BPF filter support for io_uring. Supports SQE opcodes for now.
4d42eb05eSJens Axboe  */
5d42eb05eSJens Axboe #include <linux/kernel.h>
6d42eb05eSJens Axboe #include <linux/errno.h>
7d42eb05eSJens Axboe #include <linux/io_uring.h>
8d42eb05eSJens Axboe #include <linux/filter.h>
9d42eb05eSJens Axboe #include <linux/bpf.h>
10d42eb05eSJens Axboe #include <uapi/linux/io_uring.h>
11d42eb05eSJens Axboe 
12d42eb05eSJens Axboe #include "io_uring.h"
13d42eb05eSJens Axboe #include "bpf_filter.h"
14d42eb05eSJens Axboe #include "net.h"
158768770cSJens Axboe #include "openclose.h"
16d42eb05eSJens Axboe 
17d42eb05eSJens Axboe struct io_bpf_filter {
18e7f67c2bSJens Axboe 	refcount_t		refs;
19d42eb05eSJens Axboe 	struct bpf_prog		*prog;
20d42eb05eSJens Axboe 	struct io_bpf_filter	*next;
21d42eb05eSJens Axboe };
22d42eb05eSJens Axboe 
23d42eb05eSJens Axboe /* Deny if this is set as the filter */
24d42eb05eSJens Axboe static const struct io_bpf_filter dummy_filter;
25d42eb05eSJens Axboe 
io_uring_populate_bpf_ctx(struct io_uring_bpf_ctx * bctx,struct io_kiocb * req)26d42eb05eSJens Axboe static void io_uring_populate_bpf_ctx(struct io_uring_bpf_ctx *bctx,
27d42eb05eSJens Axboe 				      struct io_kiocb *req)
28d42eb05eSJens Axboe {
29d21c3621SJens Axboe 	const struct io_issue_def *def = &io_issue_defs[req->opcode];
30d21c3621SJens Axboe 
31d42eb05eSJens Axboe 	bctx->opcode = req->opcode;
32d42eb05eSJens Axboe 	bctx->sqe_flags = (__force int) req->flags & SQE_VALID_FLAGS;
33d42eb05eSJens Axboe 	bctx->user_data = req->cqe.user_data;
34d42eb05eSJens Axboe 	/* clear residual, anything from pdu_size and below */
35d42eb05eSJens Axboe 	memset((void *) bctx + offsetof(struct io_uring_bpf_ctx, pdu_size), 0,
36d42eb05eSJens Axboe 		sizeof(*bctx) - offsetof(struct io_uring_bpf_ctx, pdu_size));
37cff1c26bSJens Axboe 
38cff1c26bSJens Axboe 	/*
39d21c3621SJens Axboe 	 * Opcodes can provide a handler for populating more data into bctx,
40cff1c26bSJens Axboe 	 * for filters to use.
41cff1c26bSJens Axboe 	 */
42d21c3621SJens Axboe 	if (def->filter_pdu_size) {
43d21c3621SJens Axboe 		bctx->pdu_size = def->filter_pdu_size;
44d21c3621SJens Axboe 		def->filter_populate(bctx, req);
45cff1c26bSJens Axboe 	}
46d42eb05eSJens Axboe }
47d42eb05eSJens Axboe 
48d42eb05eSJens Axboe /*
49d42eb05eSJens Axboe  * Run registered filters for a given opcode. For filters, a return of 0 denies
50d42eb05eSJens Axboe  * execution of the request, a return of 1 allows it. If any filter for an
51d42eb05eSJens Axboe  * opcode returns 0, filter processing is stopped, and the request is denied.
52d42eb05eSJens Axboe  * This also stops the processing of filters.
53d42eb05eSJens Axboe  *
54d42eb05eSJens Axboe  * __io_uring_run_bpf_filters() returns 0 on success, allow running the
55d42eb05eSJens Axboe  * request, and -EACCES when a request is denied.
56d42eb05eSJens Axboe  */
__io_uring_run_bpf_filters(struct io_bpf_filter __rcu ** filters,struct io_kiocb * req)57e7c30675SJens Axboe int __io_uring_run_bpf_filters(struct io_bpf_filter __rcu **filters,
58e7c30675SJens Axboe 			       struct io_kiocb *req)
59d42eb05eSJens Axboe {
60d42eb05eSJens Axboe 	struct io_bpf_filter *filter;
61d42eb05eSJens Axboe 	struct io_uring_bpf_ctx bpf_ctx;
62d42eb05eSJens Axboe 	int ret;
63d42eb05eSJens Axboe 
64d42eb05eSJens Axboe 	/* Fast check for existence of filters outside of RCU */
65e7c30675SJens Axboe 	if (!rcu_access_pointer(filters[req->opcode]))
66d42eb05eSJens Axboe 		return 0;
67d42eb05eSJens Axboe 
68d42eb05eSJens Axboe 	/*
69d42eb05eSJens Axboe 	 * req->opcode has already been validated to be within the range
70d42eb05eSJens Axboe 	 * of what we expect, io_init_req() does this.
71d42eb05eSJens Axboe 	 */
72d42eb05eSJens Axboe 	guard(rcu)();
73e7c30675SJens Axboe 	filter = rcu_dereference(filters[req->opcode]);
74d42eb05eSJens Axboe 	if (!filter)
75d42eb05eSJens Axboe 		return 0;
76d42eb05eSJens Axboe 	else if (filter == &dummy_filter)
77d42eb05eSJens Axboe 		return -EACCES;
78d42eb05eSJens Axboe 
79d42eb05eSJens Axboe 	io_uring_populate_bpf_ctx(&bpf_ctx, req);
80d42eb05eSJens Axboe 
81d42eb05eSJens Axboe 	/*
82d42eb05eSJens Axboe 	 * Iterate registered filters. The opcode is allowed IFF all filters
83d42eb05eSJens Axboe 	 * return 1. If any filter returns denied, opcode will be denied.
84d42eb05eSJens Axboe 	 */
85d42eb05eSJens Axboe 	do {
86d42eb05eSJens Axboe 		if (filter == &dummy_filter)
87d42eb05eSJens Axboe 			return -EACCES;
88*785d4625SJens Axboe 		ret = bpf_prog_run_pin_on_cpu(filter->prog, &bpf_ctx);
89d42eb05eSJens Axboe 		if (!ret)
90d42eb05eSJens Axboe 			return -EACCES;
91d42eb05eSJens Axboe 		filter = filter->next;
92d42eb05eSJens Axboe 	} while (filter);
93d42eb05eSJens Axboe 
94d42eb05eSJens Axboe 	return 0;
95d42eb05eSJens Axboe }
96d42eb05eSJens Axboe 
io_free_bpf_filters(struct rcu_head * head)97d42eb05eSJens Axboe static void io_free_bpf_filters(struct rcu_head *head)
98d42eb05eSJens Axboe {
99d42eb05eSJens Axboe 	struct io_bpf_filter __rcu **filter;
100d42eb05eSJens Axboe 	struct io_bpf_filters *filters;
101d42eb05eSJens Axboe 	int i;
102d42eb05eSJens Axboe 
103d42eb05eSJens Axboe 	filters = container_of(head, struct io_bpf_filters, rcu_head);
104d42eb05eSJens Axboe 	scoped_guard(spinlock, &filters->lock) {
105d42eb05eSJens Axboe 		filter = filters->filters;
106d42eb05eSJens Axboe 		if (!filter)
107d42eb05eSJens Axboe 			return;
108d42eb05eSJens Axboe 	}
109d42eb05eSJens Axboe 
110d42eb05eSJens Axboe 	for (i = 0; i < IORING_OP_LAST; i++) {
111d42eb05eSJens Axboe 		struct io_bpf_filter *f;
112d42eb05eSJens Axboe 
113d42eb05eSJens Axboe 		rcu_read_lock();
114d42eb05eSJens Axboe 		f = rcu_dereference(filter[i]);
115d42eb05eSJens Axboe 		while (f) {
116d42eb05eSJens Axboe 			struct io_bpf_filter *next = f->next;
117d42eb05eSJens Axboe 
118d42eb05eSJens Axboe 			/*
119d42eb05eSJens Axboe 			 * Even if stacked, dummy filter will always be last
120d42eb05eSJens Axboe 			 * as it can only get installed into an empty spot.
121d42eb05eSJens Axboe 			 */
122d42eb05eSJens Axboe 			if (f == &dummy_filter)
123d42eb05eSJens Axboe 				break;
124e7f67c2bSJens Axboe 
125e7f67c2bSJens Axboe 			/* Someone still holds a ref, stop iterating. */
126e7f67c2bSJens Axboe 			if (!refcount_dec_and_test(&f->refs))
127e7f67c2bSJens Axboe 				break;
128e7f67c2bSJens Axboe 
129d42eb05eSJens Axboe 			bpf_prog_destroy(f->prog);
130d42eb05eSJens Axboe 			kfree(f);
131d42eb05eSJens Axboe 			f = next;
132d42eb05eSJens Axboe 		}
133d42eb05eSJens Axboe 		rcu_read_unlock();
134d42eb05eSJens Axboe 	}
135d42eb05eSJens Axboe 	kfree(filters->filters);
136d42eb05eSJens Axboe 	kfree(filters);
137d42eb05eSJens Axboe }
138d42eb05eSJens Axboe 
__io_put_bpf_filters(struct io_bpf_filters * filters)139d42eb05eSJens Axboe static void __io_put_bpf_filters(struct io_bpf_filters *filters)
140d42eb05eSJens Axboe {
141d42eb05eSJens Axboe 	if (refcount_dec_and_test(&filters->refs))
142d42eb05eSJens Axboe 		call_rcu(&filters->rcu_head, io_free_bpf_filters);
143d42eb05eSJens Axboe }
144d42eb05eSJens Axboe 
io_put_bpf_filters(struct io_restriction * res)145d42eb05eSJens Axboe void io_put_bpf_filters(struct io_restriction *res)
146d42eb05eSJens Axboe {
147d42eb05eSJens Axboe 	if (res->bpf_filters)
148d42eb05eSJens Axboe 		__io_put_bpf_filters(res->bpf_filters);
149d42eb05eSJens Axboe }
150d42eb05eSJens Axboe 
io_new_bpf_filters(void)151d42eb05eSJens Axboe static struct io_bpf_filters *io_new_bpf_filters(void)
152d42eb05eSJens Axboe {
153d42eb05eSJens Axboe 	struct io_bpf_filters *filters __free(kfree) = NULL;
154d42eb05eSJens Axboe 
15569050f8dSKees Cook 	filters = kzalloc_obj(*filters, GFP_KERNEL_ACCOUNT);
156d42eb05eSJens Axboe 	if (!filters)
157d42eb05eSJens Axboe 		return ERR_PTR(-ENOMEM);
158d42eb05eSJens Axboe 
15969050f8dSKees Cook 	filters->filters = kzalloc_objs(struct io_bpf_filter *, IORING_OP_LAST,
160d42eb05eSJens Axboe 					GFP_KERNEL_ACCOUNT);
161d42eb05eSJens Axboe 	if (!filters->filters)
162d42eb05eSJens Axboe 		return ERR_PTR(-ENOMEM);
163d42eb05eSJens Axboe 
164d42eb05eSJens Axboe 	refcount_set(&filters->refs, 1);
165d42eb05eSJens Axboe 	spin_lock_init(&filters->lock);
166d42eb05eSJens Axboe 	return no_free_ptr(filters);
167d42eb05eSJens Axboe }
168d42eb05eSJens Axboe 
169d42eb05eSJens Axboe /*
170d42eb05eSJens Axboe  * Validate classic BPF filter instructions. Only allow a safe subset of
171d42eb05eSJens Axboe  * operations - no packet data access, just context field loads and basic
172d42eb05eSJens Axboe  * ALU/jump operations.
173d42eb05eSJens Axboe  */
io_uring_check_cbpf_filter(struct sock_filter * filter,unsigned int flen)174d42eb05eSJens Axboe static int io_uring_check_cbpf_filter(struct sock_filter *filter,
175d42eb05eSJens Axboe 				      unsigned int flen)
176d42eb05eSJens Axboe {
177d42eb05eSJens Axboe 	int pc;
178d42eb05eSJens Axboe 
179d42eb05eSJens Axboe 	for (pc = 0; pc < flen; pc++) {
180d42eb05eSJens Axboe 		struct sock_filter *ftest = &filter[pc];
181d42eb05eSJens Axboe 		u16 code = ftest->code;
182d42eb05eSJens Axboe 		u32 k = ftest->k;
183d42eb05eSJens Axboe 
184d42eb05eSJens Axboe 		switch (code) {
185d42eb05eSJens Axboe 		case BPF_LD | BPF_W | BPF_ABS:
186d42eb05eSJens Axboe 			ftest->code = BPF_LDX | BPF_W | BPF_ABS;
187d42eb05eSJens Axboe 			/* 32-bit aligned and not out of bounds. */
188d42eb05eSJens Axboe 			if (k >= sizeof(struct io_uring_bpf_ctx) || k & 3)
189d42eb05eSJens Axboe 				return -EINVAL;
190d42eb05eSJens Axboe 			continue;
191d42eb05eSJens Axboe 		case BPF_LD | BPF_W | BPF_LEN:
192d42eb05eSJens Axboe 			ftest->code = BPF_LD | BPF_IMM;
193d42eb05eSJens Axboe 			ftest->k = sizeof(struct io_uring_bpf_ctx);
194d42eb05eSJens Axboe 			continue;
195d42eb05eSJens Axboe 		case BPF_LDX | BPF_W | BPF_LEN:
196d42eb05eSJens Axboe 			ftest->code = BPF_LDX | BPF_IMM;
197d42eb05eSJens Axboe 			ftest->k = sizeof(struct io_uring_bpf_ctx);
198d42eb05eSJens Axboe 			continue;
199d42eb05eSJens Axboe 		/* Explicitly include allowed calls. */
200d42eb05eSJens Axboe 		case BPF_RET | BPF_K:
201d42eb05eSJens Axboe 		case BPF_RET | BPF_A:
202d42eb05eSJens Axboe 		case BPF_ALU | BPF_ADD | BPF_K:
203d42eb05eSJens Axboe 		case BPF_ALU | BPF_ADD | BPF_X:
204d42eb05eSJens Axboe 		case BPF_ALU | BPF_SUB | BPF_K:
205d42eb05eSJens Axboe 		case BPF_ALU | BPF_SUB | BPF_X:
206d42eb05eSJens Axboe 		case BPF_ALU | BPF_MUL | BPF_K:
207d42eb05eSJens Axboe 		case BPF_ALU | BPF_MUL | BPF_X:
208d42eb05eSJens Axboe 		case BPF_ALU | BPF_DIV | BPF_K:
209d42eb05eSJens Axboe 		case BPF_ALU | BPF_DIV | BPF_X:
210d42eb05eSJens Axboe 		case BPF_ALU | BPF_AND | BPF_K:
211d42eb05eSJens Axboe 		case BPF_ALU | BPF_AND | BPF_X:
212d42eb05eSJens Axboe 		case BPF_ALU | BPF_OR | BPF_K:
213d42eb05eSJens Axboe 		case BPF_ALU | BPF_OR | BPF_X:
214d42eb05eSJens Axboe 		case BPF_ALU | BPF_XOR | BPF_K:
215d42eb05eSJens Axboe 		case BPF_ALU | BPF_XOR | BPF_X:
216d42eb05eSJens Axboe 		case BPF_ALU | BPF_LSH | BPF_K:
217d42eb05eSJens Axboe 		case BPF_ALU | BPF_LSH | BPF_X:
218d42eb05eSJens Axboe 		case BPF_ALU | BPF_RSH | BPF_K:
219d42eb05eSJens Axboe 		case BPF_ALU | BPF_RSH | BPF_X:
220d42eb05eSJens Axboe 		case BPF_ALU | BPF_NEG:
221d42eb05eSJens Axboe 		case BPF_LD | BPF_IMM:
222d42eb05eSJens Axboe 		case BPF_LDX | BPF_IMM:
223d42eb05eSJens Axboe 		case BPF_MISC | BPF_TAX:
224d42eb05eSJens Axboe 		case BPF_MISC | BPF_TXA:
225d42eb05eSJens Axboe 		case BPF_LD | BPF_MEM:
226d42eb05eSJens Axboe 		case BPF_LDX | BPF_MEM:
227d42eb05eSJens Axboe 		case BPF_ST:
228d42eb05eSJens Axboe 		case BPF_STX:
229d42eb05eSJens Axboe 		case BPF_JMP | BPF_JA:
230d42eb05eSJens Axboe 		case BPF_JMP | BPF_JEQ | BPF_K:
231d42eb05eSJens Axboe 		case BPF_JMP | BPF_JEQ | BPF_X:
232d42eb05eSJens Axboe 		case BPF_JMP | BPF_JGE | BPF_K:
233d42eb05eSJens Axboe 		case BPF_JMP | BPF_JGE | BPF_X:
234d42eb05eSJens Axboe 		case BPF_JMP | BPF_JGT | BPF_K:
235d42eb05eSJens Axboe 		case BPF_JMP | BPF_JGT | BPF_X:
236d42eb05eSJens Axboe 		case BPF_JMP | BPF_JSET | BPF_K:
237d42eb05eSJens Axboe 		case BPF_JMP | BPF_JSET | BPF_X:
238d42eb05eSJens Axboe 			continue;
239d42eb05eSJens Axboe 		default:
240d42eb05eSJens Axboe 			return -EINVAL;
241d42eb05eSJens Axboe 		}
242d42eb05eSJens Axboe 	}
243d42eb05eSJens Axboe 	return 0;
244d42eb05eSJens Axboe }
245d42eb05eSJens Axboe 
io_bpf_filter_clone(struct io_restriction * dst,struct io_restriction * src)246ed82f35bSJens Axboe void io_bpf_filter_clone(struct io_restriction *dst, struct io_restriction *src)
247ed82f35bSJens Axboe {
248ed82f35bSJens Axboe 	if (!src->bpf_filters)
249ed82f35bSJens Axboe 		return;
250ed82f35bSJens Axboe 
251ed82f35bSJens Axboe 	rcu_read_lock();
252ed82f35bSJens Axboe 	/*
253ed82f35bSJens Axboe 	 * If the src filter is going away, just ignore it.
254ed82f35bSJens Axboe 	 */
255ed82f35bSJens Axboe 	if (refcount_inc_not_zero(&src->bpf_filters->refs)) {
256ed82f35bSJens Axboe 		dst->bpf_filters = src->bpf_filters;
257ed82f35bSJens Axboe 		dst->bpf_filters_cow = true;
258ed82f35bSJens Axboe 	}
259ed82f35bSJens Axboe 	rcu_read_unlock();
260ed82f35bSJens Axboe }
261ed82f35bSJens Axboe 
262ed82f35bSJens Axboe /*
263ed82f35bSJens Axboe  * Allocate a new struct io_bpf_filters. Used when a filter is cloned and
264ed82f35bSJens Axboe  * modifications need to be made.
265ed82f35bSJens Axboe  */
io_bpf_filter_cow(struct io_restriction * src)266ed82f35bSJens Axboe static struct io_bpf_filters *io_bpf_filter_cow(struct io_restriction *src)
267ed82f35bSJens Axboe {
268ed82f35bSJens Axboe 	struct io_bpf_filters *filters;
269ed82f35bSJens Axboe 	struct io_bpf_filter *srcf;
270ed82f35bSJens Axboe 	int i;
271ed82f35bSJens Axboe 
272ed82f35bSJens Axboe 	filters = io_new_bpf_filters();
273ed82f35bSJens Axboe 	if (IS_ERR(filters))
274ed82f35bSJens Axboe 		return filters;
275ed82f35bSJens Axboe 
276ed82f35bSJens Axboe 	/*
277ed82f35bSJens Axboe 	 * Iterate filters from src and assign in destination. Grabbing
278ed82f35bSJens Axboe 	 * a reference is enough, we don't need to duplicate the memory.
279ed82f35bSJens Axboe 	 * This is safe because filters are only ever appended to the
280ed82f35bSJens Axboe 	 * front of the list, hence the only memory ever touched inside
281ed82f35bSJens Axboe 	 * a filter is the refcount.
282ed82f35bSJens Axboe 	 */
283ed82f35bSJens Axboe 	rcu_read_lock();
284ed82f35bSJens Axboe 	for (i = 0; i < IORING_OP_LAST; i++) {
285ed82f35bSJens Axboe 		srcf = rcu_dereference(src->bpf_filters->filters[i]);
286ed82f35bSJens Axboe 		if (!srcf) {
287ed82f35bSJens Axboe 			continue;
288ed82f35bSJens Axboe 		} else if (srcf == &dummy_filter) {
289ed82f35bSJens Axboe 			rcu_assign_pointer(filters->filters[i], &dummy_filter);
290ed82f35bSJens Axboe 			continue;
291ed82f35bSJens Axboe 		}
292ed82f35bSJens Axboe 
293ed82f35bSJens Axboe 		/*
294ed82f35bSJens Axboe 		 * Getting a ref on the first node is enough, putting the
295ed82f35bSJens Axboe 		 * filter and iterating nodes to free will stop on the first
296ed82f35bSJens Axboe 		 * one that doesn't hit zero when dropping.
297ed82f35bSJens Axboe 		 */
298ed82f35bSJens Axboe 		if (!refcount_inc_not_zero(&srcf->refs))
299ed82f35bSJens Axboe 			goto err;
300ed82f35bSJens Axboe 		rcu_assign_pointer(filters->filters[i], srcf);
301ed82f35bSJens Axboe 	}
302ed82f35bSJens Axboe 	rcu_read_unlock();
303ed82f35bSJens Axboe 	return filters;
304ed82f35bSJens Axboe err:
305ed82f35bSJens Axboe 	rcu_read_unlock();
306ed82f35bSJens Axboe 	__io_put_bpf_filters(filters);
307ed82f35bSJens Axboe 	return ERR_PTR(-EBUSY);
308ed82f35bSJens Axboe }
309ed82f35bSJens Axboe 
310be357312SJens Axboe #define IO_URING_BPF_FILTER_FLAGS	(IO_URING_BPF_FILTER_DENY_REST | \
311be357312SJens Axboe 					 IO_URING_BPF_FILTER_SZ_STRICT)
312be357312SJens Axboe 
io_bpf_filter_import(struct io_uring_bpf * reg,struct io_uring_bpf __user * arg)313be357312SJens Axboe static int io_bpf_filter_import(struct io_uring_bpf *reg,
314be357312SJens Axboe 				struct io_uring_bpf __user *arg)
315be357312SJens Axboe {
316be357312SJens Axboe 	const struct io_issue_def *def;
317be357312SJens Axboe 	int ret;
318be357312SJens Axboe 
319be357312SJens Axboe 	if (copy_from_user(reg, arg, sizeof(*reg)))
320be357312SJens Axboe 		return -EFAULT;
321be357312SJens Axboe 	if (reg->cmd_type != IO_URING_BPF_CMD_FILTER)
322be357312SJens Axboe 		return -EINVAL;
323be357312SJens Axboe 	if (reg->cmd_flags || reg->resv)
324be357312SJens Axboe 		return -EINVAL;
325be357312SJens Axboe 
326be357312SJens Axboe 	if (reg->filter.opcode >= IORING_OP_LAST)
327be357312SJens Axboe 		return -EINVAL;
328be357312SJens Axboe 	if (reg->filter.flags & ~IO_URING_BPF_FILTER_FLAGS)
329be357312SJens Axboe 		return -EINVAL;
330be357312SJens Axboe 	if (!mem_is_zero(reg->filter.resv, sizeof(reg->filter.resv)))
331be357312SJens Axboe 		return -EINVAL;
332be357312SJens Axboe 	if (!mem_is_zero(reg->filter.resv2, sizeof(reg->filter.resv2)))
333be357312SJens Axboe 		return -EINVAL;
334be357312SJens Axboe 	if (!reg->filter.filter_len || reg->filter.filter_len > BPF_MAXINSNS)
335be357312SJens Axboe 		return -EINVAL;
336be357312SJens Axboe 
337be357312SJens Axboe 	/* Verify filter size */
338be357312SJens Axboe 	def = &io_issue_defs[array_index_nospec(reg->filter.opcode, IORING_OP_LAST)];
339be357312SJens Axboe 
340be357312SJens Axboe 	/* same size, always ok */
341be357312SJens Axboe 	ret = 0;
342be357312SJens Axboe 	if (reg->filter.pdu_size == def->filter_pdu_size)
343be357312SJens Axboe 		;
344be357312SJens Axboe 	/* size differs, fail in strict mode */
345be357312SJens Axboe 	else if (reg->filter.flags & IO_URING_BPF_FILTER_SZ_STRICT)
346be357312SJens Axboe 		ret = -EMSGSIZE;
347be357312SJens Axboe 	/* userspace filter is bigger, always disallow */
348be357312SJens Axboe 	else if (reg->filter.pdu_size > def->filter_pdu_size)
349be357312SJens Axboe 		ret = -EMSGSIZE;
350be357312SJens Axboe 
351be357312SJens Axboe 	/* copy back kernel filter size */
352be357312SJens Axboe 	reg->filter.pdu_size = def->filter_pdu_size;
353be357312SJens Axboe 	if (copy_to_user(&arg->filter, &reg->filter, sizeof(reg->filter)))
354be357312SJens Axboe 		return -EFAULT;
355be357312SJens Axboe 
356be357312SJens Axboe 	return ret;
357be357312SJens Axboe }
358d42eb05eSJens Axboe 
io_register_bpf_filter(struct io_restriction * res,struct io_uring_bpf __user * arg)359d42eb05eSJens Axboe int io_register_bpf_filter(struct io_restriction *res,
360d42eb05eSJens Axboe 			   struct io_uring_bpf __user *arg)
361d42eb05eSJens Axboe {
362ed82f35bSJens Axboe 	struct io_bpf_filters *filters, *old_filters = NULL;
363d42eb05eSJens Axboe 	struct io_bpf_filter *filter, *old_filter;
364d42eb05eSJens Axboe 	struct io_uring_bpf reg;
365d42eb05eSJens Axboe 	struct bpf_prog *prog;
366d42eb05eSJens Axboe 	struct sock_fprog fprog;
367d42eb05eSJens Axboe 	int ret;
368d42eb05eSJens Axboe 
369be357312SJens Axboe 	ret = io_bpf_filter_import(&reg, arg);
370be357312SJens Axboe 	if (ret)
371be357312SJens Axboe 		return ret;
372d42eb05eSJens Axboe 
373d42eb05eSJens Axboe 	fprog.len = reg.filter.filter_len;
374d42eb05eSJens Axboe 	fprog.filter = u64_to_user_ptr(reg.filter.filter_ptr);
375d42eb05eSJens Axboe 
376d42eb05eSJens Axboe 	ret = bpf_prog_create_from_user(&prog, &fprog,
377d42eb05eSJens Axboe 					io_uring_check_cbpf_filter, false);
378d42eb05eSJens Axboe 	if (ret)
379d42eb05eSJens Axboe 		return ret;
380d42eb05eSJens Axboe 
381d42eb05eSJens Axboe 	/*
382d42eb05eSJens Axboe 	 * No existing filters, allocate set.
383d42eb05eSJens Axboe 	 */
384d42eb05eSJens Axboe 	filters = res->bpf_filters;
385d42eb05eSJens Axboe 	if (!filters) {
386d42eb05eSJens Axboe 		filters = io_new_bpf_filters();
387d42eb05eSJens Axboe 		if (IS_ERR(filters)) {
388d42eb05eSJens Axboe 			ret = PTR_ERR(filters);
389d42eb05eSJens Axboe 			goto err_prog;
390d42eb05eSJens Axboe 		}
391ed82f35bSJens Axboe 	} else if (res->bpf_filters_cow) {
392ed82f35bSJens Axboe 		filters = io_bpf_filter_cow(res);
393ed82f35bSJens Axboe 		if (IS_ERR(filters)) {
394ed82f35bSJens Axboe 			ret = PTR_ERR(filters);
395ed82f35bSJens Axboe 			goto err_prog;
396ed82f35bSJens Axboe 		}
397ed82f35bSJens Axboe 		/*
398ed82f35bSJens Axboe 		 * Stash old filters, we'll put them once we know we'll
399ed82f35bSJens Axboe 		 * succeed. Until then, res->bpf_filters is left untouched.
400ed82f35bSJens Axboe 		 */
401ed82f35bSJens Axboe 		old_filters = res->bpf_filters;
402d42eb05eSJens Axboe 	}
403d42eb05eSJens Axboe 
40469050f8dSKees Cook 	filter = kzalloc_obj(*filter, GFP_KERNEL_ACCOUNT);
405d42eb05eSJens Axboe 	if (!filter) {
406d42eb05eSJens Axboe 		ret = -ENOMEM;
407d42eb05eSJens Axboe 		goto err;
408d42eb05eSJens Axboe 	}
409e7f67c2bSJens Axboe 	refcount_set(&filter->refs, 1);
410d42eb05eSJens Axboe 	filter->prog = prog;
411ed82f35bSJens Axboe 
412ed82f35bSJens Axboe 	/*
413ed82f35bSJens Axboe 	 * Success - install the new filter set now. If we did COW, put
414ed82f35bSJens Axboe 	 * the old filters as we're replacing them.
415ed82f35bSJens Axboe 	 */
416ed82f35bSJens Axboe 	if (old_filters) {
417ed82f35bSJens Axboe 		__io_put_bpf_filters(old_filters);
418ed82f35bSJens Axboe 		res->bpf_filters_cow = false;
419ed82f35bSJens Axboe 	}
420d42eb05eSJens Axboe 	res->bpf_filters = filters;
421d42eb05eSJens Axboe 
422d42eb05eSJens Axboe 	/*
423d42eb05eSJens Axboe 	 * Insert filter - if the current opcode already has a filter
424d42eb05eSJens Axboe 	 * attached, add to the set.
425d42eb05eSJens Axboe 	 */
426d42eb05eSJens Axboe 	rcu_read_lock();
427d42eb05eSJens Axboe 	spin_lock_bh(&filters->lock);
428d42eb05eSJens Axboe 	old_filter = rcu_dereference(filters->filters[reg.filter.opcode]);
429d42eb05eSJens Axboe 	if (old_filter)
430d42eb05eSJens Axboe 		filter->next = old_filter;
431d42eb05eSJens Axboe 	rcu_assign_pointer(filters->filters[reg.filter.opcode], filter);
432d42eb05eSJens Axboe 
433d42eb05eSJens Axboe 	/*
434d42eb05eSJens Axboe 	 * If IO_URING_BPF_FILTER_DENY_REST is set, fill any unregistered
435d42eb05eSJens Axboe 	 * opcode with the dummy filter. That will cause them to be denied.
436d42eb05eSJens Axboe 	 */
437d42eb05eSJens Axboe 	if (reg.filter.flags & IO_URING_BPF_FILTER_DENY_REST) {
438d42eb05eSJens Axboe 		for (int i = 0; i < IORING_OP_LAST; i++) {
439d42eb05eSJens Axboe 			if (i == reg.filter.opcode)
440d42eb05eSJens Axboe 				continue;
441d42eb05eSJens Axboe 			old_filter = rcu_dereference(filters->filters[i]);
442d42eb05eSJens Axboe 			if (old_filter)
443d42eb05eSJens Axboe 				continue;
444d42eb05eSJens Axboe 			rcu_assign_pointer(filters->filters[i], &dummy_filter);
445d42eb05eSJens Axboe 		}
446d42eb05eSJens Axboe 	}
447d42eb05eSJens Axboe 
448d42eb05eSJens Axboe 	spin_unlock_bh(&filters->lock);
449d42eb05eSJens Axboe 	rcu_read_unlock();
450d42eb05eSJens Axboe 	return 0;
451d42eb05eSJens Axboe err:
452d42eb05eSJens Axboe 	if (filters != res->bpf_filters)
453d42eb05eSJens Axboe 		__io_put_bpf_filters(filters);
454d42eb05eSJens Axboe err_prog:
455d42eb05eSJens Axboe 	bpf_prog_destroy(prog);
456d42eb05eSJens Axboe 	return ret;
457d42eb05eSJens Axboe }
458