1d42eb05eSJens Axboe // SPDX-License-Identifier: GPL-2.0
2d42eb05eSJens Axboe /*
3d42eb05eSJens Axboe * BPF filter support for io_uring. Supports SQE opcodes for now.
4d42eb05eSJens Axboe */
5d42eb05eSJens Axboe #include <linux/kernel.h>
6d42eb05eSJens Axboe #include <linux/errno.h>
7d42eb05eSJens Axboe #include <linux/io_uring.h>
8d42eb05eSJens Axboe #include <linux/filter.h>
9d42eb05eSJens Axboe #include <linux/bpf.h>
10d42eb05eSJens Axboe #include <uapi/linux/io_uring.h>
11d42eb05eSJens Axboe
12d42eb05eSJens Axboe #include "io_uring.h"
13d42eb05eSJens Axboe #include "bpf_filter.h"
14d42eb05eSJens Axboe #include "net.h"
158768770cSJens Axboe #include "openclose.h"
16d42eb05eSJens Axboe
17d42eb05eSJens Axboe struct io_bpf_filter {
18e7f67c2bSJens Axboe refcount_t refs;
19d42eb05eSJens Axboe struct bpf_prog *prog;
20d42eb05eSJens Axboe struct io_bpf_filter *next;
21d42eb05eSJens Axboe };
22d42eb05eSJens Axboe
23d42eb05eSJens Axboe /* Deny if this is set as the filter */
24d42eb05eSJens Axboe static const struct io_bpf_filter dummy_filter;
25d42eb05eSJens Axboe
io_uring_populate_bpf_ctx(struct io_uring_bpf_ctx * bctx,struct io_kiocb * req)26d42eb05eSJens Axboe static void io_uring_populate_bpf_ctx(struct io_uring_bpf_ctx *bctx,
27d42eb05eSJens Axboe struct io_kiocb *req)
28d42eb05eSJens Axboe {
29d21c3621SJens Axboe const struct io_issue_def *def = &io_issue_defs[req->opcode];
30d21c3621SJens Axboe
31d42eb05eSJens Axboe bctx->opcode = req->opcode;
32d42eb05eSJens Axboe bctx->sqe_flags = (__force int) req->flags & SQE_VALID_FLAGS;
33d42eb05eSJens Axboe bctx->user_data = req->cqe.user_data;
34d42eb05eSJens Axboe /* clear residual, anything from pdu_size and below */
35d42eb05eSJens Axboe memset((void *) bctx + offsetof(struct io_uring_bpf_ctx, pdu_size), 0,
36d42eb05eSJens Axboe sizeof(*bctx) - offsetof(struct io_uring_bpf_ctx, pdu_size));
37cff1c26bSJens Axboe
38cff1c26bSJens Axboe /*
39d21c3621SJens Axboe * Opcodes can provide a handler for populating more data into bctx,
40cff1c26bSJens Axboe * for filters to use.
41cff1c26bSJens Axboe */
42d21c3621SJens Axboe if (def->filter_pdu_size) {
43d21c3621SJens Axboe bctx->pdu_size = def->filter_pdu_size;
44d21c3621SJens Axboe def->filter_populate(bctx, req);
45cff1c26bSJens Axboe }
46d42eb05eSJens Axboe }
47d42eb05eSJens Axboe
48d42eb05eSJens Axboe /*
49d42eb05eSJens Axboe * Run registered filters for a given opcode. For filters, a return of 0 denies
50d42eb05eSJens Axboe * execution of the request, a return of 1 allows it. If any filter for an
51d42eb05eSJens Axboe * opcode returns 0, filter processing is stopped, and the request is denied.
52d42eb05eSJens Axboe * This also stops the processing of filters.
53d42eb05eSJens Axboe *
54d42eb05eSJens Axboe * __io_uring_run_bpf_filters() returns 0 on success, allow running the
55d42eb05eSJens Axboe * request, and -EACCES when a request is denied.
56d42eb05eSJens Axboe */
__io_uring_run_bpf_filters(struct io_bpf_filter __rcu ** filters,struct io_kiocb * req)57e7c30675SJens Axboe int __io_uring_run_bpf_filters(struct io_bpf_filter __rcu **filters,
58e7c30675SJens Axboe struct io_kiocb *req)
59d42eb05eSJens Axboe {
60d42eb05eSJens Axboe struct io_bpf_filter *filter;
61d42eb05eSJens Axboe struct io_uring_bpf_ctx bpf_ctx;
62d42eb05eSJens Axboe int ret;
63d42eb05eSJens Axboe
64d42eb05eSJens Axboe /* Fast check for existence of filters outside of RCU */
65e7c30675SJens Axboe if (!rcu_access_pointer(filters[req->opcode]))
66d42eb05eSJens Axboe return 0;
67d42eb05eSJens Axboe
68d42eb05eSJens Axboe /*
69d42eb05eSJens Axboe * req->opcode has already been validated to be within the range
70d42eb05eSJens Axboe * of what we expect, io_init_req() does this.
71d42eb05eSJens Axboe */
72d42eb05eSJens Axboe guard(rcu)();
73e7c30675SJens Axboe filter = rcu_dereference(filters[req->opcode]);
74d42eb05eSJens Axboe if (!filter)
75d42eb05eSJens Axboe return 0;
76d42eb05eSJens Axboe else if (filter == &dummy_filter)
77d42eb05eSJens Axboe return -EACCES;
78d42eb05eSJens Axboe
79d42eb05eSJens Axboe io_uring_populate_bpf_ctx(&bpf_ctx, req);
80d42eb05eSJens Axboe
81d42eb05eSJens Axboe /*
82d42eb05eSJens Axboe * Iterate registered filters. The opcode is allowed IFF all filters
83d42eb05eSJens Axboe * return 1. If any filter returns denied, opcode will be denied.
84d42eb05eSJens Axboe */
85d42eb05eSJens Axboe do {
86d42eb05eSJens Axboe if (filter == &dummy_filter)
87d42eb05eSJens Axboe return -EACCES;
88*785d4625SJens Axboe ret = bpf_prog_run_pin_on_cpu(filter->prog, &bpf_ctx);
89d42eb05eSJens Axboe if (!ret)
90d42eb05eSJens Axboe return -EACCES;
91d42eb05eSJens Axboe filter = filter->next;
92d42eb05eSJens Axboe } while (filter);
93d42eb05eSJens Axboe
94d42eb05eSJens Axboe return 0;
95d42eb05eSJens Axboe }
96d42eb05eSJens Axboe
io_free_bpf_filters(struct rcu_head * head)97d42eb05eSJens Axboe static void io_free_bpf_filters(struct rcu_head *head)
98d42eb05eSJens Axboe {
99d42eb05eSJens Axboe struct io_bpf_filter __rcu **filter;
100d42eb05eSJens Axboe struct io_bpf_filters *filters;
101d42eb05eSJens Axboe int i;
102d42eb05eSJens Axboe
103d42eb05eSJens Axboe filters = container_of(head, struct io_bpf_filters, rcu_head);
104d42eb05eSJens Axboe scoped_guard(spinlock, &filters->lock) {
105d42eb05eSJens Axboe filter = filters->filters;
106d42eb05eSJens Axboe if (!filter)
107d42eb05eSJens Axboe return;
108d42eb05eSJens Axboe }
109d42eb05eSJens Axboe
110d42eb05eSJens Axboe for (i = 0; i < IORING_OP_LAST; i++) {
111d42eb05eSJens Axboe struct io_bpf_filter *f;
112d42eb05eSJens Axboe
113d42eb05eSJens Axboe rcu_read_lock();
114d42eb05eSJens Axboe f = rcu_dereference(filter[i]);
115d42eb05eSJens Axboe while (f) {
116d42eb05eSJens Axboe struct io_bpf_filter *next = f->next;
117d42eb05eSJens Axboe
118d42eb05eSJens Axboe /*
119d42eb05eSJens Axboe * Even if stacked, dummy filter will always be last
120d42eb05eSJens Axboe * as it can only get installed into an empty spot.
121d42eb05eSJens Axboe */
122d42eb05eSJens Axboe if (f == &dummy_filter)
123d42eb05eSJens Axboe break;
124e7f67c2bSJens Axboe
125e7f67c2bSJens Axboe /* Someone still holds a ref, stop iterating. */
126e7f67c2bSJens Axboe if (!refcount_dec_and_test(&f->refs))
127e7f67c2bSJens Axboe break;
128e7f67c2bSJens Axboe
129d42eb05eSJens Axboe bpf_prog_destroy(f->prog);
130d42eb05eSJens Axboe kfree(f);
131d42eb05eSJens Axboe f = next;
132d42eb05eSJens Axboe }
133d42eb05eSJens Axboe rcu_read_unlock();
134d42eb05eSJens Axboe }
135d42eb05eSJens Axboe kfree(filters->filters);
136d42eb05eSJens Axboe kfree(filters);
137d42eb05eSJens Axboe }
138d42eb05eSJens Axboe
__io_put_bpf_filters(struct io_bpf_filters * filters)139d42eb05eSJens Axboe static void __io_put_bpf_filters(struct io_bpf_filters *filters)
140d42eb05eSJens Axboe {
141d42eb05eSJens Axboe if (refcount_dec_and_test(&filters->refs))
142d42eb05eSJens Axboe call_rcu(&filters->rcu_head, io_free_bpf_filters);
143d42eb05eSJens Axboe }
144d42eb05eSJens Axboe
io_put_bpf_filters(struct io_restriction * res)145d42eb05eSJens Axboe void io_put_bpf_filters(struct io_restriction *res)
146d42eb05eSJens Axboe {
147d42eb05eSJens Axboe if (res->bpf_filters)
148d42eb05eSJens Axboe __io_put_bpf_filters(res->bpf_filters);
149d42eb05eSJens Axboe }
150d42eb05eSJens Axboe
io_new_bpf_filters(void)151d42eb05eSJens Axboe static struct io_bpf_filters *io_new_bpf_filters(void)
152d42eb05eSJens Axboe {
153d42eb05eSJens Axboe struct io_bpf_filters *filters __free(kfree) = NULL;
154d42eb05eSJens Axboe
15569050f8dSKees Cook filters = kzalloc_obj(*filters, GFP_KERNEL_ACCOUNT);
156d42eb05eSJens Axboe if (!filters)
157d42eb05eSJens Axboe return ERR_PTR(-ENOMEM);
158d42eb05eSJens Axboe
15969050f8dSKees Cook filters->filters = kzalloc_objs(struct io_bpf_filter *, IORING_OP_LAST,
160d42eb05eSJens Axboe GFP_KERNEL_ACCOUNT);
161d42eb05eSJens Axboe if (!filters->filters)
162d42eb05eSJens Axboe return ERR_PTR(-ENOMEM);
163d42eb05eSJens Axboe
164d42eb05eSJens Axboe refcount_set(&filters->refs, 1);
165d42eb05eSJens Axboe spin_lock_init(&filters->lock);
166d42eb05eSJens Axboe return no_free_ptr(filters);
167d42eb05eSJens Axboe }
168d42eb05eSJens Axboe
169d42eb05eSJens Axboe /*
170d42eb05eSJens Axboe * Validate classic BPF filter instructions. Only allow a safe subset of
171d42eb05eSJens Axboe * operations - no packet data access, just context field loads and basic
172d42eb05eSJens Axboe * ALU/jump operations.
173d42eb05eSJens Axboe */
io_uring_check_cbpf_filter(struct sock_filter * filter,unsigned int flen)174d42eb05eSJens Axboe static int io_uring_check_cbpf_filter(struct sock_filter *filter,
175d42eb05eSJens Axboe unsigned int flen)
176d42eb05eSJens Axboe {
177d42eb05eSJens Axboe int pc;
178d42eb05eSJens Axboe
179d42eb05eSJens Axboe for (pc = 0; pc < flen; pc++) {
180d42eb05eSJens Axboe struct sock_filter *ftest = &filter[pc];
181d42eb05eSJens Axboe u16 code = ftest->code;
182d42eb05eSJens Axboe u32 k = ftest->k;
183d42eb05eSJens Axboe
184d42eb05eSJens Axboe switch (code) {
185d42eb05eSJens Axboe case BPF_LD | BPF_W | BPF_ABS:
186d42eb05eSJens Axboe ftest->code = BPF_LDX | BPF_W | BPF_ABS;
187d42eb05eSJens Axboe /* 32-bit aligned and not out of bounds. */
188d42eb05eSJens Axboe if (k >= sizeof(struct io_uring_bpf_ctx) || k & 3)
189d42eb05eSJens Axboe return -EINVAL;
190d42eb05eSJens Axboe continue;
191d42eb05eSJens Axboe case BPF_LD | BPF_W | BPF_LEN:
192d42eb05eSJens Axboe ftest->code = BPF_LD | BPF_IMM;
193d42eb05eSJens Axboe ftest->k = sizeof(struct io_uring_bpf_ctx);
194d42eb05eSJens Axboe continue;
195d42eb05eSJens Axboe case BPF_LDX | BPF_W | BPF_LEN:
196d42eb05eSJens Axboe ftest->code = BPF_LDX | BPF_IMM;
197d42eb05eSJens Axboe ftest->k = sizeof(struct io_uring_bpf_ctx);
198d42eb05eSJens Axboe continue;
199d42eb05eSJens Axboe /* Explicitly include allowed calls. */
200d42eb05eSJens Axboe case BPF_RET | BPF_K:
201d42eb05eSJens Axboe case BPF_RET | BPF_A:
202d42eb05eSJens Axboe case BPF_ALU | BPF_ADD | BPF_K:
203d42eb05eSJens Axboe case BPF_ALU | BPF_ADD | BPF_X:
204d42eb05eSJens Axboe case BPF_ALU | BPF_SUB | BPF_K:
205d42eb05eSJens Axboe case BPF_ALU | BPF_SUB | BPF_X:
206d42eb05eSJens Axboe case BPF_ALU | BPF_MUL | BPF_K:
207d42eb05eSJens Axboe case BPF_ALU | BPF_MUL | BPF_X:
208d42eb05eSJens Axboe case BPF_ALU | BPF_DIV | BPF_K:
209d42eb05eSJens Axboe case BPF_ALU | BPF_DIV | BPF_X:
210d42eb05eSJens Axboe case BPF_ALU | BPF_AND | BPF_K:
211d42eb05eSJens Axboe case BPF_ALU | BPF_AND | BPF_X:
212d42eb05eSJens Axboe case BPF_ALU | BPF_OR | BPF_K:
213d42eb05eSJens Axboe case BPF_ALU | BPF_OR | BPF_X:
214d42eb05eSJens Axboe case BPF_ALU | BPF_XOR | BPF_K:
215d42eb05eSJens Axboe case BPF_ALU | BPF_XOR | BPF_X:
216d42eb05eSJens Axboe case BPF_ALU | BPF_LSH | BPF_K:
217d42eb05eSJens Axboe case BPF_ALU | BPF_LSH | BPF_X:
218d42eb05eSJens Axboe case BPF_ALU | BPF_RSH | BPF_K:
219d42eb05eSJens Axboe case BPF_ALU | BPF_RSH | BPF_X:
220d42eb05eSJens Axboe case BPF_ALU | BPF_NEG:
221d42eb05eSJens Axboe case BPF_LD | BPF_IMM:
222d42eb05eSJens Axboe case BPF_LDX | BPF_IMM:
223d42eb05eSJens Axboe case BPF_MISC | BPF_TAX:
224d42eb05eSJens Axboe case BPF_MISC | BPF_TXA:
225d42eb05eSJens Axboe case BPF_LD | BPF_MEM:
226d42eb05eSJens Axboe case BPF_LDX | BPF_MEM:
227d42eb05eSJens Axboe case BPF_ST:
228d42eb05eSJens Axboe case BPF_STX:
229d42eb05eSJens Axboe case BPF_JMP | BPF_JA:
230d42eb05eSJens Axboe case BPF_JMP | BPF_JEQ | BPF_K:
231d42eb05eSJens Axboe case BPF_JMP | BPF_JEQ | BPF_X:
232d42eb05eSJens Axboe case BPF_JMP | BPF_JGE | BPF_K:
233d42eb05eSJens Axboe case BPF_JMP | BPF_JGE | BPF_X:
234d42eb05eSJens Axboe case BPF_JMP | BPF_JGT | BPF_K:
235d42eb05eSJens Axboe case BPF_JMP | BPF_JGT | BPF_X:
236d42eb05eSJens Axboe case BPF_JMP | BPF_JSET | BPF_K:
237d42eb05eSJens Axboe case BPF_JMP | BPF_JSET | BPF_X:
238d42eb05eSJens Axboe continue;
239d42eb05eSJens Axboe default:
240d42eb05eSJens Axboe return -EINVAL;
241d42eb05eSJens Axboe }
242d42eb05eSJens Axboe }
243d42eb05eSJens Axboe return 0;
244d42eb05eSJens Axboe }
245d42eb05eSJens Axboe
io_bpf_filter_clone(struct io_restriction * dst,struct io_restriction * src)246ed82f35bSJens Axboe void io_bpf_filter_clone(struct io_restriction *dst, struct io_restriction *src)
247ed82f35bSJens Axboe {
248ed82f35bSJens Axboe if (!src->bpf_filters)
249ed82f35bSJens Axboe return;
250ed82f35bSJens Axboe
251ed82f35bSJens Axboe rcu_read_lock();
252ed82f35bSJens Axboe /*
253ed82f35bSJens Axboe * If the src filter is going away, just ignore it.
254ed82f35bSJens Axboe */
255ed82f35bSJens Axboe if (refcount_inc_not_zero(&src->bpf_filters->refs)) {
256ed82f35bSJens Axboe dst->bpf_filters = src->bpf_filters;
257ed82f35bSJens Axboe dst->bpf_filters_cow = true;
258ed82f35bSJens Axboe }
259ed82f35bSJens Axboe rcu_read_unlock();
260ed82f35bSJens Axboe }
261ed82f35bSJens Axboe
262ed82f35bSJens Axboe /*
263ed82f35bSJens Axboe * Allocate a new struct io_bpf_filters. Used when a filter is cloned and
264ed82f35bSJens Axboe * modifications need to be made.
265ed82f35bSJens Axboe */
io_bpf_filter_cow(struct io_restriction * src)266ed82f35bSJens Axboe static struct io_bpf_filters *io_bpf_filter_cow(struct io_restriction *src)
267ed82f35bSJens Axboe {
268ed82f35bSJens Axboe struct io_bpf_filters *filters;
269ed82f35bSJens Axboe struct io_bpf_filter *srcf;
270ed82f35bSJens Axboe int i;
271ed82f35bSJens Axboe
272ed82f35bSJens Axboe filters = io_new_bpf_filters();
273ed82f35bSJens Axboe if (IS_ERR(filters))
274ed82f35bSJens Axboe return filters;
275ed82f35bSJens Axboe
276ed82f35bSJens Axboe /*
277ed82f35bSJens Axboe * Iterate filters from src and assign in destination. Grabbing
278ed82f35bSJens Axboe * a reference is enough, we don't need to duplicate the memory.
279ed82f35bSJens Axboe * This is safe because filters are only ever appended to the
280ed82f35bSJens Axboe * front of the list, hence the only memory ever touched inside
281ed82f35bSJens Axboe * a filter is the refcount.
282ed82f35bSJens Axboe */
283ed82f35bSJens Axboe rcu_read_lock();
284ed82f35bSJens Axboe for (i = 0; i < IORING_OP_LAST; i++) {
285ed82f35bSJens Axboe srcf = rcu_dereference(src->bpf_filters->filters[i]);
286ed82f35bSJens Axboe if (!srcf) {
287ed82f35bSJens Axboe continue;
288ed82f35bSJens Axboe } else if (srcf == &dummy_filter) {
289ed82f35bSJens Axboe rcu_assign_pointer(filters->filters[i], &dummy_filter);
290ed82f35bSJens Axboe continue;
291ed82f35bSJens Axboe }
292ed82f35bSJens Axboe
293ed82f35bSJens Axboe /*
294ed82f35bSJens Axboe * Getting a ref on the first node is enough, putting the
295ed82f35bSJens Axboe * filter and iterating nodes to free will stop on the first
296ed82f35bSJens Axboe * one that doesn't hit zero when dropping.
297ed82f35bSJens Axboe */
298ed82f35bSJens Axboe if (!refcount_inc_not_zero(&srcf->refs))
299ed82f35bSJens Axboe goto err;
300ed82f35bSJens Axboe rcu_assign_pointer(filters->filters[i], srcf);
301ed82f35bSJens Axboe }
302ed82f35bSJens Axboe rcu_read_unlock();
303ed82f35bSJens Axboe return filters;
304ed82f35bSJens Axboe err:
305ed82f35bSJens Axboe rcu_read_unlock();
306ed82f35bSJens Axboe __io_put_bpf_filters(filters);
307ed82f35bSJens Axboe return ERR_PTR(-EBUSY);
308ed82f35bSJens Axboe }
309ed82f35bSJens Axboe
310be357312SJens Axboe #define IO_URING_BPF_FILTER_FLAGS (IO_URING_BPF_FILTER_DENY_REST | \
311be357312SJens Axboe IO_URING_BPF_FILTER_SZ_STRICT)
312be357312SJens Axboe
io_bpf_filter_import(struct io_uring_bpf * reg,struct io_uring_bpf __user * arg)313be357312SJens Axboe static int io_bpf_filter_import(struct io_uring_bpf *reg,
314be357312SJens Axboe struct io_uring_bpf __user *arg)
315be357312SJens Axboe {
316be357312SJens Axboe const struct io_issue_def *def;
317be357312SJens Axboe int ret;
318be357312SJens Axboe
319be357312SJens Axboe if (copy_from_user(reg, arg, sizeof(*reg)))
320be357312SJens Axboe return -EFAULT;
321be357312SJens Axboe if (reg->cmd_type != IO_URING_BPF_CMD_FILTER)
322be357312SJens Axboe return -EINVAL;
323be357312SJens Axboe if (reg->cmd_flags || reg->resv)
324be357312SJens Axboe return -EINVAL;
325be357312SJens Axboe
326be357312SJens Axboe if (reg->filter.opcode >= IORING_OP_LAST)
327be357312SJens Axboe return -EINVAL;
328be357312SJens Axboe if (reg->filter.flags & ~IO_URING_BPF_FILTER_FLAGS)
329be357312SJens Axboe return -EINVAL;
330be357312SJens Axboe if (!mem_is_zero(reg->filter.resv, sizeof(reg->filter.resv)))
331be357312SJens Axboe return -EINVAL;
332be357312SJens Axboe if (!mem_is_zero(reg->filter.resv2, sizeof(reg->filter.resv2)))
333be357312SJens Axboe return -EINVAL;
334be357312SJens Axboe if (!reg->filter.filter_len || reg->filter.filter_len > BPF_MAXINSNS)
335be357312SJens Axboe return -EINVAL;
336be357312SJens Axboe
337be357312SJens Axboe /* Verify filter size */
338be357312SJens Axboe def = &io_issue_defs[array_index_nospec(reg->filter.opcode, IORING_OP_LAST)];
339be357312SJens Axboe
340be357312SJens Axboe /* same size, always ok */
341be357312SJens Axboe ret = 0;
342be357312SJens Axboe if (reg->filter.pdu_size == def->filter_pdu_size)
343be357312SJens Axboe ;
344be357312SJens Axboe /* size differs, fail in strict mode */
345be357312SJens Axboe else if (reg->filter.flags & IO_URING_BPF_FILTER_SZ_STRICT)
346be357312SJens Axboe ret = -EMSGSIZE;
347be357312SJens Axboe /* userspace filter is bigger, always disallow */
348be357312SJens Axboe else if (reg->filter.pdu_size > def->filter_pdu_size)
349be357312SJens Axboe ret = -EMSGSIZE;
350be357312SJens Axboe
351be357312SJens Axboe /* copy back kernel filter size */
352be357312SJens Axboe reg->filter.pdu_size = def->filter_pdu_size;
353be357312SJens Axboe if (copy_to_user(&arg->filter, ®->filter, sizeof(reg->filter)))
354be357312SJens Axboe return -EFAULT;
355be357312SJens Axboe
356be357312SJens Axboe return ret;
357be357312SJens Axboe }
358d42eb05eSJens Axboe
io_register_bpf_filter(struct io_restriction * res,struct io_uring_bpf __user * arg)359d42eb05eSJens Axboe int io_register_bpf_filter(struct io_restriction *res,
360d42eb05eSJens Axboe struct io_uring_bpf __user *arg)
361d42eb05eSJens Axboe {
362ed82f35bSJens Axboe struct io_bpf_filters *filters, *old_filters = NULL;
363d42eb05eSJens Axboe struct io_bpf_filter *filter, *old_filter;
364d42eb05eSJens Axboe struct io_uring_bpf reg;
365d42eb05eSJens Axboe struct bpf_prog *prog;
366d42eb05eSJens Axboe struct sock_fprog fprog;
367d42eb05eSJens Axboe int ret;
368d42eb05eSJens Axboe
369be357312SJens Axboe ret = io_bpf_filter_import(®, arg);
370be357312SJens Axboe if (ret)
371be357312SJens Axboe return ret;
372d42eb05eSJens Axboe
373d42eb05eSJens Axboe fprog.len = reg.filter.filter_len;
374d42eb05eSJens Axboe fprog.filter = u64_to_user_ptr(reg.filter.filter_ptr);
375d42eb05eSJens Axboe
376d42eb05eSJens Axboe ret = bpf_prog_create_from_user(&prog, &fprog,
377d42eb05eSJens Axboe io_uring_check_cbpf_filter, false);
378d42eb05eSJens Axboe if (ret)
379d42eb05eSJens Axboe return ret;
380d42eb05eSJens Axboe
381d42eb05eSJens Axboe /*
382d42eb05eSJens Axboe * No existing filters, allocate set.
383d42eb05eSJens Axboe */
384d42eb05eSJens Axboe filters = res->bpf_filters;
385d42eb05eSJens Axboe if (!filters) {
386d42eb05eSJens Axboe filters = io_new_bpf_filters();
387d42eb05eSJens Axboe if (IS_ERR(filters)) {
388d42eb05eSJens Axboe ret = PTR_ERR(filters);
389d42eb05eSJens Axboe goto err_prog;
390d42eb05eSJens Axboe }
391ed82f35bSJens Axboe } else if (res->bpf_filters_cow) {
392ed82f35bSJens Axboe filters = io_bpf_filter_cow(res);
393ed82f35bSJens Axboe if (IS_ERR(filters)) {
394ed82f35bSJens Axboe ret = PTR_ERR(filters);
395ed82f35bSJens Axboe goto err_prog;
396ed82f35bSJens Axboe }
397ed82f35bSJens Axboe /*
398ed82f35bSJens Axboe * Stash old filters, we'll put them once we know we'll
399ed82f35bSJens Axboe * succeed. Until then, res->bpf_filters is left untouched.
400ed82f35bSJens Axboe */
401ed82f35bSJens Axboe old_filters = res->bpf_filters;
402d42eb05eSJens Axboe }
403d42eb05eSJens Axboe
40469050f8dSKees Cook filter = kzalloc_obj(*filter, GFP_KERNEL_ACCOUNT);
405d42eb05eSJens Axboe if (!filter) {
406d42eb05eSJens Axboe ret = -ENOMEM;
407d42eb05eSJens Axboe goto err;
408d42eb05eSJens Axboe }
409e7f67c2bSJens Axboe refcount_set(&filter->refs, 1);
410d42eb05eSJens Axboe filter->prog = prog;
411ed82f35bSJens Axboe
412ed82f35bSJens Axboe /*
413ed82f35bSJens Axboe * Success - install the new filter set now. If we did COW, put
414ed82f35bSJens Axboe * the old filters as we're replacing them.
415ed82f35bSJens Axboe */
416ed82f35bSJens Axboe if (old_filters) {
417ed82f35bSJens Axboe __io_put_bpf_filters(old_filters);
418ed82f35bSJens Axboe res->bpf_filters_cow = false;
419ed82f35bSJens Axboe }
420d42eb05eSJens Axboe res->bpf_filters = filters;
421d42eb05eSJens Axboe
422d42eb05eSJens Axboe /*
423d42eb05eSJens Axboe * Insert filter - if the current opcode already has a filter
424d42eb05eSJens Axboe * attached, add to the set.
425d42eb05eSJens Axboe */
426d42eb05eSJens Axboe rcu_read_lock();
427d42eb05eSJens Axboe spin_lock_bh(&filters->lock);
428d42eb05eSJens Axboe old_filter = rcu_dereference(filters->filters[reg.filter.opcode]);
429d42eb05eSJens Axboe if (old_filter)
430d42eb05eSJens Axboe filter->next = old_filter;
431d42eb05eSJens Axboe rcu_assign_pointer(filters->filters[reg.filter.opcode], filter);
432d42eb05eSJens Axboe
433d42eb05eSJens Axboe /*
434d42eb05eSJens Axboe * If IO_URING_BPF_FILTER_DENY_REST is set, fill any unregistered
435d42eb05eSJens Axboe * opcode with the dummy filter. That will cause them to be denied.
436d42eb05eSJens Axboe */
437d42eb05eSJens Axboe if (reg.filter.flags & IO_URING_BPF_FILTER_DENY_REST) {
438d42eb05eSJens Axboe for (int i = 0; i < IORING_OP_LAST; i++) {
439d42eb05eSJens Axboe if (i == reg.filter.opcode)
440d42eb05eSJens Axboe continue;
441d42eb05eSJens Axboe old_filter = rcu_dereference(filters->filters[i]);
442d42eb05eSJens Axboe if (old_filter)
443d42eb05eSJens Axboe continue;
444d42eb05eSJens Axboe rcu_assign_pointer(filters->filters[i], &dummy_filter);
445d42eb05eSJens Axboe }
446d42eb05eSJens Axboe }
447d42eb05eSJens Axboe
448d42eb05eSJens Axboe spin_unlock_bh(&filters->lock);
449d42eb05eSJens Axboe rcu_read_unlock();
450d42eb05eSJens Axboe return 0;
451d42eb05eSJens Axboe err:
452d42eb05eSJens Axboe if (filters != res->bpf_filters)
453d42eb05eSJens Axboe __io_put_bpf_filters(filters);
454d42eb05eSJens Axboe err_prog:
455d42eb05eSJens Axboe bpf_prog_destroy(prog);
456d42eb05eSJens Axboe return ret;
457d42eb05eSJens Axboe }
458