BPF 迭代器实现了高性能的内核内数据检索和聚合。在本篇博文中,我们谈论了开发 BPF 迭代器工具背后的动机,并展示如何使用其从用户空间来灵活有效地遍历内核数据。
现有少数方法可以将内核数据复制到到用户空间。最流行是通过 /proc 系统,例如可通过 "cat /proc/net/tcp6" 或者 "cat /proc/net/netlink" 命令打印系统中所有的 tcp6 或 netlink 套接字信息。然而,这种方式输出格式往往是固定的,如果用户想获得关于这些套接字的更多信息,就必须通过给内核打补丁的方式实现,这将涉及到上游和发布,往往需要很长的时间。对于像 ss 这样的流行工具也是如此,任何额外的信息都需要修改内核提交补丁。
drgn[1] 工具可在不修改内核的情况下打印出内核数据,一定程度解决了该问题。但是,drgn 的主要缺点是性能,而且也不能在内核内进行指针追踪。此外,如果指针在内核内变得无效,drgn 可能会产生错误的结果。
BPF 迭代器可用来解决上述相关问题,其提供了对内核中特定数据结构进行一次性修改的灵活性,并且可在内核内进行指针追踪。灵活性是通过使用 BPF 程序实现的,正确性则是通过在内核内实现指针追踪,并通过适当的引用计数[2]或锁保护来确保指针跟踪有效。在目前的状态下,迭代器只改变了内核中一小部分的数据结构。
内核代码中的 BPF selftests[3] 目录提供了很好的用户空间使用 BPF 迭代器的样例。通常,你需要先实现一个 BPF 程序。
以下是几个 selftest 中 BPF 程序的样例:
这里,我们以 bpf_iter_task_file.c 文件为例,用于遍历系统任务中打开的文件相关信息:
SEC("iter/task_file")
int dump_task_file(struct bpf_iter__task_file *ctx)
{
struct seq_file *seq = ctx->meta->seq;
struct task_struct *task = ctx->task;
__u32 fd = ctx->fd;
struct file *file = ctx->file;
...
}
在上面的例子中,SEC("iter/task_file")
字段表示该程序是一个 BPF 迭代器程序,可用来迭代所有任务的所有文件。该程序的上下文是 bpf_iter__task_file
。你可以在 vmlinux.h
中找到 bpf_iter__task_file
结构体的定义:
struct bpf_iter__task_file {
union {
struct bpf_iter_meta *meta;
};
union {
struct task_struct *task;
};
u32 fd;
union {
struct file *file;
};
};
在上面的代码中,字段变量名 meta
代表元数据,对所有 BPF 迭代器程序都是一样的。其余的字段则取决于不同的迭代器。例如,对于task_file
迭代器,内核层提供 task
、fd
和 file
相关字段。task
和 file
是基于应用计数的[7],所以它们在 BPF 程序运行时不会消失。
编写 BPF 迭代器程序后,我们还需要编写用户空间部分代码,用来触发 BPF 程序运行并收集数据。selftest 目录中的 bpf_iter.c[8] 提供了一个编写对应用户空间部分的例子。以下说明了一个典型的顺序:
BPF 迭代器使用内核的 seq_file
来传递数据至用户空间。该数据可以是一个格式化的字符串或原始数据。在格式化字符串的情况下,你可以使用 bpftool iter[9] 子命令来创建并通过 bpf_link
将一个 BPF 迭代器固定在 BPF 文件系统(bpffs)[10]的路径上。然后你可以使用 cat <path>
来打印结果,例如 cat /proc/net/netlink
这种方式。
例如,你可以使用下面的命令将 bpf_iter_ipv6_route.o
对象文件中的 BPF 程序输出到文件 /sys/fs/bpf/my_route
。
$ bpftool iter pin ./bpf_iter_ipv6_route.o /sys/fs/bpf/my_route
然后用以下命令打印出结果:
$ cat /sys/fs/bpf/my_route
为了在内核中实现一个 BPF 迭代器,开发者必须填写以下定义在 bpf.h[11] 文件中的关键数据结构。
struct bpf_iter_reg {
const char *target;
bpf_iter_attach_target_t attach_target;
bpf_iter_detach_target_t detach_target;
bpf_iter_show_fdinfo_t show_fdinfo;
bpf_iter_fill_link_info_t fill_link_info;
bpf_iter_get_func_proto_t get_func_proto;
u32 ctx_arg_info_size;
u32 feature;
struct bpf_ctx_arg_aux ctx_arg_info[BPF_ITER_CTX_ARG_MAX];
const struct bpf_iter_seq_info *seq_info;
};
在数据结构字段设置后,然后调用 bpf_iter_reg_target()
将迭代器注册到主 BPF 迭代器子系统。
下面是结构 bpf_iter_reg
中每个字段的解释:
字段 | 描述 |
---|---|
target | 指定 BPF 迭代器的名称。例如:bpf_map,bpf_map_elem 该名字应该与内核中其他 bpf_iter 目标名称不能相同。 |
attach_target 和 detach_target | 允许特定目标的 link_create 动作,因为有些目标可能需要特殊处理。在用户空间 link_create 阶段调用。 |
show_fdinfo 和 fill_link_info | 当用户试图获得与迭代器相关的链接信息时,会被调用以填充目标的具体信息。 |
get_func_proto | 允许 BPF 迭代器访问特定于该迭代器的 BPF 辅助函数。 |
ctx_arg_info_size 和 ctx_arg_info | 指定与 BPF 迭代器相关的 BPF 程序参数的验证器状态。 |
feature | 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。 |
seq_info | 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。 |
点击这里[12]可查看内核中 task_vma
BPF 迭代器的实现。
下面列出了最新的上游内核中可用的 BPF 迭代器,按 BPF 程序部分名称分组:
迭代器的测试程序参见 bpf_iter.c[13] 文件。
表格有调整,增加了说明和代码实现,添加了 bpf_link 和 ksym 迭代器。
迭代器类型 | 说明 | 代码实现 | 可使用的上游迭代器 |
---|---|---|---|
iter/bpf_prog | 遍历内核中的 BPF 程序 | kernel/bpf/prog_iter.c[14] | iterators.bpf.c[15] |
ter/bpf_map | 遍历内核中的 BPF Map 对象 | kernel/bpf/map_iter.c[16] | bpf_iter_bpf_map.c[17] |
iter/bpf_map_elem | 遍历内核中的 BPF Map 中的元素 | kernel/bpf/map_iter.c[18] | bpf_iter_bpf_hash_map.c[19] bpf_iter_bpf_array_map.c[20] bpf_iter_bpf_percpu_hash_map.c[21] |
iter/bpf_sk_storage_map | 遍历内核中 BPF SK 本地存储结构 [参见提交[22]] | net/core/bpf_sk_storage.c[23] | bpf_iter_bpf_sk_storage_map.c[24] |
iter/task | 遍历内核中的任务 | kernel/bpf/task_iter.c[25] | bpf_iter_task.c[26] bpf_iter_task_stack.c[27] |
iter/task_file | 遍历任务中文件信息 | kernel/bpf/task_iter.c[28] | bpf_iter_task_file.c[29] |
iter/task_vma | 遍历内核中任务的内存分布 | kernel/bpf/task_iter.c[30] | bpf_iter_task_vma.c[31] |
iter/tcp | 遍历内核中 TCP 结构信息 | net/ipv4/tcp_ipv4.c[32] | progs/bpf_iter_tcp4.c[33] progs/bpf_iter_tcp6.c[34] |
iter/udp | 遍历内核中 UDP 结构信息 | net/ipv4/udp.c[35] | bpf_iter_udp4.c[36] bpf_iter_udp6.c[37] |
iter/unix | 遍历内核中 Unix 域结构信息 | net/unix/af_unix.c[38] | bpf_iter_unix.c[39] |
iter/netlink | 遍历内核中 Netllink 结构信息 | net/netlink/af_netlink.c[40] | bpf_iter_netlink.c[41] |
iter/ipv6_route | 遍历内核中 IPv6 路由结构信息 | net/ipv6/route.c[42] | bpf_iter_ipv6_route.c[43] |
iter/sockmap | 遍历内核中的 sockmap 结构 | net/core/sock_map.c[44] | bpf_iter_sockmap.c[45] |
iter/bpf_link (内核 5.19) | 遍历 BPF Link 数据结构 | kernel/bpf/link_iter.c[46] commit[47] | bpf_iter_bpf_link.c[48] |
iter/ksym(内核 6.0) | 遍历内核 ksym 符号信息 | kernel/kallsyms.c[49] commit[50] | bpf_iter_ksym.c[51] |
备注:所有实现的迭代都会调用 bpf_iter_reg_target 函数注册,可以从源码搜索该函数快速找到实现文件。截止到内核 5.15 版本实现了 13 种迭代器,其中 bpf_prog/bpf_map 为 BPF 预实现和加载的迭代器(参见文件 kernel/bpf/preload/iterators/iterators.bpf.c),后续添加的还有 iter/bpf_link(Linux 5.19)[52], iter/ksym(Linux 6.0)[53]等等。
在 Meta ,我们基于 bpftool 工具使用 BPF task_file
迭代器来显示引用特定 BPF program/map/link 的进程号。
sudo bpftool prog
显示的输出如下所示:
1254794: kprobe name trace_connect_v tag b81e89cf4f522e62 gpl run_time_ns
27119 run_cnt 30
loaded_at 2022-02-13T10:54:46-0800 uid 0
xlated 640B jited 374B memlock 4096B map_ids 732740,732739
btf_id 1163033
pids python3.8(443701)
1254795: kprobe name trace_connect_v tag a12d26e14608b148 gpl run_time_ns
1662739 run_cnt 2552
loaded_at 2022-02-13T10:54:46-0800 uid 0
xlated 648B jited 382B memlock 4096B map_ids 732740,732738
btf_id 1163033
pids python3.8(443701)
我们还开发了基于 bpf_sk_storage
和 task_iter
迭代器分别开发了工具 fbflow 和 dyno 。其中基于 task_iter 迭代器实现的 dyno 中的 task_iter,与所有任务的基于 netlink 的 taskstats[54] 的旧方式相比,性能有了明显的改善。
有上游讨论为 bpf_links
实现一个 BPF 迭代器【备注:已经合入 5.19 内核详见 bpf: Add bpf_link iterator[55]】。我们也看到有人为 mounts 实现了一个 BPF 迭代器(还没有上游化)。随着人们发现更多的用例,我们期待更多的用户在内核中实现 BPF 迭代器。
[1]drgn: https://developers.facebook.com/blog/post/2021/12/09/drgn-how-linux-kernel-team-meta-debugs-kernel-scale/
[2]引用计数: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[3]selftests: https://www.kernel.org/doc/html/latest/dev-tools/kselftest.html
[4]bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c
[5]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c
[6]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c
[7]基于应用计数的: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[8]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c
[9]bpftool iter: https://www.mankier.com/8/bpftool-iter
[10]BPF 文件系统(bpffs): https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs
[11]bpf.h: https://github.com/torvalds/linux/blob/master/include/linux/bpf.h
[12]点击这里: https://lore.kernel.org/bpf/20210212183107.50963-2-songliubraving@fb.com/
[13]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c
[14]kernel/bpf/prog_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/prog_iter.c
[15]iterators.bpf.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/preload/iterators/iterators.bpf.c
[16]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c
[17]bpf_iter_bpf_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_map.c
[18]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c
[19]bpf_iter_bpf_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_hash_map.c
[20]bpf_iter_bpf_array_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_array_map.c
[21]bpf_iter_bpf_percpu_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_percpu_hash_map.c
[22]参见[提交: https://lwn.net/ml/linux-fsdevel/20211201042333.2035153-4-memxor@gmail.com/
[23]net/core/bpf_sk_storage.c: https://github.com/torvalds/linux/blob/master/net/core/bpf_sk_storage.c
[24]bpf_iter_bpf_sk_storage_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_sk_storage_map.c
[25]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[26]bpf_iter_task.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task.c
[27]bpf_iter_task_stack.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_stack.c
[28]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[29]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c
[30]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c
[31]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c
[32]net/ipv4/tcp_ipv4.c: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_ipv4.c
[33]progs/bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c
[34]progs/bpf_iter_tcp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp6.c
[35]net/ipv4/udp.c: https://github.com/torvalds/linux/blob/master/net/ipv4/udp.c
[36]bpf_iter_udp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp4.c
[37]bpf_iter_udp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp6.c
[38]net/unix/af_unix.c: https://github.com/torvalds/linux/blob/master/net/unix/af_unix.c
[39]bpf_iter_unix.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_unix.c
[40]net/netlink/af_netlink.c: https://github.com/torvalds/linux/blob/master/net/netlink/af_netlink.c
[41]bpf_iter_netlink.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_netlink.c
[42]net/ipv6/route.c: https://github.com/torvalds/linux/blob/master/net/ipv6/route.c
[43]bpf_iter_ipv6_route.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ipv6_route.c
[44]net/core/sock_map.c: https://github.com/torvalds/linux/blob/master/net/core/sock_map.c
[45]bpf_iter_sockmap.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_sockmap.c
[46]kernel/bpf/link_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/link_iter.c
[47]commit: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[48]bpf_iter_bpf_link.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_link.c
[49]kernel/kallsyms.c: https://github.com/torvalds/linux/blob/3bc1bc0b59d04e997db25b84babf459ca1cd80b7/kernel/kallsyms.c
[50]commit: https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710#diff-9538b26d3e082f233e6adac664cd2c14cbf2d510d5d7f286eef329c58de87ead
[51]bpf_iter_ksym.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ksym.c
[52]iter/bpf_link(Linux 5.19): https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[53]iter/ksym(Linux 6.0): https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710
[54]基于 netlink 的 taskstats: https://www.kernel.org/doc/Documentation/accounting/taskstats.txt
[55]bpf: Add bpf_link iterator: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8
[56]Yonghong Song: https://www.facebook.com/yonghong.song.583
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8