【译】BPF 迭代器:是个什么东东?

690次阅读  |  发布于2年以前

BPF 迭代器实现了高性能的内核内数据检索和聚合。在本篇博文中,我们谈论了开发 BPF 迭代器工具背后的动机,并展示如何使用其从用户空间来灵活有效地遍历内核数据。

1 . 为什么需要 BPF 迭代器

现有少数方法可以将内核数据复制到到用户空间。最流行是通过 /proc 系统,例如可通过 "cat /proc/net/tcp6" 或者 "cat /proc/net/netlink" 命令打印系统中所有的 tcp6 或 netlink 套接字信息。然而,这种方式输出格式往往是固定的,如果用户想获得关于这些套接字的更多信息,就必须通过给内核打补丁的方式实现,这将涉及到上游和发布,往往需要很长的时间。对于像 ss 这样的流行工具也是如此,任何额外的信息都需要修改内核提交补丁。

drgn[1] 工具可在不修改内核的情况下打印出内核数据,一定程度解决了该问题。但是,drgn 的主要缺点是性能,而且也不能在内核内进行指针追踪。此外,如果指针在内核内变得无效,drgn 可能会产生错误的结果。

BPF 迭代器可用来解决上述相关问题,其提供了对内核中特定数据结构进行一次性修改的灵活性,并且可在内核内进行指针追踪。灵活性是通过使用 BPF 程序实现的,正确性则是通过在内核内实现指针追踪,并通过适当的引用计数[2]或锁保护来确保指针跟踪有效。在目前的状态下,迭代器只改变了内核中一小部分的数据结构。

2 . 如何使用 BPF 迭代器

内核代码中的 BPF selftests[3] 目录提供了很好的用户空间使用 BPF 迭代器的样例。通常,你需要先实现一个 BPF 程序。

以下是几个 selftest 中 BPF 程序的样例:

这里,我们以 bpf_iter_task_file.c 文件为例,用于遍历系统任务中打开的文件相关信息:

SEC("iter/task_file")
int dump_task_file(struct bpf_iter__task_file *ctx)
{
        struct seq_file *seq = ctx->meta->seq;
        struct task_struct *task = ctx->task;
        __u32 fd = ctx->fd;
        struct file *file = ctx->file;
        ...
}

在上面的例子中,SEC("iter/task_file")字段表示该程序是一个 BPF 迭代器程序,可用来迭代所有任务的所有文件。该程序的上下文是 bpf_iter__task_file。你可以在 vmlinux.h 中找到 bpf_iter__task_file 结构体的定义:

struct bpf_iter__task_file {
        union {
         struct bpf_iter_meta *meta;
        };
        union {
         struct task_struct *task;
        };
        u32 fd;
        union {
           struct file *file;
        };
};

在上面的代码中,字段变量名 meta 代表元数据,对所有 BPF 迭代器程序都是一样的。其余的字段则取决于不同的迭代器。例如,对于task_file 迭代器,内核层提供 taskfdfile 相关字段。taskfile 是基于应用计数的[7],所以它们在 BPF 程序运行时不会消失。

编写 BPF 迭代器程序后,我们还需要编写用户空间部分代码,用来触发 BPF 程序运行并收集数据。selftest 目录中的 bpf_iter.c[8] 提供了一个编写对应用户空间部分的例子。以下说明了一个典型的顺序:

BPF 迭代器使用内核的 seq_file 来传递数据至用户空间。该数据可以是一个格式化的字符串或原始数据。在格式化字符串的情况下,你可以使用 bpftool iter[9] 子命令来创建并通过 bpf_link 将一个 BPF 迭代器固定在 BPF 文件系统(bpffs)[10]的路径上。然后你可以使用 cat <path> 来打印结果,例如 cat /proc/net/netlink 这种方式。

例如,你可以使用下面的命令将 bpf_iter_ipv6_route.o 对象文件中的 BPF 程序输出到文件 /sys/fs/bpf/my_route

$ bpftool iter pin ./bpf_iter_ipv6_route.o  /sys/fs/bpf/my_route

然后用以下命令打印出结果:

$ cat /sys/fs/bpf/my_route

3 . BPF 迭代器在内核中的实现

为了在内核中实现一个 BPF 迭代器,开发者必须填写以下定义在 bpf.h[11] 文件中的关键数据结构。

struct bpf_iter_reg {
          const char *target;
          bpf_iter_attach_target_t attach_target;
          bpf_iter_detach_target_t detach_target;
          bpf_iter_show_fdinfo_t show_fdinfo;
          bpf_iter_fill_link_info_t fill_link_info;
          bpf_iter_get_func_proto_t get_func_proto;
          u32 ctx_arg_info_size;
          u32 feature;
          struct bpf_ctx_arg_aux ctx_arg_info[BPF_ITER_CTX_ARG_MAX];
          const struct bpf_iter_seq_info *seq_info;
};

在数据结构字段设置后,然后调用 bpf_iter_reg_target() 将迭代器注册到主 BPF 迭代器子系统。

下面是结构 bpf_iter_reg 中每个字段的解释:

字段 描述
target 指定 BPF 迭代器的名称。例如:bpf_map,bpf_map_elem 该名字应该与内核中其他 bpf_iter 目标名称不能相同。
attach_target 和 detach_target 允许特定目标的 link_create 动作,因为有些目标可能需要特殊处理。在用户空间 link_create 阶段调用。
show_fdinfo 和 fill_link_info 当用户试图获得与迭代器相关的链接信息时,会被调用以填充目标的具体信息。
get_func_proto 允许 BPF 迭代器访问特定于该迭代器的 BPF 辅助函数。
ctx_arg_info_size 和 ctx_arg_info 指定与 BPF 迭代器相关的 BPF 程序参数的验证器状态。
feature 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。
seq_info 指定内核 BPF 迭代器基础设施中的某些动作请求。目前,只有 BPF_ITER_RESCHED 被支持。这意味着内核函数 cond_resched() 被调用,以避免其他内核子系统(如 rcu)的错误行为。

点击这里[12]可查看内核中 task_vma BPF 迭代器的实现。

4 . BPF 迭代器用户场景

下面列出了最新的上游内核中可用的 BPF 迭代器,按 BPF 程序部分名称分组:

迭代器的测试程序参见 bpf_iter.c[13] 文件。

表格有调整,增加了说明和代码实现,添加了 bpf_link 和 ksym 迭代器。

迭代器类型 说明 代码实现 可使用的上游迭代器
iter/bpf_prog 遍历内核中的 BPF 程序 kernel/bpf/prog_iter.c[14] iterators.bpf.c[15]
ter/bpf_map 遍历内核中的 BPF Map 对象 kernel/bpf/map_iter.c[16] bpf_iter_bpf_map.c[17]
iter/bpf_map_elem 遍历内核中的 BPF Map 中的元素 kernel/bpf/map_iter.c[18] bpf_iter_bpf_hash_map.c[19] bpf_iter_bpf_array_map.c[20] bpf_iter_bpf_percpu_hash_map.c[21]
iter/bpf_sk_storage_map 遍历内核中 BPF SK 本地存储结构 [参见提交[22]] net/core/bpf_sk_storage.c[23] bpf_iter_bpf_sk_storage_map.c[24]
iter/task 遍历内核中的任务 kernel/bpf/task_iter.c[25] bpf_iter_task.c[26] bpf_iter_task_stack.c[27]
iter/task_file 遍历任务中文件信息 kernel/bpf/task_iter.c[28] bpf_iter_task_file.c[29]
iter/task_vma 遍历内核中任务的内存分布 kernel/bpf/task_iter.c[30] bpf_iter_task_vma.c[31]
iter/tcp 遍历内核中 TCP 结构信息 net/ipv4/tcp_ipv4.c[32] progs/bpf_iter_tcp4.c[33] progs/bpf_iter_tcp6.c[34]
iter/udp 遍历内核中 UDP 结构信息 net/ipv4/udp.c[35] bpf_iter_udp4.c[36] bpf_iter_udp6.c[37]
iter/unix 遍历内核中 Unix 域结构信息 net/unix/af_unix.c[38] bpf_iter_unix.c[39]
iter/netlink 遍历内核中 Netllink 结构信息 net/netlink/af_netlink.c[40] bpf_iter_netlink.c[41]
iter/ipv6_route 遍历内核中 IPv6 路由结构信息 net/ipv6/route.c[42] bpf_iter_ipv6_route.c[43]
iter/sockmap 遍历内核中的 sockmap 结构 net/core/sock_map.c[44] bpf_iter_sockmap.c[45]
iter/bpf_link (内核 5.19) 遍历 BPF Link 数据结构 kernel/bpf/link_iter.c[46] commit[47] bpf_iter_bpf_link.c[48]
iter/ksym(内核 6.0) 遍历内核 ksym 符号信息 kernel/kallsyms.c[49] commit[50] bpf_iter_ksym.c[51]

备注:所有实现的迭代都会调用 bpf_iter_reg_target 函数注册,可以从源码搜索该函数快速找到实现文件。截止到内核 5.15 版本实现了 13 种迭代器,其中 bpf_prog/bpf_map 为 BPF 预实现和加载的迭代器(参见文件 kernel/bpf/preload/iterators/iterators.bpf.c),后续添加的还有 iter/bpf_link(Linux 5.19)[52], iter/ksym(Linux 6.0)[53]等等。

在 Meta ,我们基于 bpftool 工具使用 BPF task_file 迭代器来显示引用特定 BPF program/map/link 的进程号。

sudo bpftool prog 显示的输出如下所示:

  1254794: kprobe  name trace_connect_v  tag b81e89cf4f522e62  gpl run_time_ns
27119 run_cnt 30
          loaded_at 2022-02-13T10:54:46-0800  uid 0
          xlated 640B  jited 374B  memlock 4096B  map_ids 732740,732739
          btf_id 1163033
          pids python3.8(443701)
  1254795: kprobe  name trace_connect_v  tag a12d26e14608b148  gpl run_time_ns
1662739 run_cnt 2552
          loaded_at 2022-02-13T10:54:46-0800  uid 0
          xlated 648B  jited 382B  memlock 4096B  map_ids 732740,732738
          btf_id 1163033
          pids python3.8(443701)

我们还开发了基于 bpf_sk_storagetask_iter 迭代器分别开发了工具 fbflowdyno 。其中基于 task_iter 迭代器实现的 dyno 中的 task_iter,与所有任务的基于 netlink 的 taskstats[54] 的旧方式相比,性能有了明显的改善。

5 . 后续进展

有上游讨论为 bpf_links 实现一个 BPF 迭代器【备注:已经合入 5.19 内核详见 bpf: Add bpf_link iterator[55]】。我们也看到有人为 mounts 实现了一个 BPF 迭代器(还没有上游化)。随着人们发现更多的用例,我们期待更多的用户在内核中实现 BPF 迭代器。

参考资料

[1]drgn: https://developers.facebook.com/blog/post/2021/12/09/drgn-how-linux-kernel-team-meta-debugs-kernel-scale/

[2]引用计数: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs

[3]selftests: https://www.kernel.org/doc/html/latest/dev-tools/kselftest.html

[4]bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c

[5]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c

[6]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c

[7]基于应用计数的: https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs

[8]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c

[9]bpftool iter: https://www.mankier.com/8/bpftool-iter

[10]BPF 文件系统(bpffs): https://facebookmicrosites.github.io/bpf/blog/2018/08/31/object-lifetime.html#bpffs

[11]bpf.h: https://github.com/torvalds/linux/blob/master/include/linux/bpf.h

[12]点击这里: https://lore.kernel.org/bpf/20210212183107.50963-2-songliubraving@fb.com/

[13]bpf_iter.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/prog_tests/bpf_iter.c

[14]kernel/bpf/prog_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/prog_iter.c

[15]iterators.bpf.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/preload/iterators/iterators.bpf.c

[16]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c

[17]bpf_iter_bpf_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_map.c

[18]kernel/bpf/map_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/map_iter.c

[19]bpf_iter_bpf_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_hash_map.c

[20]bpf_iter_bpf_array_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_array_map.c

[21]bpf_iter_bpf_percpu_hash_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_percpu_hash_map.c

[22]参见[提交: https://lwn.net/ml/linux-fsdevel/20211201042333.2035153-4-memxor@gmail.com/

[23]net/core/bpf_sk_storage.c: https://github.com/torvalds/linux/blob/master/net/core/bpf_sk_storage.c

[24]bpf_iter_bpf_sk_storage_map.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_sk_storage_map.c

[25]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c

[26]bpf_iter_task.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task.c

[27]bpf_iter_task_stack.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_stack.c

[28]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c

[29]bpf_iter_task_file.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_file.c

[30]kernel/bpf/task_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/task_iter.c

[31]bpf_iter_task_vma.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_task_vma.c

[32]net/ipv4/tcp_ipv4.c: https://github.com/torvalds/linux/blob/master/net/ipv4/tcp_ipv4.c

[33]progs/bpf_iter_tcp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp4.c

[34]progs/bpf_iter_tcp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_tcp6.c

[35]net/ipv4/udp.c: https://github.com/torvalds/linux/blob/master/net/ipv4/udp.c

[36]bpf_iter_udp4.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp4.c

[37]bpf_iter_udp6.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_udp6.c

[38]net/unix/af_unix.c: https://github.com/torvalds/linux/blob/master/net/unix/af_unix.c

[39]bpf_iter_unix.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_unix.c

[40]net/netlink/af_netlink.c: https://github.com/torvalds/linux/blob/master/net/netlink/af_netlink.c

[41]bpf_iter_netlink.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_netlink.c

[42]net/ipv6/route.c: https://github.com/torvalds/linux/blob/master/net/ipv6/route.c

[43]bpf_iter_ipv6_route.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ipv6_route.c

[44]net/core/sock_map.c: https://github.com/torvalds/linux/blob/master/net/core/sock_map.c

[45]bpf_iter_sockmap.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_sockmap.c

[46]kernel/bpf/link_iter.c: https://github.com/torvalds/linux/blob/master/kernel/bpf/link_iter.c

[47]commit: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8

[48]bpf_iter_bpf_link.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_bpf_link.c

[49]kernel/kallsyms.c: https://github.com/torvalds/linux/blob/3bc1bc0b59d04e997db25b84babf459ca1cd80b7/kernel/kallsyms.c

[50]commit: https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710#diff-9538b26d3e082f233e6adac664cd2c14cbf2d510d5d7f286eef329c58de87ead

[51]bpf_iter_ksym.c: https://github.com/torvalds/linux/blob/master/tools/testing/selftests/bpf/progs/bpf_iter_ksym.c

[52]iter/bpf_link(Linux 5.19): https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8

[53]iter/ksym(Linux 6.0): https://github.com/torvalds/linux/commit/647cafa22349026a8435030e9157074ab7fe5710

[54]基于 netlink 的 taskstats: https://www.kernel.org/doc/Documentation/accounting/taskstats.txt

[55]bpf: Add bpf_link iterator: https://github.com/torvalds/linux/commit/9f88361273082825d9f0d13a543d49f9fa0d44a8

[56]Yonghong Song: https://www.facebook.com/yonghong.song.583

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8