BPFtrace编程入门 - 哈喽比特 - https://www.hellobit.com.cn

786次阅读 | 发布于3年以前

BPFtrace是一个基于BCC和eBPF技术的开源跟踪工具，同时提供高级编程语言用于创建功能强大的单行程序和BPFtrace工具。相较于BPF c和BPF python在自定义工具方面有着不可比拟的优势。有利于初学者快速创建属于自己的工具。

文章主要内容包括：

BPFtrace的特性
BPFtrace和Ftrace比较
BPFtrace编程

BPFtrace特性

插桩所需要的额外系统开销较低
在生产环境中只能由root用户使用
工具应尽量简单、短小。更复杂的工具需要借助BCC实现。
新手教学文档和帮助文档齐全、完整。

BPFtrace和Ftrace比较

BPFtrace提供一种和c语言以及awk非常相似的编程语言，而Ftrace则使用一种自有语法来实现对内核的探测功能。由于Ftrace所需要的依赖比BPFtrace少，因此Ftrace更适用于嵌入式Linux环境，BPFtrace适合个人计算机或服务器环境。Ftrace在某些功能上经过专门的性能优化，因而在一些特定事件上Ftrace比BPFtrace更加高效。

BPFtrace编程

1. 编写hello world！

单行程序：

bpftrace -e 'BEGIN {printf("hello world!\n");}'

文件格式：

#!/usr/local/bin/bpftrace

BEGIN
{
    printf("hello world!\n");
}
//文档格式中换行和缩进不是必须的
//文档运行方式：bpftrace 文档名;文档后缀.bt,也可以不用加后缀

程序运行后会打印出“hello world！”，按Ctrl+c退出程序。

从上面程序中可以看出bpftrace单行程序基本格式为：bpftrace -e '探针 {代码块} 探针 {代码块} ......'，代码段需要放在单引号中，避免shell对其进行解释。文档程序的编写方式和单行程序一样。

2. 读取用户态函数参数

用户程序：

#include <stdio.h>

int a = 1, b = 2;

int add (int x,int y)
{
  return x + y;
}

int main()
{
  int c;
  c = add(a, b); 
  printf("%d\n", c);
  return 0;
}

bpftrace单行程序：

bpftrace -e 'uprobe:/home/qz/a.out:add {@a = arg0;}'

打印结果：

$ sudo bpftrace -e 'uprobe:/home/qiao/a.out:add {@a = arg0;}'
Attaching 1 probe...
^C

@a: 1

这块打印用户态程序add函数的第一个参数，用内置变量arg0表示，通过映射变量a输出数据。若需要跟踪其他参数可以使用arg1、arg2 ...... argN表示。

通过上面两个例子让我们对bpftrace有个直观感受，但是在正式编写可用工具之前还需要熟悉几个知识点：

1.程序注释：bpftrace注释方式和c语言一样：

//单行注释

/*
 *多行注释
 */

2. 探针格式：

探针类型：标识符1：标识符2：......

标识符的类型由探针类型决定。内核级别的探针可以使用“pbftrace -l”命令查看，这个命令会以标准格式完整的打印出bpftrace支持的跟踪点。用户态探针格式为‘uprobe：用户程序二进制文档的绝对地址：跟踪的函数名’。例如：

kprobe：vfs_read              //内核探针
uprobe：/home/qz/a.out:add    //用户探针

3.探针通配符：

kprobe：vfs_*

这会对bpftrace支持的所有以vfs_开头的内核函数进行插桩。通配符不仅可以在探针插桩上使用，而且也能在查找跟踪点上使用。例如：

bpftrace -l 'vfs_*'

这个命令会打印出bpftrace支持的所有以vfs_*开头的内核函数。

4.过滤器：

过滤器是一个布尔表达式，当检查内容为真时才会继续执行后面的程序。例如下面的过滤条件：

/pid/ 
/pid == 1234/
/pid == 100 || pid == 1234/   //过滤器允许使用布尔运算符

5.代码块：

一个代码块可以是单条语句，也可以是多条语句，多条语句需要使用分号将语句分隔。例如：

bpftrace -e ‘探针 {语句1； 语句2；......}‘

6.函数：

除了第一个例子中的printf()之外，还有time()、exit()、str()等，更多支持的函数参考https://github.com/iovisor/bpftrace/blob/master/docs/reference_guide.md

7.变量：

变量分为内置变量、临时变量和映射变量。

7.1 内置变量：由bpftrace预先定义好，可以直接读取信息的变量。例如表示进程ID的pid变量，表示进程名的comm表示以纳秒为单位的nsecs等。

7.2 临时变量：可以用于临时存储数据、计算的变量。以‘‘$’’作为前缀。例如：

$a = 1;
$b = "qwer";
$c = (struct task_struct *)ts;

7.3 映射变量：使用映射表存储数据，以“@”作为前缀，同时也可以用作全局存储，在不同语句间传递数据。

probe1 {@a = 10;}
probe2 {$b = @a;}
probe3 {@ns[pid] = nsecs;} // 定义关联数组，相当于定义一个哈希表，名称是ns，键是pid。

编写小工具，打印进程调用vfs_read函数需要的时间

目标：利用上面所学的知识点，计算进程调用vfs_read函数所需要的时间，并用直方图的形式打印。

单行程序：

bpftrace -e 'kprobe:vfs_read {@start[pid] = nsecs;} kretprobe:vfs_read /@start[pid]/ {@ns[comm] = hist(nsecs - @start[pid]); delete(@start[pid]);}'

文档程序：

#!/usr/local/bin/bpftrace
kprobe:vfs_read
{
    @start[pid] = nsecs;
} 

kretprobe:vfs_read 
/@start[pid]/ 
{
    @ns[comm] = hist(nsecs - @start[pid]); 
    delete(@start[pid]);
}

程序使用kprobe对函数开始位置进行插桩，读取开始调用函数时的时间。使用kretprobe读取函数结束时的时间，然后两个时间做减法，计算出进程调用vfs_read函数的时间。最后利用hist()函数将数据打印出来。这块使用/@start[pid]/ 作为过滤条件，是为了确保程序已经记录了函数调用的起始时间，否则会出现错误数据。

学习资料：

《BPF之巅》

https://github.com/iovisor/bpftrace/blob/master/docs/