使用 DTrace 和 SystemTap 檢測CPython?

作者

David Malcolm

作者

?ukasz Langa

DTrace和SystemTap是監(jiān)控工具,它們都提供了一種檢查計(jì)算機(jī)系統(tǒng)上的進(jìn)程的方法。 它們都使用特定領(lǐng)域的語言,允許用戶編寫腳本,其中:

  • 進(jìn)程監(jiān)視的過濾器

  • 從感興趣的進(jìn)程中收集數(shù)據(jù)

  • 生成有關(guān)數(shù)據(jù)的報(bào)告

從Python 3.6開始,CPython可以使用嵌入式“標(biāo)記”構(gòu)建,也稱為“探測器”,可以通過DTrace或SystemTap腳本觀察,從而更容易監(jiān)視系統(tǒng)上的CPython進(jìn)程正在做什么。

CPython implementation detail: DTrace標(biāo)記是CPython解釋器的實(shí)現(xiàn)細(xì)節(jié)。 不保證CPython版本之間的探針兼容性。 更改CPython版本時(shí),DTrace腳本可能會停止工作或無法正常工作而不會發(fā)出警告。

啟用靜態(tài)標(biāo)記?

macOS內(nèi)置了對DTrace的支持。 在Linux上,為了使用SystemTap的嵌入式標(biāo)記構(gòu)建CPython,必須安裝SystemTap開發(fā)工具。

在Linux機(jī)器上,這可以通過:

$ yum install systemtap-sdt-devel

或者:

$ sudo apt-get install systemtap-sdt-dev

之后 CPython 必須 配置 --with-dtrace 選項(xiàng):

checking for --with-dtrace... yes

在macOS上,您可以通過在后臺運(yùn)行Python進(jìn)程列出可用的DTrace探測器,并列出Python程序提供的所有探測器:

$ python3.6 -q &
$ sudo dtrace -l -P python$!  # or: dtrace -l -m python3.6

   ID   PROVIDER            MODULE                          FUNCTION NAME
29564 python18035        python3.6          _PyEval_EvalFrameDefault function-entry
29565 python18035        python3.6             dtrace_function_entry function-entry
29566 python18035        python3.6          _PyEval_EvalFrameDefault function-return
29567 python18035        python3.6            dtrace_function_return function-return
29568 python18035        python3.6                           collect gc-done
29569 python18035        python3.6                           collect gc-start
29570 python18035        python3.6          _PyEval_EvalFrameDefault line
29571 python18035        python3.6                 maybe_dtrace_line line

在Linux上,您可以通過查看是否包含“.note.stapsdt”部分來驗(yàn)證構(gòu)建的二進(jìn)制文件中是否存在SystemTap靜態(tài)標(biāo)記。

$ readelf -S ./python | grep .note.stapsdt
[30] .note.stapsdt        NOTE         0000000000000000 00308d78

如果你將 Python 編譯為共享庫(使用 --enable-shared 配置選項(xiàng)),那么你需要改為在共享庫內(nèi)部查看。 例如:

$ readelf -S libpython3.3dm.so.1.0 | grep .note.stapsdt
[29] .note.stapsdt        NOTE         0000000000000000 00365b68

足夠現(xiàn)代的readelf命令可以打印元數(shù)據(jù):

$ readelf -n ./python

Displaying notes found at file offset 0x00000254 with length 0x00000020:
    Owner                 Data size          Description
    GNU                  0x00000010          NT_GNU_ABI_TAG (ABI version tag)
        OS: Linux, ABI: 2.6.32

Displaying notes found at file offset 0x00000274 with length 0x00000024:
    Owner                 Data size          Description
    GNU                  0x00000014          NT_GNU_BUILD_ID (unique build ID bitstring)
        Build ID: df924a2b08a7e89f6e11251d4602022977af2670

Displaying notes found at file offset 0x002d6c30 with length 0x00000144:
    Owner                 Data size          Description
    stapsdt              0x00000031          NT_STAPSDT (SystemTap probe descriptors)
        Provider: python
        Name: gc__start
        Location: 0x00000000004371c3, Base: 0x0000000000630ce2, Semaphore: 0x00000000008d6bf6
        Arguments: -4@%ebx
    stapsdt              0x00000030          NT_STAPSDT (SystemTap probe descriptors)
        Provider: python
        Name: gc__done
        Location: 0x00000000004374e1, Base: 0x0000000000630ce2, Semaphore: 0x00000000008d6bf8
        Arguments: -8@%rax
    stapsdt              0x00000045          NT_STAPSDT (SystemTap probe descriptors)
        Provider: python
        Name: function__entry
        Location: 0x000000000053db6c, Base: 0x0000000000630ce2, Semaphore: 0x00000000008d6be8
        Arguments: 8@%rbp 8@%r12 -4@%eax
    stapsdt              0x00000046          NT_STAPSDT (SystemTap probe descriptors)
        Provider: python
        Name: function__return
        Location: 0x000000000053dba8, Base: 0x0000000000630ce2, Semaphore: 0x00000000008d6bea
        Arguments: 8@%rbp 8@%r12 -4@%eax

上述元數(shù)據(jù)包含SystemTap的信息,描述如何修補(bǔ)策略性放置的機(jī)器代碼指令以啟用SystemTap腳本使用的跟蹤鉤子。

靜態(tài)DTrace探針?

下面的 DTrace 腳本示例可以用來顯示一個(gè) Python 腳本的調(diào)用/返回層次結(jié)構(gòu),只在調(diào)用名為 "start" 的函數(shù)內(nèi)進(jìn)行跟蹤。換句話說,導(dǎo)入時(shí)的函數(shù)調(diào)用不會被列出。

self int indent;

python$target:::function-entry
/copyinstr(arg1) == "start"/
{
        self->trace = 1;
}

python$target:::function-entry
/self->trace/
{
        printf("%d\t%*s:", timestamp, 15, probename);
        printf("%*s", self->indent, "");
        printf("%s:%s:%d\n", basename(copyinstr(arg0)), copyinstr(arg1), arg2);
        self->indent++;
}

python$target:::function-return
/self->trace/
{
        self->indent--;
        printf("%d\t%*s:", timestamp, 15, probename);
        printf("%*s", self->indent, "");
        printf("%s:%s:%d\n", basename(copyinstr(arg0)), copyinstr(arg1), arg2);
}

python$target:::function-return
/copyinstr(arg1) == "start"/
{
        self->trace = 0;
}

它可以這樣調(diào)用:

$ sudo dtrace -q -s call_stack.d -c "python3.6 script.py"

輸出結(jié)果會像這樣:

156641360502280  function-entry:call_stack.py:start:23
156641360518804  function-entry: call_stack.py:function_1:1
156641360532797  function-entry:  call_stack.py:function_3:9
156641360546807 function-return:  call_stack.py:function_3:10
156641360563367 function-return: call_stack.py:function_1:2
156641360578365  function-entry: call_stack.py:function_2:5
156641360591757  function-entry:  call_stack.py:function_1:1
156641360605556  function-entry:   call_stack.py:function_3:9
156641360617482 function-return:   call_stack.py:function_3:10
156641360629814 function-return:  call_stack.py:function_1:2
156641360642285 function-return: call_stack.py:function_2:6
156641360656770  function-entry: call_stack.py:function_3:9
156641360669707 function-return: call_stack.py:function_3:10
156641360687853  function-entry: call_stack.py:function_4:13
156641360700719 function-return: call_stack.py:function_4:14
156641360719640  function-entry: call_stack.py:function_5:18
156641360732567 function-return: call_stack.py:function_5:21
156641360747370 function-return:call_stack.py:start:28

靜態(tài)SystemTap標(biāo)記?

使用 SystemTap 集成的底層方法是直接使用靜態(tài)標(biāo)記。 這需要你顯式地說明包含它們的二進(jìn)制文件。

例如,這個(gè)SystemTap腳本可以用來顯示Python腳本的調(diào)用/返回層次結(jié)構(gòu):

probe process("python").mark("function__entry") {
     filename = user_string($arg1);
     funcname = user_string($arg2);
     lineno = $arg3;

     printf("%s => %s in %s:%d\\n",
            thread_indent(1), funcname, filename, lineno);
}

probe process("python").mark("function__return") {
    filename = user_string($arg1);
    funcname = user_string($arg2);
    lineno = $arg3;

    printf("%s <= %s in %s:%d\\n",
           thread_indent(-1), funcname, filename, lineno);
}

它可以這樣調(diào)用:

$ stap \
  show-call-hierarchy.stp \
  -c "./python test.py"

輸出結(jié)果會像這樣:

11408 python(8274):        => __contains__ in Lib/_abcoll.py:362
11414 python(8274):         => __getitem__ in Lib/os.py:425
11418 python(8274):          => encode in Lib/os.py:490
11424 python(8274):          <= encode in Lib/os.py:493
11428 python(8274):         <= __getitem__ in Lib/os.py:426
11433 python(8274):        <= __contains__ in Lib/_abcoll.py:366

其中的列是:

  • 腳本開始后經(jīng)過的微秒數(shù)

  • 可執(zhí)行文件的名字

  • 進(jìn)程的PID

其余部分則表示腳本執(zhí)行時(shí)的調(diào)用/返回層次結(jié)構(gòu)。

對于 CPython 的 --enable-shared 編譯版,這些標(biāo)記包含在 libpython 共享庫內(nèi)部,并且 probe 的加點(diǎn)路徑需要反映這個(gè)。 例如,上述示例的這一行:

probe process("python").mark("function__entry") {

應(yīng)改為:

probe process("python").library("libpython3.6dm.so.1.0").mark("function__entry") {

(假定為 CPython 3.6 的 調(diào)試編譯版)

可用的靜態(tài)標(biāo)記?

function__entry(str filename, str funcname, int lineno)

這個(gè)標(biāo)記表示一個(gè)Python函數(shù)的執(zhí)行已經(jīng)開始。它只對純 Python (字節(jié)碼)函數(shù)觸發(fā)。

文件名、函數(shù)名和行號作為位置參數(shù)提供給跟蹤腳本,必須使用 $arg1, $arg2, $arg3 訪問:

  • $arg1 : (const char *) 文件名,使用 user_string($arg1) 訪問

  • $arg2 : (const char *) 函數(shù)名,使用 user_string($arg2) 訪問

  • $arg3 : int 行號

function__return(str filename, str funcname, int lineno)

這個(gè)標(biāo)記與 function__entry() 相反,表示Python函數(shù)的執(zhí)行已經(jīng)結(jié)束 (通過 return 或者異常)。 它只對純Python (字節(jié)碼) 函數(shù)觸發(fā)。

參數(shù)和 function__entry() 相同

line(str filename, str funcname, int lineno)

這個(gè)標(biāo)記表示一個(gè) Python 行即將被執(zhí)行。它相當(dāng)于用 Python 分析器逐行追蹤。它不會在C函數(shù)中觸發(fā)。

參數(shù)和 function__entry() 相同

gc__start(int generation)

當(dāng)Python解釋器啟動一個(gè)垃圾回收循環(huán)時(shí)被觸發(fā)。 arg0 是要掃描的生成器,如 gc.collect()。

gc__done(long collected)

當(dāng)Python解釋器完成一個(gè)垃圾回收循環(huán)時(shí)被觸發(fā)。arg0 是收集到的對象的數(shù)量。

import__find__load__start(str modulename)

importlib 試圖查找并加載模塊之前被觸發(fā)。arg0 是模塊名稱。

3.7 新版功能.

import__find__load__done(str modulename, int found)

importlib 的 find_and_load 函數(shù)被調(diào)用后被觸發(fā) 。arg0 是模塊名稱, arg1 表示模塊是否成功加載。

3.7 新版功能.

audit(str event, void *tuple)

當(dāng) sys.audit()PySys_Audit() 被調(diào)用時(shí)啟動。 arg0 是事件名稱的 C 字符串,arg1 是一個(gè)指向元組對象的 PyObject 指針。

3.8 新版功能.

SystemTap Tapsets?

使用SystemTap集成的更高層次的方法是使用 "tapset" 。SystemTap 的等效庫,它隱藏了靜態(tài)標(biāo)記的一些底層細(xì)節(jié)。

這里是一個(gè)基于 CPython 的非共享構(gòu)建的 tapset 文件。

/*
   Provide a higher-level wrapping around the function__entry and
   function__return markers:
 \*/
probe python.function.entry = process("python").mark("function__entry")
{
    filename = user_string($arg1);
    funcname = user_string($arg2);
    lineno = $arg3;
    frameptr = $arg4
}
probe python.function.return = process("python").mark("function__return")
{
    filename = user_string($arg1);
    funcname = user_string($arg2);
    lineno = $arg3;
    frameptr = $arg4
}

如果這個(gè)文件安裝在 SystemTap 的 tapset 目錄下(例如``/usr/share/systemtap/tapset`` ),那么這些額外的探測點(diǎn)就會變得可用。

python.function.entry(str filename, str funcname, int lineno, frameptr)

這個(gè)探針點(diǎn)表示一個(gè)Python函數(shù)的執(zhí)行已經(jīng)開始。它只對純Python (字節(jié)碼)函數(shù)觸發(fā)。

python.function.return(str filename, str funcname, int lineno, frameptr)

這個(gè)探針點(diǎn)是 python.function.return 的反義操作,表示一個(gè) Python 函數(shù)的執(zhí)行已經(jīng)結(jié)束(或是通過 return,或是通過異常)。 它只會針對純 Python(字節(jié)碼)函數(shù)觸發(fā)。

例子?

這個(gè)SystemTap腳本使用上面的tapset來更清晰地實(shí)現(xiàn)上面給出的跟蹤Python函數(shù)調(diào)用層次結(jié)構(gòu)的例子,而不需要直接命名靜態(tài)標(biāo)記。

probe python.function.entry
{
  printf("%s => %s in %s:%d\n",
         thread_indent(1), funcname, filename, lineno);
}

probe python.function.return
{
  printf("%s <= %s in %s:%d\n",
         thread_indent(-1), funcname, filename, lineno);
}

下面的腳本使用上面的tapset提供了所有運(yùn)行中的CPython代碼的頂部視圖,顯示了整個(gè)系統(tǒng)中每一秒鐘最頻繁輸入的前20個(gè)字節(jié)碼幀。

global fn_calls;

probe python.function.entry
{
    fn_calls[pid(), filename, funcname, lineno] += 1;
}

probe timer.ms(1000) {
    printf("\033[2J\033[1;1H") /* clear screen \*/
    printf("%6s %80s %6s %30s %6s\n",
           "PID", "FILENAME", "LINE", "FUNCTION", "CALLS")
    foreach ([pid, filename, funcname, lineno] in fn_calls- limit 20) {
        printf("%6d %80s %6d %30s %6d\n",
            pid, filename, lineno, funcname,
            fn_calls[pid, filename, funcname, lineno]);
    }
    delete fn_calls;
}