文章目录[隐藏]
杀死 subprocess.Popen 的子子孙孙
2014 年 11 月 09 日
Python 标准库 subprocess.Popen 是 shellout 一个外部进程的首选,它在
Linux/Unix 平台下的实现方式是 fork 产生子进程然后 exec
载入外部可执行程序。
于是问题就来了,如果我们需要一个类似“夹具”的子进程(比如运行 Web
集成测试的时候跑起来的那个被测试 Server),
那么就需要在退出上下文的时候清理现场,也就是结束被跑起来的子进程。
最简单粗暴的做法可以是这样:
process_fixture.py
@contextlib.contextmanager def process_fixture(shell_args): proc = subprocess.Popen(shell_args) try: yield finally: # 无论是否发生异常,现场都是需要清理的 proc.terminate() proc.wait() if __name__ == '__main__': with process_fixture(['python', 'SimpleHTTPServer', '8080']) as proc: print('pid %d' % proc.pid) print(urllib.urlopen('http://localhost:8080').read())
那个 proc.wait() 是不可以偷懒省掉的,否则如果子进程被中止了而父进程继续运行,
子进程就会一直占用 pid 而成为僵尸,直到父进程也中止了才被托孤给 init 清理掉。
这个简单粗暴版对简单的情况可能有效,但是被运行的程序可能没那么听话。被运行程序可能会再
fork 一些子进程来工作,自己则只当监工 —— 这是不少 Web Server 的做法。
对这种被运行程序如果简单地 terminate,也即对其 pid 发 SIGTERM,
那就相当于谋杀了监工进程,真正的工作进程也就因此被托孤给 init,变成畸形的守护进程……
嗯没错,这就是我一开始遇到的问题,CI Server 上明明已经中止了 Web Server
进程了,下一轮测试跑起来的时候端口仍然是被占用的。
这个问题稍微有点棘手,因为自从被运行程序 fork 以后,产生的子进程都享有独立的进程空间和
pid,也就是它超出了我们触碰的范围。好在 subprocess.Popen 有个
preexec_fn 参数,它接受一个回调函数,并在 fork 之后 exec
之前的间隙中执行它。我们可以利用这个特性对被运行的子进程做出一些修改,比如执行
setsid() 成立一个独立的进程组。
Linux 的进程组是一个进程的集合,任何进程用系统调用 setsid
可以创建一个新的进程组,并让自己成为首领进程。首领进程的子子孙孙只要没有再调用
setsid 成立自己的独立进程组,那么它都将成为这个进程组的成员。
之后进程组内只要还有一个存活的进程,那么这个进程组就还是存在的,即使首领进程已经死亡也不例外。
而这个存在的意义在于,我们只要知道了首领进程的 pid (同时也是进程组的 pgid),
那么可以给整个进程组发送 signal,组内的所有进程都会收到。
因此利用这个特性,就可以通过 preexec_fn 参数让 Popen 成立自己的进程组,
然后再向进程组发送 SIGTERM 或 SIGKILL,中止 subprocess.Popen
所启动进程的子子孙孙。当然,前提是这些子子孙孙中没有进程再调用 setsid 分裂自立门户。
前文的例子经过修改是这样的:
better_process_fixture.py
import signal import os import contextlib import subprocess import logging import warnings @contextlib.contextmanager def process_fixture(shell_args): proc = subprocess.Popen(shell_args, preexec_fn=os.setsid) try: yield finally: proc.terminate() proc.wait() try: os.killpg(proc.pid, signal.SIGTERM) except OSError as e: warnings.warn(e)
Python 3.2 之后 subprocess.Popen 新增了一个选项 start_new_session,
Popen(args, start_new_session=True) 即等效于 preexec_fn=os.setsid 。
这种利用进程组来清理子进程的后代的方法,比简单地中止子进程本身更加“干净”。基于
Python 实现的 Procfile 进程管理工具 Honcho
也采用了这个方法。当然,因为不能保证被运行进程的子进程一定不会调用 setsid,
所以这个方法不能算“通用”,只能算“相对可用”。如果真的要百分之百通用,那么像
systemd 那样使用 cgroups 来追溯进程创建过程也许是唯一的办法。也难怪说 systemd
是第一个能正确地关闭服务的 init 工具。
Posted by Jiangge Zhang
2014 年 11 月 09 日
Python
System Programming
Process
Measure
Measure
暂无评论
要发表评论,您必须先 登录