Linux系统编程之sigtimedwait使用问题记录

近两天做实验，需要在Linux下编写一个反复调用其他程序（application）并等待的程序（invoker）。出现了一个有意思的问题，调了两天终于把这个事情解决了。特此记录一下。

这个程序想要实现的功能是：invoker循环带arguments调用application，并为application设定一个超时时间，如10秒。10秒钟到后，强制结束application并重新开始下一次调用。

原始程序的主要代码精简后如下：

static void init_signal() {
    sigemptyset (&sig_mask);
    sigaddset (&sig_mask, SIGCHLD);
    if (sigprocmask(SIG_BLOCK, &sig_mask, NULL) < 0) PFATAL("sigprocmask() failed");
}
static void run_target(char* argv[]) {
    pid_t pid;

    pid = fork();
    if (pid < 0) PFATAL("fork() failed");

    if (!pid) { // Child process
        execv(argv[0], argv);
        PFATAL("execv() returned");
    }

    // Parent process
    do {
        if (sigtimedwait(&sig_mask, NULL, &timeout) < 0) {
            // Interrupted by a signal other than SIGCHLD.
            if (errno == EINTR) continue;
            // Timeout, kill child.
            else if (errno == EAGAIN) {
                if (kill (pid, SIGKILL) == -1)
                    PFATAL("kill() failed");
            }
            else PFATAL ("sigtimedwait()");
        }
        break;
    } while (1);

    if (waitpid(pid, NULL, 0) <= 0)
        PFATAL("waitpid() failed");
}

本程序的实现主要使用了sigtimedwait系统调用。它的作用是给定一个时长，在给定时长内接收sig_mask所代表的信号，并返回信号ID。如果超时没接收到信号，返回值小于0并且标记errno为EAGAIN。如果被其他信号打断，标记errno为EINTR。

那么上面的实现大概为：用fork+execve调用目标application。parent调用sigtimedwait进行等待。如果程序十秒内结束就立即退出循环，否则调用kill函数杀掉目标进程。然后再调用waitpid回收进程。看起来似乎没啥毛病。

然而在反复的目标application执行过程中，我发现，application超时之后竟然没被杀死。之后我做了几个testcase来复现了一下，并用strace进行跟踪，跟踪结果精简后如下：

rt_sigprocmask(SIG_BLOCK, [CHLD], NULL, 8) = 0
clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7f910f1e4810) = 569769
rt_sigtimedwait([CHLD], NULL, {tv_sec=10, tv_nsec=0}, 8) = -1 EAGAIN (Resource temporarily unavailable)
kill(569769, SIGKILL)                   = 0
wait4(569769, NULL, 0, NULL)            = 569769
clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7f910f1e4810) = 574383
rt_sigtimedwait([CHLD], NULL, {tv_sec=10, tv_nsec=0}, 8) = 17 (SIGCHLD)
wait4(574383,

然后卡住了。看完这个strace之后我百思不得其解，为什么明明569769都被kill了之后，还能产生一个SIGCHLD信号。

后来在做了大量测试之后，突然醒悟：正常结束的进程会产生SIGCHLD信号，被kill的进程也会产生。对于timeout的程序，SIGCHLD没有被第19行的sigtimedwait所捕获。所以留到了下一次执行第19行时再处理。如果恰好这个程序也timeout，那么就会一直卡在第32行的wait。

因此解决方案是，在kill之后再捕获一次SIGCHLD。

更正版的源代码如下：

static void init_signal() {
    sigemptyset (&sig_mask);
    sigaddset (&sig_mask, SIGCHLD);
    if (sigprocmask(SIG_BLOCK, &sig_mask, NULL) < 0) PFATAL("sigprocmask() failed");
}
static void run_target(char* argv[]) {
    pid_t pid;

    pid = fork();
    if (pid < 0) PFATAL("fork() failed");

    if (!pid) { // Child process
        execv(argv[0], argv);
        PFATAL("execv() returned");
    }

    // Parent process
    do {
        if (sigtimedwait(&sig_mask, NULL, &timeout) < 0) {
            // Interrupted by a signal other than SIGCHLD.
            if (errno == EINTR) continue;
            // Timeout, kill child.
            else if (errno == EAGAIN) {
                if (kill (pid, SIGKILL) == -1)
                    PFATAL("kill() failed");
                /* The kill of child also incurs a pending SIGCHLD signal of parent process,
                 * so we must capture it or the signal will affect the next timeout capture,
                 * the program will get stuck. */
                sigtimedwait(&sig_mask, NULL, &timeout);
            }
            else PFATAL ("sigtimedwait()");
        }
        break;
    } while (1);

    if (waitpid(pid, NULL, 0) <= 0)
        PFATAL("waitpid() failed");
}

新的SIGCHLD捕获代码加在了第29行。

值得注意的是，我曾经尝试用usleep（小秒数）+sigtimedwait（timeout为0）的方式去捕获。这样做是行不通的，照样会产生阻塞。而usleep时间高一点做捕获就没有问题（例如10秒），但我不能采用这种方式，因为太影响效率了。

我猜测出现这种情况的原因是：如果usleep采用小秒数的话，sigtimedwait从kill返回+sleep+sigtimedwait检查signal是否pending的时间，要少于kernel kill之后往task_struct里塞信号的时间。这会导致程序捕获不到SIGCHLD，相当于加的没用。

而直接使用sigtimedwait（有timeout）的方式则会在内核态里面阻塞，这样就不用再担心usleep的时间长短问题了。在这里面我的timeout设的是10秒。kernel从kill到塞信号的时间肯定不会长于10秒，所以这样做是没问题的。

参考资料：
[1] https://stackoverflow.com/a/20173592

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

杰克部落

梦想本不会发光，发光的是追梦的你

Linux系统编程之sigtimedwait使用问题记录

《Linux系统编程之sigtimedwait使用问题记录》有2个想法

发表回复