Wu Yudong's Blog

《Unix进程环境》一文中曾经指出，进程终止有8种方式使进程终止，其中5中为正常终止，它们是：

1) 从main返回

执行return语句等价于调用exit

2) 调用exit

此函数由ISO C定义，因为ISO C不处理文件描述符、多进程、作业控制，所以这一定义对unix来说是不完整的

3) 调用_exit或_Exit

ISO C定义_Exit，为进程提供一种无需运行终止处理程序或信号处理程序而终止的方法，在Unix中，并不冲洗I/O流。

4) 最后一个线程从其启动例程返回

5) 最后一个线程调用pthread_exit

异常终止有3中方式

6) 调用abort

7) 接到一个信号并终止

8) 最后一个线程对取消请求做出相应

无论进程如何终止，最后都会执行内核中的同一段代码，这段代码为相应进程关闭所有打开描述符，释放它使用的存储器等。

本文地址：http://wuyudong.com/2016/11/14/3012.html，转载请注明出处。

对于子进程而言，无论怎样终止，都希望通知其父进程它是如何终止的，这里分两种终止，

正常终止情况下：对于3个终止函数（exit、_exit、_Exit）将其退出状态作为参数传给函数。

异常状态下：内核产生一个指示其异常终止原因的终止状态。

在以上任何一种情况下，该进程的父进程都能用 wait 和 waitpid 函数取得其终止状态

在fork函数执行后生成子进程，如果父进程在子进程之前终止，则子进程的父进程改为init进程，也称为被init进程（进程id=1）收养；如果子进程在父进程之前终止，内核为每个终止的进程保存了一定量的信息，所以当父进程调用 wait 和 waitpid 函数时，可以得到这些信息。

一个已经终止但是其父进程没有对其善后处理（获取子进程的有关信息、释放它仍占用的资源）的进程称为僵死进程(zombie)，可以使用ps -l打印僵死进程的状态
wu@ubuntu:~/opt/Cproject$ ps -l
F S   UID   PID PPID C PRI NI ADDR SZ WCHAN TTY          TIME CMD
0 S 1000 3778 3749 0 80   0 – 1789 wait   pts/7    00:00:00 bash
0 R 1000 3972 3778 0 80   0 – 1249 –      pts/7    00:00:00 ps

wait函数

无论何时子进程终止，init就会调用一个wait函数取得其终止状态，这样就防止了僵死进程。调用函数wait和waitpid后：

如果其所有的子进程都还在运行，则阻塞
如果一个进程终止，正等待父进程获取终止状态，则取得子进程的终止状态立即返回
如果它没有任何子进程，则立即出错返回

wait函数原型如下：

#include <sys/types.h> /* 提供类型pid_t的定义 */
#include <sys/wait.h>
pid_t wait(int *status)

进程一旦调用了wait，就立即阻塞自己，由wait自动分析是否当前进程的某个子进程已经退出，如果让它找到了这样一个已经变成僵尸的子进程，wait就会收集这个子进程的信息，并把它彻底销毁后返回；如果没有找到这样一个子进程，wait就会一直阻塞在这里，直到有一个出现为止。

参数status用来保存被收集进程退出时的一些状态，它是一个指向int类型的指针。但如果我们对这个子进程是如何死掉的毫不在意，只想把这个僵尸进程消灭掉，（事实上绝大多数情况下，我们都会这样想），我们就可以设定这个参数为NULL，就象下面这样：

pid = wait(NULL);

如果成功，wait会返回被收集的子进程的进程ID，如果调用进程没有子进程，调用就会失败，此时wait返回-1，同时errno被置为ECHILD。

wait调用例程：

/* 
 *  wait1.c 
 *  Created on: 2016-11-14 
 *  Author: wuyudong 
 *  Blog: http://www.wuyudong.com 
 */
#include<sys/types.h>
#include<sys/wait.h>
#include<unistd.h>
#include<stdlib.h>
#include<stdio.h>

int main()
{
    pid_t pc, pr;
    pc = fork();
    if (pc < 0)
        printf("error ocurred!\n");
    else if (pc == 0){
        printf("This is child process with pid of %d\n", getpid());
        sleep(10);
    } else {
        pr = wait(NULL);
        printf("I catched a child process with pid of %d\n", pr);
    }
    exit(0);
}

编译并运行：

wu@ubuntu:~/opt/Cproject/apuetest/wait$ gcc -g wait1.c -o wait1
wu@ubuntu:~/opt/Cproject/apuetest/wait$ ./wait1
This is child process with pid of 5073
I catched a child process with pid of 5073

可以明显注意到，在第2行结果打印出来前有10 秒钟的等待时间，这就是我们设定的让子进程睡眠的时间，只有子进程从睡眠中苏醒过来，它才能正常退出，也就才能被父进程捕捉到。其实这里我们不管设定子进程睡眠的时间有多长，父进程都会一直等待下去，读者如果有兴趣的话，可以试着自己修改一下这个数值，看看会出现怎样的结果。

参数status：

如果参数status的值不是NULL，wait就会把子进程退出时的状态取出并存入其中，这是一个整数值（int），指出了子进程是正常退出还是被非正常结束的（一个进程也可以被其他进程用信号结束），以及正常结束时的返回值，或被哪一个信号结束的等信息。由于这些信息被存放在一个整数的不同二进制位中，所以用常规的方法读取会非常麻烦，人们就设计了一套专门的宏来完成这项工作，下面我们来学习一下其中最常用的两个：

1、WIFEXITED(status) 这个宏用来指出子进程是否为正常退出的，如果是，它会返回一个非零值（请注意，虽然名字一样，这里的参数status并不同于wait唯一的参数—指向整数的指针status，而是那个指针所指向的整数.

2、WEXITSTATUS(status) 当WIFEXITED返回非零值时，我们可以用这个宏来提取子进程的返回值，如果子进程调用exit(5)退出，WEXITSTATUS(status) 就会返回5，请注意，如果进程不是正常退出的，也就是说， WIFEXITED返回0，这个值就毫无意义

下面实战一下：

/* 
 *  wait2.c 
 *  Created on: 2016-11-14 
 *  Author: wuyudong 
 *  Blog: http://www.wuyudong.com 
 */
#include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>

int main()
{
    int status;
    pid_t pc, pr;

    pc = fork();
    if (pc < 0)                    /* 如果出错 */
        printf("error ocurred!\n");
    else if (pc == 0) {            /* 子进程 */
        printf("This is child process with pid of %d.\n", getpid());
        exit(3);                /* 子进程返回3 */
    } else {                    /* 父进程 */
        pr = wait(&status);
        if (WIFEXITED(status)) {    /* 如果WIFEXITED返回非零值 */
            printf("the child process %d exit normally.\n", pr);
            printf("the return code is %d./n", WEXITSTATUS(status));
        } else                    /* 如果WIFEXITED返回零 */
            printf("the child process %d exit abnormally.\n", pr);
    }
    exit(0);
}

编译并运行：

wu@ubuntu:~/opt/Cproject/apuetest/wait$ gcc -g wait2.c -o wait2
wu@ubuntu:~/opt/Cproject/apuetest/wait$ ./wait2
This is child process with pid of 5187.
the child process 5187 exit normally.
the return code is 3.

父进程准确捕捉到了子进程的返回值3，并把它打印了出来。

当然，处理进程退出状态的宏并不止这两个，但它们当中的绝大部分在平时的编程中很少用到，就也不在这里介绍了，有兴趣可以自己参阅Linux man pages去了解它们的用法。

有时候，父进程要求子进程的运算结果进行下一步的运算，或者子进程的功能是为父进程提供了下一步执行的先决条件（如：子进程建立文件，而父进程写入数据），此时父进程就必须在某一个位置停下来，等待子进程运行结束，这种情况称为进程之间的同步，更准确地说，这是进程同步的一种特例。进程同步就是要协调好2个以上的进程，使之以安排好地次序依次执行。解决进程同步问题有更通用的方法，我们将在以后介绍，但对于我们假设的这种情况，则完全可以用wait系统调用简化解决。看下面这段程序：

/* 
 *  wait3.c 
 *  Created on: 2016-11-14 
 *  Author: wuyudong 
 */
#include <sys/types.h>
#include <sys/wait.h>
#include <stdlib.h>
#include <stdio.h>
int main()
{
    pid_t pc, pr;
    int status;
    pc = fork();
    if (pc < 0)
        printf("Error occured on forking.\n");
    else if (pc == 0) {
        /* 子进程的工作 */
        exit(0);
    } else {
        /* 父进程的工作 */
        pr = wait(&status);
        /* 利用子进程的结果 */
    }
    exit(0);
}

这段程序只是个例子，不能真正拿来执行，但它却说明了一些问题，首先，当fork调用成功后，父子进程各做各的事情，但当父进程的工作告一段落，需要用到子进程的结果时，它就停下来调用wait，一直等到子进程运行结束，然后利用子进程的结果继续执行，这样就圆满地解决了我们提出的进程同步问题。

waitpid函数

waitpid系统调用在Linux函数库中的原型是：

#include <sys/types.h> /* 提供类型pid_t的定义 */
#include <sys/wait.h>
pid_t waitpid(pid_t pid,int *status,int options)

从本质上讲，系统调用waitpid和wait的作用是完全相同的，但waitpid多出了两个可由用户控制的参数pid和options，从而为我们编程提供了另一种更灵活的方式。下面我们就来详细介绍一下这两个参数：

pid：从参数的名字pid和类型pid_t中就可以看出，这里需要的是一个进程ID。但当pid取不同的值时，在这里有不同的意义。

pid>0时，只等待进程ID等于pid的子进程，不管其它已经有多少子进程运行结束退出了，只要指定的子进程还没有结束，waitpid就会一直等下去。

pid=-1时，等待任何一个子进程退出，没有任何限制，此时waitpid和wait的作用一模一样。

pid=0时，等待同一个进程组中的任何子进程，如果子进程已经加入了别的进程组，waitpid不会对它做任何理睬。

pid<-1时，等待一个指定进程组中的任何子进程，这个进程组的ID等于pid的绝对值。

options：options提供了一些额外的选项来控制waitpid，目前在Linux中只支持WNOHANG和WUNTRACED两个选项，这是两个常数，可以用”|”运算符把它们连接起来使用，比如：

ret=waitpid(-1, NULL, WNOHANG | WUNTRACED);

如果我们不想使用它们，也可以把options设为0，如：

ret=waitpid(-1, NULL, 0);

如果使用了WNOHANG参数调用waitpid，即使没有子进程退出，它也会立即返回，不会像wait那样永远等下去。

而WUNTRACED参数，由于涉及到一些跟踪调试方面的知识，加之极少用到，这里就不多费笔墨了，有兴趣的读者可以自行查阅相关材料。

看到这里，已经知道wait就是经过包装的waitpid，查看<内核源码目录>/include/unistd.h文件就会发现以下程序段：

static inline pid_t wait(int * wait_stat)
{
    return waitpid(-1, wait_stat, 0);
}

返回值和错误

waitpid的返回值比wait稍微复杂一些，一共有3种情况：

1、当正常返回的时候，waitpid返回收集到的子进程的进程ID；

2、如果设置了选项WNOHANG，而调用中waitpid发现没有已退出的子进程可收集，则返回0；

3、如果调用中出错，则返回-1，这时errno会被设置成相应的值以指示错误所在；

当pid所指示的子进程不存在，或此进程存在，但不是调用进程的子进程，waitpid就会出错返回，这时errno被设置为ECHILD；

再来看一个例子：

/* 
 *  waitpid.c 
 *  Created on: 2016-11-14 
 *  Author: wuyudong 
 */
#include <sys/types.h>
#include <sys/wait.h>
#include <stdlib.h>
#include <stdio.h>
int main()
{
    pid_t pc, pr;

    pc = fork();
    if (pc < 0)                    /* 如果fork出错 */
        printf("Error occured on forking.\n");
    else if (pc == 0) {            /* 如果是子进程 */
        sleep(10);                /* 睡眠10秒 */
        exit(0);
    }
    /* 如果是父进程 */
    do {
        pr = waitpid(pc, NULL, WNOHANG);    /* 使用了WNOHANG参数，waitpid不会在这里等待 */
        if (pr == 0) {            /* 如果没有收集到子进程 */
            printf("No child exited\n");
            sleep(1);
        }
    } while (pr == 0);            /* 没有收集到子进程，就回去继续尝试 */
    if (pr == pc)
        printf("successfully get child %d\n", pr);
    else
        printf("some error occured\n");
    exit(0);
}

调试并运行：

wu@ubuntu:~/opt/Cproject/apuetest/wait$ gcc waitpid.c -o waitpid
wu@ubuntu:~/opt/Cproject/apuetest/wait$ ./waitpid
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
successfully get child 5251

父进程经过10次失败的尝试之后，终于收集到了退出的子进程。

因为这只是一个例子程序，不便写得太复杂，所以我们就让父进程和子进程分别睡眠了10秒钟和1秒钟，代表它们分别作了10秒钟和1秒钟的工作。父子进程都有工作要做，父进程利用工作的简短间歇察看子进程的是否退出，如退出就收集它。

参考资料

http://blog.csdn.net/kevinhg/article/details/7001719

函数wait和waitpid深入剖析

Comments