Wu Yudong's Blog

在上篇文章中，设计并实现了一个echo功能的服务器，在客户端每输入一行，都会从服务器回传显示在客户端，如果客户想结束，输入了EOF（CTRL+D），这时客户进入TIME_WAIT状态，而监听服务器仍在等待另一个客户连接。

我们可以总结正常终止客户和服务器的步骤：

（1）当键入EOF的时候，fgets返回一个NULL指针，于是str_cli返回

（2）当str_cli返回到客户端的main函数，main调用exit终止

（3）进程终止处理的部分工作是关闭所有打开的描述符，这样客户打开的套接字由内核关闭，这导客户TCP发送一个FIN给服务器，服务器TCP则以ACK响应，这就是TCP连接终止程序的前半部分。至此，服务器套接字处于CLOSE_WAIT状态，客户套接字处于FIN_WAIT_2状态

（4）当服务器TCP接收FIN时，服务器子进程阻塞于readline调用，于是readline返回0，这导致str_echo函数返回服务器子进程main函数

（5）服务器子进程通过调用exit来终止

（6）服务器子进程中打开的所有描述符随之关闭。由子进程来关闭已连接套接字会引发TCP连接终止序列的最后两个分节：一个从服务器到客户的FIN和一个从客户到服务器的ACK。至此，连接完全终止，客户套接字进入TIME_WAIT状态

（7）进程终止处理的另一部分内容是：在服务器子进程终止的时候，给父进程发送一个SIGCHLD信号。如果父进程没有捕获，该信号的默认行为是被忽略，父进程未加处理的话，子进程进入僵死状态

首先看signal.h中signal函数的声明：

void (*signal(int signo, void (*func)(int)))(int);

比较复杂，所以使用typedef来简化定义：

typedef void Sigfunc(int);

这样signal的函数原型变为：

Sigfunc *signal(int signo, Sigfunc *func)

关于 typedef 的使用介绍，可以看这里

signal函数的定义如下：

Sigfunc *
signal(int signo, Sigfunc *func)
{
    struct sigaction    act, oact;

    act.sa_handler = func;
    sigemptyset(&act.sa_mask); //将信号集清空初始化
    act.sa_flags = 0;
    if (signo == SIGALRM) {
#ifdef    SA_INTERRUPT
        act.sa_flags |= SA_INTERRUPT;    /* SunOS 4.x */
#endif
    } else {
#ifdef    SA_RESTART
        act.sa_flags |= SA_RESTART;        /* SVR4, 44BSD */
#endif
    }
    if (sigaction(signo, &act, &oact) < 0)
        return(SIG_ERR);
    return(oact.sa_handler);
}

接着进行进一步的封装成自己的signal函数：

Sigfunc *
Signal(int signo, Sigfunc *func)
{
    Sigfunc    *sigfunc;
    if ( (sigfunc = signal(signo, func)) == SIG_ERR)
        err_sys("signal error");
    return(sigfunc);
}

接着处理本文开始提出的问题，那就是僵死子进程，僵死子进程最后会占用内核空间，最后可能导致耗尽进程资源，所以无论何时我们fork子进程都要wait它们，这里我们建立一个俘获SIGCHLD信号的信号处理函数，在函数体中调用wait

sig_chld函数定义如下：

void sig_chld(int signo)
{
       pid_t  pid;
       int      stat;
       pid = wait(&stat);
       printf("child %d terminate\n", pid);   //信号处理函数调用标准io库函数并不合适，这里只是简化问题
       return;
}

编译运行：

wu@ubuntu:~/opt/unpv13e/tcpcliserv$ ./tcpserv02 &
[1] 3859
wu@ubuntu:~/opt/unpv13e/tcpcliserv$ ./tcpcli01 127.0.0.1
hi,wuyudong
hi,wuyudong
^D
child 3861 terminated

程序说明:

（1）键入EOF字符终止客户，客户TCP发送一个FIN给服务器，服务器响应一个ACK

（2）收到客户的FIN导致服务器TCP传给一个EOF给子进程阻塞中的readline，从而子进程终止

（3）当SIGCHLD信号递交时，父进程阻塞于accept调用，sig_chld函数（信号处理函数）执行，其wait调用取到子进程的PID和终止状态，随后是printf调用，最后返回

（4）信号是在父进程阻塞于慢系统调用（accept）时由父进程捕获的，内核就会使accept返回一个EINTR错误（被中断的系统调用），而父进程不处理该错误，于是终止

慢系统调用（Slow system call）

该术语适用于那些可能永远阻塞的系统调用。永远阻塞的系统调用是指调用永远无法返回，多数网络支持函数都属于这一类。如：若没有客户连接到服务器上，那么服务器的accept调用就会一直阻塞。

慢系统调用可以被永久阻塞，包括以下几个类别：

（1）读写慢设备（包括pipe，终端设备，网络连接等）。读时，数据不存在，需要等待；写时，缓冲区满或其他原因，需要等待。读写磁盘文件一般不会阻塞。

（2）当打开某些特殊文件时，需要等待某些条件，才能打开。例如：打开中断设备时，需要等到连接设备的modem响应才能完成。

（3）pause和wait函数。pause函数使调用进程睡眠，直到捕获到一个信号。wait等待子进程终止。

（4）某些ioctl操作。

（5）某些IPC操作。

早期的Unix系统，如果进程在一个慢系统调用(slow system call)中阻塞时，当捕获到某个信号且相应信号处理函数返回时，这个系统调用被中断，调用返回错误，设置errno为EINTR（相应的错误描述为“Interrupted system call”）。

如下表所示的系统调用就会产生EINTR错误：

如下表所示的系统调用就会产生EINTR错误，当然不同的函数意义也不同。

系统调用函数	errno为EINTR表征的意义
write	由于信号中断，没写成功任何数据。
open	由于信号中断，没读到任何数据。
recv	由于信号中断返回，没有任何数据可用。
sem_wait	函数调用被信号处理函数中断。

既然系统调用会被中断，那么别忘了要处理被中断的系统调用。有三种处理方式：

人为重启被中断的系统调用
安装信号时设置 SA_RESTART属性（该方法对有的系统调用无效）
忽略信号（让系统不产生信号中断）

人为重启被中断的系统调用

人为当碰到EINTR错误的时候，有一些可以重启的系统调用要进行重启，而对于有一些系统调用是不能够重启的。例如：accept、read、write、select、和open之类的函数来说，是可以进行重启的。不过对于套接字编程中的connect函数我们是不能重启的，若connect函数返回一个EINTR错误的时候，我们不能再次调用它，否则将立即返回一个错误。针对connect不能重启的处理方法是，必须调用select来等待连接完成。

这里的“重启”怎么理解？

一些IO系统调用执行时，如 read 等待输入期间，如果收到一个信号，系统将中断read，转而执行信号处理函数. 当信号处理返回后，系统遇到了一个问题：是重新开始这个系统调用，还是让系统调用失败？早期UNIX系统的做法是，中断系统调用，并让系统调用失败，比如read返回 -1，同时设置 errno 为EINTR中断了的系统调用是没有完成的调用，它的失败是临时性的，如果再次调用则可能成功，这并不是真正的失败，所以要对这种情况进行处理，典型的方式为：

again:
if ((n = read(fd ， buf ， BUFFSIZE)) < 0) {
    if (errno == EINTR)
        goto again;                /* just an interrupted system call */
    /* handle other errors */
}

或者

while ((r = read (fd， buf， len)) < 0 && errno == EINTR) /*do nothing*/ ;

再或者

ssize_t Read(int fd ， void *ptr ， size_t nbytes)
{
    ssize_t n;
  again:
    if ((n = read(fd ， ptr ， nbytes)) == -1) {
        if (errno == EINTR)
            goto again;
        else
            return -1;
    }
    return n;
}

安装信号时设置 SA_RESTART属性

我们还可以从信号的角度来解决这个问题，安装信号的时候，设置 SA_RESTART属性，那么当信号处理函数返回后，不会让系统调用返回失败，而是让被该信号中断的系统调用将自动恢复。

struct sigaction action;  
action.sa_handler = handler_func;  
sigemptyset(&action.sa_mask);  
action.sa_flags = 0;  
/* 设置SA_RESTART属性 */  
action.sa_flags |= SA_RESTART;  
sigaction(SIGALRM, &action, NULL);

忽略信号

当然最简单的方法是忽略信号，在安装信号时，明确告诉系统不会产生该信号的中断。

struct sigaction action;  
   
action.sa_handler = SIG_IGN;  
sigemptyset(&action.sa_mask);  
   
sigaction(SIGALRM, &action, NULL);

这样上篇文章中的代码可以修改为：

for (;;) {
    clilen = sizeof(cliaddr);
    if ((connfd = accept(listenfd, (SA *) & cliaddr, &clilen)) < 0) {
        if (errno == EINTR)
            continue;            /* back to for() */
        else
            err_sys("accept error");
    }
}

一个简单的基于 TCP/IP 的 echo 服务器–添加信号

Comments