在 上篇文章中,设计并实现了一个echo功能的服务器,在客户端每输入一行,都会从服务器回传显示在客户端,如果客户想结束,输入了EOF(CTRL+D),这时客户进入TIME_WAIT状态,而监听服务器仍在等待另一个客户连接。
我们可以总结正常终止客户和服务器的步骤:
(1)当键入EOF的时候,fgets返回一个NULL指针,于是str_cli返回
(2)当str_cli返回到客户端的main函数,main调用exit终止
(3)进程终止处理的部分工作是关闭所有打开的描述符,这样客户打开的套接字由内核关闭,这导客户TCP发送一个FIN给服务器,服务器TCP则以ACK响应,这就是TCP连接终止程序的前半部分。至此,服务器套接字处于CLOSE_WAIT状态,客户套接字处于FIN_WAIT_2状态
(4)当服务器TCP接收FIN时,服务器子进程阻塞于readline调用,于是readline返回0,这导致str_echo函数返回服务器子进程main函数
(5)服务器子进程通过调用exit来终止
(6)服务器子进程中打开的所有描述符随之关闭。由子进程来关闭已连接套接字会引发TCP连接终止序列的最后两个分节:一个从服务器到客户的FIN和一个从客户到服务器的ACK。至此,连接完全终止,客户套接字进入TIME_WAIT状态
(7)进程终止处理的另一部分内容是:在服务器子进程 终止的时候,给父进程发送一个SIGCHLD信号。如果父进程没有捕获,该信号的默认行为是被忽略,父进程未加处理的话,子进程进入僵死状态
首先看signal.h中signal函数的声明:
void (*signal(int signo, void (*func)(int)))(int);
比较复杂,所以使用typedef来简化定义:
typedef void Sigfunc(int);
这样signal的函数原型变为:
Sigfunc *signal(int signo, Sigfunc *func)
关于 typedef 的使用介绍,可以看这里
signal函数的定义如下:
Sigfunc * signal(int signo, Sigfunc *func) { struct sigaction act, oact; act.sa_handler = func; sigemptyset(&act.sa_mask); //将信号集清空初始化 act.sa_flags = 0; if (signo == SIGALRM) { #ifdef SA_INTERRUPT act.sa_flags |= SA_INTERRUPT; /* SunOS 4.x */ #endif } else { #ifdef SA_RESTART act.sa_flags |= SA_RESTART; /* SVR4, 44BSD */ #endif } if (sigaction(signo, &act, &oact) < 0) return(SIG_ERR); return(oact.sa_handler); }
接着进行进一步的封装成自己的signal函数:
Sigfunc * Signal(int signo, Sigfunc *func) { Sigfunc *sigfunc; if ( (sigfunc = signal(signo, func)) == SIG_ERR) err_sys("signal error"); return(sigfunc); }
接着处理本文开始提出的问题,那就是僵死子进程,僵死子进程最后会占用内核空间,最后可能导致耗尽进程资源,所以无论何时我们fork子进程都要wait它们,这里我们建立一个俘获SIGCHLD信号的信号处理函数,在函数体中调用wait
sig_chld函数定义如下:
void sig_chld(int signo) { pid_t pid; int stat; pid = wait(&stat); printf("child %d terminate\n", pid); //信号处理函数调用标准io库函数并不合适,这里只是简化问题 return; }
编译运行:
wu@ubuntu:~/opt/unpv13e/tcpcliserv$ ./tcpserv02 &
[1] 3859
wu@ubuntu:~/opt/unpv13e/tcpcliserv$ ./tcpcli01 127.0.0.1
hi,wuyudong
hi,wuyudong
^D
child 3861 terminated
程序说明:
(1)键入EOF字符终止客户,客户TCP发送一个FIN给服务器,服务器响应一个ACK
(2)收到客户的FIN导致服务器TCP传给一个EOF给子进程阻塞中的readline,从而子进程终止
(3)当SIGCHLD信号递交时,父进程阻塞于accept调用,sig_chld函数(信号处理函数)执行,其wait调用取到子进程的PID和终止状态,随后是printf调用,最后返回
(4)信号是在父进程阻塞于慢系统调用(accept)时由父进程捕获的,内核就会使accept返回一个EINTR错误(被中断的系统调用),而父进程不处理该错误,于是终止
慢系统调用(Slow system call)
该术语适用于那些可能永远阻塞的系统调用。永远阻塞的系统调用是指调用永远无法返回,多数网络支持函数都属于这一类。如:若没有客户连接到服务器上,那么服务器的accept调用就会一直阻塞。
慢系统调用可以被永久阻塞,包括以下几个类别:
(1)读写慢设备(包括pipe,终端设备,网络连接等)。读时,数据不存在,需要等待;写时,缓冲区满或其他原因,需要等待。读写磁盘文件一般不会阻塞。
(2)当打开某些特殊文件时,需要等待某些条件,才能打开。例如:打开中断设备时,需要等到连接设备的modem响应才能完成。
(3)pause和wait函数。pause函数使调用进程睡眠,直到捕获到一个信号。wait等待子进程终止。
(4)某些ioctl操作。
(5)某些IPC操作。
早期的Unix系统,如果进程在一个慢系统调用(slow system call)中阻塞时,当捕获到某个信号且相应信号处理函数返回时,这个系统调用被中断,调用返回错误,设置errno为EINTR(相应的错误描述为“Interrupted system call”)。
如下表所示的系统调用就会产生EINTR错误:
如下表所示的系统调用就会产生EINTR错误,当然不同的函数意义也不同。
系统调用函数 | errno为EINTR表征的意义 |
write | 由于信号中断,没写成功任何数据。 |
open | 由于信号中断,没读到任何数据。 |
recv | 由于信号中断返回,没有任何数据可用。 |
sem_wait | 函数调用被信号处理函数中断。 |
既然系统调用会被中断,那么别忘了要处理被中断的系统调用。有三种处理方式:
- 人为重启被中断的系统调用
- 安装信号时设置 SA_RESTART属性(该方法对有的系统调用无效)
- 忽略信号(让系统不产生信号中断)
人为重启被中断的系统调用
人为当碰到EINTR错误的时候,有一些可以重启的系统调用要进行重启,而对于有一些系统调用是不能够重启的。例如:accept、read、write、select、和open之类的函数来说,是可以进行重启的。不过对于套接字编程中的connect函数我们是不能重启的,若connect函数返回一个EINTR错误的时候,我们不能再次调用它,否则将立即返回一个错误。针对connect不能重启的处理方法是,必须调用select来等待连接完成。
这里的“重启”怎么理解?
一些IO系统调用执行时,如 read 等待输入期间,如果收到一个信号,系统将中断read, 转而执行信号处理函数. 当信号处理返回后, 系统遇到了一个问题: 是重新开始这个系统调用, 还是让系统调用失败?早期UNIX系统的做法是, 中断系统调用,并让系统调用失败, 比如read返回 -1, 同时设置 errno 为EINTR中断了的系统调用是没有完成的调用,它的失败是临时性的,如果再次调用则可能成功,这并不是真正的失败,所以要对这种情况进行处理, 典型的方式为:
again: if ((n = read(fd , buf , BUFFSIZE)) < 0) { if (errno == EINTR) goto again; /* just an interrupted system call */ /* handle other errors */ }
或者
while ((r = read (fd, buf, len)) < 0 && errno == EINTR) /*do nothing*/ ;
再或者
ssize_t Read(int fd , void *ptr , size_t nbytes) { ssize_t n; again: if ((n = read(fd , ptr , nbytes)) == -1) { if (errno == EINTR) goto again; else return -1; } return n; }
安装信号时设置 SA_RESTART属性
我们还可以从信号的角度来解决这个问题, 安装信号的时候,设置 SA_RESTART属性,那么当信号处理函数返回后, 不会让系统调用返回失败,而是让被该信号中断的系统调用将自动恢复。
struct sigaction action; action.sa_handler = handler_func; sigemptyset(&action.sa_mask); action.sa_flags = 0; /* 设置SA_RESTART属性 */ action.sa_flags |= SA_RESTART; sigaction(SIGALRM, &action, NULL);
忽略信号
当然最简单的方法是忽略信号,在安装信号时,明确告诉系统不会产生该信号的中断。
struct sigaction action; action.sa_handler = SIG_IGN; sigemptyset(&action.sa_mask); sigaction(SIGALRM, &action, NULL);
这样上篇文章中的代码可以修改为:
for (;;) { clilen = sizeof(cliaddr); if ((connfd = accept(listenfd, (SA *) & cliaddr, &clilen)) < 0) { if (errno == EINTR) continue; /* back to for() */ else err_sys("accept error"); } }
Comments