Как долго адрес локального сокета TCP, который был привязан, недоступен после закрытия?

13

В Linux (мои живые серверы на RHEL 5.5 - ссылки LXR ниже на версию ядра в этом), man 7 ipговорит:

Связанный локальный адрес сокета TCP недоступен в течение некоторого времени после закрытия, если только не был установлен флаг SO_REUSEADDR.

Я не использую SO_REUSEADDR. Как долго это "некоторое время"? Как я могу узнать, сколько это времени, и как я могу это изменить?

Я гуглял вокруг этого и нашел несколько кусочков информации, ни одна из которых не объясняет это с точки зрения программиста приложения. Для остроумия:

  • Параметр TCP_TIMEWAIT_LEN в полеnet/tcp.h «сколько времени ждать, чтобы уничтожить состояние TIME-WAIT» и имеет значение «около 60 секунд».
  • / proc / sys / net / ipv4 / tcp_fin_timeout - «Время удерживать сокет в состоянии FIN-WAIT-2, если он был закрыт нашей стороной», и «Значение по умолчанию - 60 с»

Где я спотыкаюсь, так это в преодолении разрыва между моделью ядра жизненного цикла TCP и недоступностью модели портов программиста, то есть пониманием того, как эти состояния связаны с «некоторым временем».

Том Андерсон
источник
@Caleb: Что касается тегов, bind - это тоже системный вызов! Попробуй, man 2 bindесли не веришь мне. По общему признанию, это, вероятно, не первая вещь, о которой думают юниксы, когда кто-то говорит «связать», настолько справедливо.
Том Андерсон
Мне было хорошо известно об альтернативном использовании bind, но тег здесь специально применяется к DNS-серверу. У нас нет тегов для каждого возможного системного вызова.
Калеб

Ответы:

14

Я полагаю, что идея сокета, недоступного для программы, состоит в том, чтобы позволить любым сегментам данных TCP, которые все еще находятся в пути, приходить и отбрасываться ядром. Это значит, что приложение может вызывать close(2)сокет, но маршрутизация задерживает или делает невозможным управление пакетами, или что вы можете позволить другой стороне TCP-соединения отправлять данные некоторое время. Приложение указало, что оно больше не хочет иметь дело с сегментами данных TCP, поэтому ядро ​​должно просто отбрасывать их по мере их поступления.

Я взломал небольшую программу на C, которую вы можете скомпилировать и использовать, чтобы узнать, как долго это время ожидания:

#include <stdio.h>        /* fprintf() */
#include <string.h>       /* strerror() */
#include <errno.h>        /* errno */
#include <stdlib.h>       /* strtol() */
#include <signal.h>       /* signal() */
#include <sys/time.h>     /* struct timeval */
#include <unistd.h>       /* read(), write(), close(), gettimeofday() */
#include <sys/types.h>    /* socket() */
#include <sys/socket.h>   /* socket-related stuff */
#include <netinet/in.h>
#include <arpa/inet.h>    /* inet_ntoa() */
float elapsed_time(struct timeval before, struct timeval after);
int
main(int ac, char **av)
{
        int opt;
        int listen_fd = -1;
        unsigned short port = 0;
        struct sockaddr_in  serv_addr;
        struct timeval before_bind;
        struct timeval after_bind;

        while (-1 != (opt = getopt(ac, av, "p:"))) {
                switch (opt) {
                case 'p':
                        port = (unsigned short)atoi(optarg);
                        break;
                }
        }

        if (0 == port) {
                fprintf(stderr, "Need a port to listen on\n");
                return 2;
        }

        if (0 > (listen_fd = socket(AF_INET, SOCK_STREAM, 0))) {
                fprintf(stderr, "Opening socket: %s\n", strerror(errno));
                return 1;
        }

        memset(&serv_addr, '\0', sizeof(serv_addr));
        serv_addr.sin_family      = AF_INET;
        serv_addr.sin_addr.s_addr = htonl(INADDR_ANY);
        serv_addr.sin_port        = htons(port);

        gettimeofday(&before_bind, NULL);
        while (0 > bind(listen_fd, (struct sockaddr *)&serv_addr, sizeof(serv_addr))) {
                fprintf(stderr, "binding socket to port %d: %s\n",
                        ntohs(serv_addr.sin_port),
                        strerror(errno));

                sleep(1);
        }
        gettimeofday(&after_bind, NULL);
        printf("bind took %.5f seconds\n", elapsed_time(before_bind, after_bind));

        printf("# Listening on port %d\n", ntohs(serv_addr.sin_port));
        if (0 > listen(listen_fd, 100)) {
                fprintf(stderr, "listen() on fd %d: %s\n",
                        listen_fd,
                        strerror(errno));
                return 1;
        }

        {
                struct sockaddr_in  cli_addr;
                struct timeval before;
                int newfd;
                socklen_t clilen;

                clilen = sizeof(cli_addr);

                if (0 > (newfd = accept(listen_fd, (struct sockaddr *)&cli_addr, &clilen))) {
                        fprintf(stderr, "accept() on fd %d: %s\n", listen_fd, strerror(errno));
                        exit(2);
                }
                gettimeofday(&before, NULL);
                printf("At %ld.%06ld\tconnected to: %s\n",
                        before.tv_sec, before.tv_usec,
                        inet_ntoa(cli_addr.sin_addr)
                );
                fflush(stdout);

                while (close(newfd) == EINTR) ;
        }

        if (0 > close(listen_fd))
                fprintf(stderr, "Closing socket: %s\n", strerror(errno));

        return 0;
}
float
elapsed_time(struct timeval before, struct timeval after)
{
        float r = 0.0;

        if (before.tv_usec > after.tv_usec) {
                after.tv_usec += 1000000;
                --after.tv_sec;
        }

        r = (float)(after.tv_sec - before.tv_sec)
                + (1.0E-6)*(float)(after.tv_usec - before.tv_usec);

        return r;
}

Я попробовал эту программу на 3 разных машинах, и я получаю переменное время, от 55 до 59 секунд, когда ядро ​​отказывается разрешить некорневому пользователю вновь открывать сокет. Я скомпилировал приведенный выше код в исполняемый файл с именем «opener» и запустил его так:

./opener -p 7896; ./opener -p 7896

Я открыл другое окно и сделал это:

telnet otherhost 7896

Это заставляет первый экземпляр «opener» принять соединение, а затем закрыть его. Второй экземпляр «opener» пытается подключиться к bind(2)TCP-порту 7896 каждую секунду. «opener» сообщает о задержке от 55 до 59 секунд.

Погуглив, я обнаружил, что люди рекомендуют делать это:

echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout

сократить этот интервал. Это не сработало для меня. Из 4 машин linux, к которым у меня был доступ, у двух было 30, а у двух - 60. Я также установил это значение равным 10. Никакой разницы для программы «opener».

Делая это:

echo 1 > /proc/sys/net/ipv4/tcp_tw_recycle

действительно изменил вещи. Второму «открывателю» потребовалось всего около 3 секунд, чтобы получить новый сокет.

Брюс Эдигер
источник
3
Я понимаю (примерно), какова цель периода недоступности. То, что я хотел бы знать, это то, как долго этот период в Linux и как его можно изменить. Проблема с числом на странице Википедии о TCP заключается в том, что это обязательно обобщенное значение, а не то, что определенно верно для моей конкретной платформы.
Том Андерсон
ваши размышления были интересными! просто помечайте их как заголовки, а не удаляйте их, это дает возможность искать причину!
Филипп Гачу