NGINX + PHP5-FPM segfaults sob alta carga!

1

Eu tenho lidado com esse problema o dia todo e isso está me deixando louco. Todos os resultados e pesquisas do Google aqui levam a becos sem saída. Espero que alguém possa trabalhar comigo para fornecer uma solução para mim e para futuras vítimas. Aqui vamos nós.

Estou executando um site muito popular com mais de 3 milhões de visualizações de página por dia. Em média, 34 visualizações de páginas por segundo, mas de forma mais realista, durante os horários de pico, chega a mais de 300 exibições de páginas por segundo. Pense nisto como pedidos.

Estou executando um servidor Ubuntu 10.04 de 64 bits com 2 CPUs E5620, 12 GB de RAM e um SSD Micron P300 de 6 Gb / s. Durante as horas de pico, a carga da CPU e da memória é média (20-30% da CPU e metade da memória é usada).

O software que capacita este site é: NGINX, MySQL, PHP5-FPM, PHP-APC e Memcached. Ok, agora finalmente a carne do post, aqui estão meus logs de erro. Há um monte desses erros registrados.

/ var / log / php5-fpm

Jul 20 14:49:47.289895 [NOTICE] fpm is running, pid 29373
Jul 20 14:49:47.337092 [NOTICE] ready to handle connections
Jul 20 14:51:23.957504 [ERROR] [pool www] unable to retrieve process activity of one or more child(ren). Will try again later.
Jul 20 14:51:41.846439 [WARNING] [pool www] child 29534 exited with code 1 after 114.518174 seconds from start
Jul 20 14:51:41.846797 [NOTICE] [pool www] child 29597 started
Jul 20 14:51:41.896653 [WARNING] [pool www] child 29408 exited on signal 11 SIGSEGV after 114.596706 seconds from start
Jul 20 14:51:41.897178 [NOTICE] [pool www] child 29598 started
Jul 20 14:51:41.903286 [WARNING] [pool www] child 29398 exited with code 1 after 114.605761 seconds from start
Jul 20 14:51:41.903719 [NOTICE] [pool www] child 29600 started
Jul 20 14:51:41.907816 [WARNING] [pool www] child 29437 exited with code 1 after 114.601417 seconds from start
Jul 20 14:51:41.908253 [NOTICE] [pool www] child 29601 started
Jul 20 14:51:41.916002 [WARNING] [pool www] child 29513 exited with code 1 after 114.592514 seconds from start
Jul 20 14:51:41.916501 [NOTICE] [pool www] child 29602 started
Jul 20 14:51:41.916558 [WARNING] [pool www] child 29494 exited on signal 11 SIGSEGV after 114.597355 seconds from start
Jul 20 14:51:41.916873 [NOTICE] [pool www] child 29603 started
Jul 20 14:51:41.921389 [WARNING] [pool www] child 29502 exited with code 1 after 114.600405 seconds from start

/var/log/nginx/error.log

2011/07/20 15:48:42 [error] 29583#0: *569743 readv() failed (104: Connection reset by peer) while reading upstream, client: 77.223.197.193, server: domain.com, request: "GET /favicon.ico HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29578#0: *571695 readv() failed (104: Connection reset by peer) while reading upstream, client: 150.70.64.196, server: domain.com, request: "GET /page HTTP/1.0", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29581#0: *571050 readv() failed (104: Connection reset by peer) while reading upstream, client: 110.136.157.66, server: domain.com, request: "GET /page HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29581#0: *564892 readv() failed (104: Connection reset by peer) while reading upstream, client: 110.136.161.214, server: domain.com, request: "GET /page HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29585#0: *456171 readv() failed (104: Connection reset by peer) while reading upstream, client: 93.223.33.135, server: domain.com, request: "GET /favicon.ico HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29585#0: *471192 readv() failed (104: Connection reset by peer) while reading upstream, client: 74.90.33.142, server: domain.com, request: "GET /page HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"
2011/07/20 15:48:42 [error] 29580#0: *570132 readv() failed (104: Connection reset by peer) while reading upstream, client: 180.246.182.191, server: domain.com, request: "GET /page HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "www.domain.com"

Finalmente, quero ressaltar que tentei desativar o PHP-APC para ver se era um bug com o opt cacher, mas os segfaults ainda persistiam. Eu também tenho o PHP5-SUHOSIN instalado e o desativei também, mas os erros continuam acontecendo.

Eu apreciaria muito qualquer ajuda. Obrigado.

    
por Aco 21.07.2011 / 07:03

1 resposta

1

Instale símbolos de depuração para PHP e todos os seus módulos PHP (se o Ubuntu os fornecer; caso contrário, você precisará reconstruir com a depuração ativada) e, em seguida, ative os dumps principais conforme minha resposta a esta questão de poucas horas atrás. Então inicie o GDB e vá para a cidade.

    
por 21.07.2011 / 08:35