Estou correndo para um problema em que as reinicializações em dois dos meus servidores de aplicativos demoram cerca de uma hora a cada vez. Eu acho que um fsck está acontecendo a cada vez, mas não consigo encontrar muita informação nos logs para ajudar a depurar.
No dmesg, vejo o seguinte:
[ 8.081130] IPv6: ADDRCONF(NETDEV_UP): eth1: link is not ready
[ 10.776403] tg3 0000:02:00.0 eth0: Link is up at 1000 Mbps, full duplex
[ 10.776409] tg3 0000:02:00.0 eth0: Flow control is off for TX and off for RX
[ 10.776413] tg3 0000:02:00.0 eth0: EEE is enabled
[ 10.776448] IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 11.771117] tg3 0000:02:00.1 eth1: Link is up at 1000 Mbps, full duplex
[ 11.771124] tg3 0000:02:00.1 eth1: Flow control is off for TX and off for RX
[ 11.771127] tg3 0000:02:00.1 eth1: EEE is enabled
[ 11.771173] IPv6: ADDRCONF(NETDEV_CHANGE): eth1: link becomes ready
[ 3171.529473] FS-Cache: Loaded
[ 3171.549333] RPC: Registered named UNIX socket transport module.
[ 3171.549334] RPC: Registered udp transport module.
[ 3171.549335] RPC: Registered tcp transport module.
[ 3171.549335] RPC: Registered tcp NFSv4.1 backchannel transport module.
[ 3171.566048] init: failsafe main process (1506) killed by TERM signal
[ 3171.576544] FS-Cache: Netfs 'nfs' registered for caching
[ 3171.685710] Installing knfsd (copyright (C) 1996 [email protected]).
[ 3171.871112] audit_printk_skb: 6 callbacks suppressed
que corresponde ao mesmo período de tempo por inicialização.
Gostaria de saber se alguém tem ideias sobre onde começar a investigar?
As máquinas são: Dell Poweredge R420 Ubuntu 14.04
lsblk:
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 558.4G 0 disk
├─sda1 8:1 0 243M 0 part /boot
├─sda2 8:2 0 1K 0 part
└─sda5 8:5 0 558.1G 0 part
├─app2-root (dm-0) 252:0 0 542.2G 0 lvm /
└─app2-swap_1 (dm-1) 252:1 0 15.9G 0 lvm [SWAP]
sr0 11:0 1 1024M 0 rom
fstab:
proc /proc proc nodev,noexec,nosuid 0 0
/dev/mapper/app2-root / ext4 errors=remount-ro 0 1
UUID=8a2c24e5-17ba-4992-82a1-68b9609b6983 /boot ext2 defaults 0 2
/dev/mapper/hd1app2-swap_1 none swap sw 0 0
Isto acabou por não estar relacionado com o fsck. O problema era que havia gigabytes de dados no / tmp que eram apagados toda vez na inicialização. Observe a lacuna entre 11,771173 e 3171,529473 nos registros. Que pena que o dmesg não exibe nada útil para este cenário em particular.