Eu tenho vários sistemas que estão no campo coletando dados. Eles rodam o CentOS 7 e os dados são armazenados em unidades de coleta SSD que são montadas no momento da inicialização.
Eu tive um problema com dois desses sistemas em que uma unidade de coleta parece ser desmontada aleatoriamente.
Eu sei que a unidade foi montada na inicialização porque contém dados e o software não deu um erro. Isso aconteceu uma vez em um sistema e várias vezes no outro sistema. A primeira vez que aconteceu eu pensei que era um problema com uma das unidades, mas continuou acontecendo mesmo depois de rodar através de vários conjuntos.
Os sistemas têm hardware idêntico e todos executam o CentOS 7.4.1708.
Existe um log do sistema que eu possa ver que me diria por que a unidade desmontou? Como posso encontrar a causa?
EDIT 1:
Eu deveria ter esclarecido algumas coisas quando publiquei esta pergunta pela primeira vez. Estes são sistemas LIDAR que são montados em aeronaves em todo o mundo. Infelizmente não tenho acesso a eles em tempo real. Em um caso (China) eu nem tenho acesso remoto quando eles estão no chão porque eles consideram os dados coletados como sensíveis. ... e, claro, esse é o sistema que está me causando mais problemas. Também quero ressaltar que a questão é esporádica e nem acontece todos os dias.
No que diz respeito ao hardware, estes são PCs personalizados que nós mesmos criamos. Não há RAID. As unidades de coleta são apenas unidades SSD que se conectam diretamente à placa-mãe com uma conexão SATA.
Eu não tenho acesso em tempo real aos sistemas, mas eu escrevo o software para eles. Eu poderia adicionar diagnósticos ao software ou instruir os clientes a executar scripts nos sistemas.