Este site tem um design particularmente estranho. Apenas uma nota, no entanto, o PHP não faz diferença aqui.
Parece que eles carregam páginas com o seguinte método:
- Clicar no link executa algum JS.
- Esse JS preenche um formulário oculto com o número da página.
- O script envia o formulário, que faz uma solicitação POST para o servidor.
- O servidor responde diretamente com a página relevante.
Você tem algumas opções aqui. O mais fácil é simplesmente fazer o script de uma solicitação wget
com --post-data
em um loop para recuperar todas as páginas de 1 a n. Consulte a documentação e o monitor de rede do seu navegador para descobrir qual é a solicitação real. Por exemplo, é isso que o monitor de rede do Firefox diz que o corpo da solicitação é:
Content-Type: application/x-www-form-urlencoded
Content-Length: 145
pagingQuery=select+*+from+tblbabynames+where+++religion%3D%27hindu%27+and+gender%3D%27M%27+limit+0%2C30&totalRows=3097&pageNum=2&searchResultNo=0
Você provavelmente pode substituir o pageNum=2
em um loop.
Um método mais envolvido seria usar um kit de ferramentas de automação de navegador como o Selenium para literalmente navegar e clicar nos links, ativando o JS exatamente como um humano faria.