Primeiro, segundo e terceiro, eu veria se o site tem uma API. Quarto, gostaria de ver se o site tem uma Política de Termos de Uso. Por fim, números aleatórios são seus amigos.
Estou pensando em criar um aplicativo que agregue informações de um site bastante popular. Este aplicativo solicitaria informações deste site em um intervalo definido. Eu sei que esta é uma pergunta realmente difícil de se chegar a uma resposta, mas qual pode ser um bom intervalo seguro para ficar "sob o radar"? Eu sou um programador primeiro, um ser humano em segundo e um administrador de servidor em um terço distante, então meu conhecimento do que um software de servidor como o Apache pode lidar com a carga do servidor com conteúdo dinâmico é bem básico.
Eu sei que esta pergunta é EXTREMAMENTE aberta e a resposta depende de muitas variáveis, mas qualquer conhecimento experiencial relacionado sendo compartilhado seria muito apreciado.
Se for medido em segundos e em um site de alto tráfego, não será um grande impacto. Mais importante do que o seu segundo intervalo + é provavelmente garantir que você está aceitando respostas compactadas, etc.
Embora, se você estiver realmente tentando ser educado, peça permissão ou uma cópia dos dados desejados.
Meu conselho é dar uma olhada em serviços similares. Serviços com APIs abertas geralmente publicam seus limites de taxa. Por exemplo Twitter .
Embora o acesso a uma API seja algo diferente do que você está fazendo, isso certamente não garante que você "permaneça sob o radar", mas pode te dar uma ideia.
Tags limits