Replicação ou?

2

Recentemente, fomos golpeados pelo Google Bots e por todos os tipos de bots (60% do tráfego do site em média é proveniente de Bots. Estamos tentando segmentar o tráfego do Google Bot para um servidor diferente ( No entanto, os bancos de dados precisam ser replicados ou espelhados.Existe uma solução melhor do que a outra se quisermos próximo do tempo real? Atualmente, temos os dados de nossos servidores de produção em uma SAN. , mas funciona mais como replicação de instantâneos.

    
por sqlbuzz 08.06.2011 / 22:50

3 respostas

5

Não "segmente" as aranhas.

Tentar "segmentar" as aranhas da WWW está lutando contra os donos de aranhas da WWW, que querem, na medida do possível, que suas aranhas vejam o que todo mundo vê. Desça esse caminho e você se encontrará em uma corrida armamentista constante com os donos de aranhas.

Verifique o design do seu site.

O tráfego alto de aranhas às vezes é sintomático do mau design do site. Por exemplo: os hiperlinks cujos URLs contêm IDs de sessão farão com que os spiders vejam e rastreiem uma única página várias vezes. Verifique seus logs do servidor HTTP de conteúdo para o que o tráfego de aranha realmente é . Se as coisas estão sendo rastreadas repetidamente, variando apenas por coisas como IDs de sessão, ajuste seu site para não ter esse problema. Consulte diretrizes técnicas do Google para obter mais erros neste sentido para verificar e corrigir.

Use as ferramentas fornecidas a você como um recurso final.

O Google fornece um botão de ajuste para sua taxa de rastreamento em suas Ferramentas do Google para webmasters Se você verificou se seu site segue as diretrizes técnicas e o design do site não é a causa raiz do alto tráfego de rastreamento, use as Ferramentas do Google para webmasters. Mas observe que, se você continuar tendo que fazer isso a cada 90 dias para manter a taxa de rastreamento baixa no conteúdo estático, provavelmente há algo errado com o design do seu site que você não encontrou nem corrigiu.

    
por 09.06.2011 / 13:40
2

Seus dados realmente mudam muito? Você poderia oferecer aos bots uma versão menos atualizada do seu site no servidor de baixo custo proposto? Você pode então atualizar esses dados durante a noite ou algo assim.

O espelhamento de banco de dados para o SQL Server realmente não permite que você use o secundário para consulta - a menos que você use instantâneos de banco de dados para acesso somente leitura, e esse é um recurso da edição Enterprise. As coisas mudam com a próxima versão do SQL Server, mas ainda falta algum tempo.

O espelhamento de banco de dados também é por banco de dados, portanto, se você tiver vários bancos de dados que compõem a solução, será necessário espelhar todos eles.

A replicação é mais sobre como mover um subconjunto dos dados - muitos podem discordar disso. Quanto mais dados você mudar com qualquer tecnologia, mais largura de banda será necessária - ou começará a ficar para trás.

Talvez uma solução seja oferecer aos bots um conteúdo mais estático do seu site, que é atualizado periodicamente por meio de um processo.

    
por 08.06.2011 / 23:47
0

Obrigado pela resposta. Eu estou supondo que vou dar uma chance de replicação e ver como vai. Só terá a replicação em execução à noite.

@JdeBP Eu já tentei fazer isso e tentei configurar as taxas de rastreamento para min. Não ajudou no meu caso. Além disso, isso é para quase 4000 sites.

    
por 10.06.2011 / 06:17