A importância dos Sitemaps

Portanto, tenho estado ocupado com essa coisa do Stack Overflow nas últimas duas semanas. Como pedido de desculpas, vou compartilhar uma pequena estatística que o senhor pode achar interessante: o porcentagem de tráfego proveniente de mecanismos de pesquisa em stackoverflow.com.

16 de setembro um dia após o lançamento público	10%
11 de outubro menos de um mês após o lançamento público	50%

Tento ser politicamente correto ao discutir a pesquisa na Web, evitando a palavra “g” sempre que possível, tentando desesperadamente preservar a ilusão de que a pesquisa na Web é realmente um mercado competitivo. Mas, a essa altura, isso está se tornando uma piada transparente e cruel. Quando dizemos “pesquisa na Web”, queremos dizer uma coisa, e apenas uma coisa: O Google. Rich Skrenta explica:

Não sou um analista profissional, e minha abordagem aqui é bastante improvisada. Ainda assim, ela confirma o que nós, do setor de pesquisa, já sabemos há muito tempo.

O New York Times, por exemplo, recebe quase seis vezes mais tráfego do Google do que do Yahoo. O Tripadvisor recebe 8 vezes mais tráfego do Google do que do Yahoo.

Até mesmo os próprios sites do Yahoo não são diferentes. Embora receba uma fração maior do tráfego de pesquisa do Yahoo do que a média, o serviço flickr do próprio Yahoo recebe 2,4 vezes mais tráfego do Google do que do Yahoo.

Meu exemplo favorito: De acordo com a Hitwise, [ex] Jeremy Zawodny, blogueiro do Yahoo, obtém 92% de seu tráfego de pesquisa de entrada do Google e apenas 2,7% do Yahoo.

Isso foi escrito há quase dois anos. Adivinhe para que lado esses números foram desde então?

Em geral, o Google faz um ótimo trabalho e, portanto, merece seu sucesso de todo o coração, mas tenho que dizer aos senhores: A posição atual do Google como a página inicial da Internet me assusta muito, de uma forma que o domínio da Microsoft sobre o PC de mesa nunca assustou. Quero dizer, o poder de monopólio sobre um PC de mesa é uma coisa, mas a Internet é todo o conhecimento humano, ou algo que se aproxima rapidamente disso. Será que realmente confiamos em uma empresa para ser um monopólio benevolente sobre… bem.., tudo?

Mas estou divagando. Nosso site público não tem nem um mês de existência e o Google já tem metade do nosso tráfego. Fico muito feliz em alimentar o Google com o tipo de publicações de qualidade (bem, a maioria) que outros programadores estão criando no Stack Overflow. O gráfico de tráfego fornecido pelo Analytics também é divertidamente previsível.

gráfico de tráfego do stackoverflow.com, 16 de setembro a 11 de outubro

Pico gigante de interesse inicial, seguido pela inevitável depressão da desilusão e, em seguida, o crescente padrão semanal de um site que, na verdade (choque e horror), parece ser útil para algumas pessoas. O senhor pode imaginar. Acho que eles chamam isso de crackoverflow por um motivo.

Sabíamos desde o início que o Google seria uma grande parte do nosso tráfego, e eu queria que tivéssemos uma classificação alta no Google por um motivo muito egoísta. escrever código de pesquisa é difícil. É muito mais fácil terceirizar o ônus da pesquisa para o Google e suas legiões de farms de servidores do que para nossa minúscula equipe de desenvolvimento fazer isso em nosso único e pequeno servidor. Pelo menos não bem.

Estou sempre procurando minhas próprias coisas por meio de pesquisas no Google e acho que fiquei estragado. Espero digitar algumas palavras relativamente únicas do título e ver qualquer página da Web que eu conheça aparecer instantaneamente na minha frente. Nas duas primeiras semanas, isso definitivamente não estava acontecendo de forma confiável com as perguntas do Stack Overflow. Eu digitava o título exato de uma pergunta e não recebia nada. Às vezes, eu até recebia cópias do nosso conteúdo de sites malignos de raspagem de RSS que inseriam seus próprios anúncios de procedência duvidosa, o que era absolutamente deprimente. Outras vezes, eu digitava o título de uma pergunta e recebia um perfeito match. Por que o velho e confiável Google estava me deixando na mão? Nosso site é simples, projetado desde o início para ser fácil de ser rastreado pelos mecanismos de pesquisa. O que acontece?

O que eu não entendia era a importância de um pequeno arquivo chamado sitemap.xml.

Em um site de Q&A como o Stack Overflow, somente as perguntas mais recentes ficam visíveis na página inicial. O URL para acessar a inteiro A lista completa de perguntas tem a seguinte aparência:

http://stackoverflow.com/questions
http://stackoverflow.com/questions?page=2
http://stackoverflow.com/questions?page=3
..
http://stackoverflow.com/questions?page=931

Não é particularmente complicado. Ingenuamente, achei que o Google não teria problemas para rastrear todas as perguntas nesse formato. Mas, depois de duas semanas, isso não estava acontecendo. Meu colega de equipe, Geoff, me deu uma dica Página de ajuda do Google para webmasters sobre sitemaps:

Os Sitemaps são particularmente úteis se:

Seu site tiver conteúdo dinâmico.

Seu site tem páginas que não são facilmente descobertas pelo Googlebot durante o processo de rastreamento, por exemplo, páginas com AJAX ou Flash.

Seu site é novo e tem poucos links para ele. (O Googlebot rastreia a Web seguindo os links de uma página para outra, portanto, se o seu site não estiver bem vinculado, pode ser difícil descobri-lo).

Seu site tem um grande arquivo de páginas de conteúdo que não estão bem vinculadas umas às outras ou não têm nenhum link.

Acho que fui mimado por minha experiência anterior com blogs, que são quase incestuosamente hiperlinkados, onde tudo o que é postado tem um hiperlink permanente e estático anexado a ele, com páginas de arquivo mensais e anuais simples. Com sites mais dinâmicos, esse não é necessariamente o caso. Os links de paginação no Stack Overflow aparentemente foram suficientes para impedir a indexação completa.

Entre sitemap.xml. O arquivo em si é realmente muito simples; é basicamente uma maneira não-spam e não-sombra de ter uma “página” cheia de links que o senhor alimenta para os mecanismos de pesquisa. Uma maneira que é oficialmente apoiada e endossada por todos os principais mecanismos de pesquisa da Web. Um registro individual tem a seguinte aparência assim:

<url>
<loc>http://stackoverflow.com/questions/24109/c-ide-for-linux</loc>
<lastmod>2008-10-11</lastmod>
<changefreq>daily</changefreq>
<priority>0.6</priority>
</url>

O elemento acima é repetido para cada uma das cerca de 27.000 perguntas no Stack Overflow no momento. A maioria dos mecanismos de pesquisa presume que o arquivo está na raiz do seu site, mas o senhor pode informá-los sobre um local alternativo por meio de robots.txt:

User-Agent: *
Allow: /
Sitemap: /sitemap.xml

Também há limites de tamanho. O sitemaps.xml não pode exceder 10 megabytes de tamanho, com não mais de 50.000 URLs por arquivo. Mas o senhor também pode ter vários sitemaps em um arquivo de índice de sitemap. Se o senhor tiver milhões de URLs, poderá ver como isso começa a ficar complicado rapidamente.

Estou um pouco irritado com o fato de termos que configurar esse arquivo especial para que o Googlebot faça seu trabalho corretamenteParece-me que os rastreadores da Web deveriam ser capazes de rastrear nosso esquema simples de URL de paginação sem que eu lhes dê uma ajuda explícita.

A boa notícia é que, desde que configuramos nosso sitemaps.xmltodas as perguntas no Stack Overflow podem ser encontradas com facilidade. Mas quando 50% do seu tráfego vem de uma única fonte, talvez seja melhor não fazer esse tipo de pergunta.

Apenas sorria, acene com a cabeça e siga as regras como todo mundo. Eu, por exemplo, dou as boas-vindas aos nossos senhores pixelados do Google!