Atualmente, estamos desenvolvendo um site que possui atualmente 8 milhões de páginas únicas que crescerão para cerca de 20 milhões imediatamente e, eventualmente, para cerca de 50 milhões ou mais.
Antes de criticar ... Sim, ele fornece conteúdo exclusivo e útil. Processamos continuamente dados brutos de registros públicos e, ao fazermos uma limpeza de dados, rollups de entidades e mapeamento de relacionamentos, conseguimos gerar conteúdo de qualidade, desenvolvendo um site que é bastante útil e também único, em parte devido à amplitude do dados.
Seu PR é 0 (novo domínio, sem links), e estamos obtendo uma velocidade de cerca de 500 páginas por dia, colocando-nos em cerca de 30.000 páginas indexadas até agora. Nesse ritmo, levaria mais de 400 anos para indexar todos os nossos dados.
Eu tenho duas perguntas:
- A taxa de indexação está diretamente correlacionada ao PR e, com isso, quero dizer, está suficientemente correlacionada para que a compra de um domínio antigo com um bom PR nos leve a uma taxa de indexação viável (na faixa de 100.000 páginas por dia).
- Existem consultores de SEO especializados em auxiliar o próprio processo de indexação. Estamos de outra forma fazendo muito bem com SEO, em -page especialmente, além disso, a concorrência para o nosso "long-tail" frases-chave é muito baixo, por isso nossas dobradiças sucesso principalmente sobre o número de páginas indexadas.
Nosso principal concorrente alcançou aproximadamente 20 milhões de páginas indexadas em pouco mais de um ano, juntamente com o ranking Alexa 2000.
Qualidades notáveis que temos:
- a velocidade de download da página é muito boa (250 a 500 ms)
- sem erros (sem erros 404 ou 500 ao obter spidered)
- usamos as ferramentas para webmasters do Google e fazemos login diariamente
- URLs amigáveis no lugar
- Tenho medo de enviar sitemaps. Algumas postagens da comunidade SEO sugerem um novo site com milhões de páginas e nenhum PR é suspeito. Também há um vídeo de Matt Cutts no Google, sobre uma encenação encenada de sites grandes , a fim de evitar um maior escrutínio (em aproximadamente 2:30 no vídeo).
- Os links clicáveis do site exibem todas as páginas, com no máximo quatro páginas e, normalmente, não mais que 250 links internos (-ish) em uma página.
- O texto âncora para links internos é lógico e adiciona relevância hierarquicamente aos dados nas páginas de detalhes.
- Anteriormente, tínhamos definido a taxa de rastreamento mais alta nas ferramentas para webmasters (apenas uma página a cada dois segundos, no máximo). Recentemente, eu voltei para "deixar o Google decidir", e é isso que é recomendado.
fonte
Respostas:
Algumas estratégias potenciais:
Finalmente, devo dizer isso. SEO e indexação são apenas pequenas partes da administração de um site comercial. Não perca o foco no ROI em prol do SEO. Mesmo que você tenha muito tráfego do Google, não importa se você não pode convertê-lo. SEO é importante, mas precisa ser mantido em perspectiva.
Editar :
Como um adendo ao seu caso de uso: você pode considerar oferecer críticas ou depoimentos para cada pessoa ou empresa. Além disso, a distribuição de distintivos de usuário como o StackOverflow pode atrair pelo menos algumas pessoas a vincular ao seu próprio perfil no seu site. Isso encorajaria alguns links externos para suas páginas profundas, o que poderia significar ser indexado mais rapidamente.
fonte
Isso não acontecerá da noite para o dia, no entanto, garanto que você verá mais de suas páginas mais rapidamente se links de entrada para conteúdo profundo (particularmente páginas de mapas de sites ou índices de diretório que apontam para um conteúdo ainda mais profundo) forem adicionados a sites de tamanho semelhante que já existem há algum tempo.
Duvidoso, a menos que você esteja falando de um domínio antigo que teve uma quantidade significativa de atividade (conteúdo acumulado e links de entrada) ao longo dos anos.
Quando você faz a pergunta dessa maneira, tenho certeza de que encontrará muitos SEOs que proclamam em voz alta "sim!" mas, no final das contas, as sugestões da Virtuosi Media são os melhores conselhos que você recebe de qualquer uma delas (para não falar dos conselhos potencialmente ruins).
Pelo que parece, considere utilizar canais de desenvolvimento de negócios e relações públicas para criar a classificação do seu site neste momento - obtenha mais links para o seu conteúdo (de preferência em parceria com um site existente que oferece conteúdo segmentado regionalmente para vincular ao seu regionalmente dividido conteúdo, por exemplo), ter mais pessoas navegando em seu site (alguns terão a barra de ferramentas do Google instalada assim que seu tráfego podem trabalhar em direção a descoberta de página), e, se possível, começar o seu negócio falado na notícia ou em comunidades das pessoas que precisam (se você planeja cobrar por determinados serviços, considere anunciar um período de teste gratuito para atrair interesse).
fonte
Existem duas opções possíveis que conheço que podem ajudar.
Um: Um pequeno truque que eu tentei com um site que tinha três milhões de páginas que funcionou surpreendentemente bem foi o que meu colega cunhou um loop de rastreamento. Pode ser necessário manipular um pouco a ideia para ajustá-la ao seu site.
Basicamente, estabelecemos um dia em que não achamos que receberíamos muito tráfego (natal) e literalmente copiamos uma lista de todos os links em nosso site e colamos todos em um arquivo php chamado em todas as páginas da web. (O arquivo php da barra lateral)
Em seguida, acessamos o console de pesquisa do Google (anteriormente ferramentas para webmasters do Google) e pedimos ao Google para buscar um URL e rastrear todos os links dessa página.
Como você tem muitos links e as páginas para as quais esses links também possuem uma quantidade abundante de links, o Google entra em um loop e rastreia o site de uma maneira muito mais rápida. Eu fiquei cético no começo, mas funcionou como um encanto.
Antes de fazer isso, verifique se você possui uma configuração de banco de dados extremamente eficiente e um servidor muito poderoso, caso contrário, poderá sobrecarregar o servidor ou prejudicar seu SEO devido aos lentos tempos de carregamento da página.
Se essa não é uma opção para você, você sempre pode procurar nas APIs do Google Cloud Console. Eles têm uma API do console de pesquisa para que você possa escrever um script para adicionar cada página da Web como sua própria instância de site no console de pesquisa ou para que o Google busque cada um dos seus URLs.
As APIs podem se complicar extremamente rapidamente, mas são uma ferramenta incrível quando usadas corretamente.
Boa sorte!
fonte
Jogar com o sistema nunca é uma boa ideia se você estiver administrando um negócio legítimo que valoriza sua reputação online. Além disso, se seu site realmente fornecer valor, quanto mais tempo existir (presumo que você esteja fazendo alguma forma de marketing?), Mais backlinks serão acumulados, para que seu PR suba e sua taxa de rastreamento suba.
Além disso, se você possui uma boa estrutura de links em seu site (todas as suas páginas podem ser descobertas em um número razoável de cliques / links), será necessário enviar apenas os principais índices pelo sitemap. Depois que essas páginas são indexadas pelo Google, elas serão rastreadas pelo Google, e o Google indexará o restante das páginas por conta própria.
fonte
Uma coisa que noto com as ferramentas para webmasters do google é que elas começam permitindo uma taxa de rastreamento máxima de cerca de duas solicitações por segundo. Cerca de uma semana depois, se eles acharem que o site é acessado com frequência, permitirão que você aumente seu limite.
Eu co-administro um site que hospeda mais de 500.000 imagens originais e, às vezes, meu limite máximo é de 10 solicitações por segundo porque recebo pelo menos 700 a 1000 acessos por dia, se não mais.
Portanto, o que você pode querer fazer é verificar as ferramentas do webmaster toda semana para ver se você pode aumentar o limite de rastreamento. Quando você altera o limite de rastreamento, o Google redefine as configurações preferidas após um determinado dia (que a interface mostrará). Então, nesse dia, aumente o limite novamente.
fonte
Eu já tive experiência com esse tipo de site. Eu publiquei um diretório de artigos há muitos anos e a% de páginas indexadas e, o que é mais importante, na verdade, estava correlacionada diretamente ao número de domínios de referência - ou seja, ao número de sites exclusivos vinculados. Um site grande com milhões de páginas precisa de 1.000 domínios razoáveis vinculados a desempenhar por si só.
Não vai acontecer da noite para o dia, com certeza, mas você cria de 5 a 10 links bons por dia no tempo em que começará a acontecer, então você estará em posição de gerar renda e usar isso para pagar uma equipe profissional de SEO para criar links para voce.
Atualmente, estou construindo um site com informações semelhantes, rico, mas tenho o mesmo problema em torno de 4 milhões de páginas de conteúdo, com uma taxa de rastreamento de 700 a 1.000 páginas por dia.
fonte