Como posso encontrar erros de ortografia comuns no meu nome de domínio?

38

Gostaria de registrar erros de ortografia no meu nome de domínio, mas não quero registrar especulativamente um zilhão de formulários "apenas supondo". Por exemplo, esta ferramenta oferece as seguintes opções em um gerador de erros de digitação de palavras - chave

  • pular cartas
  • letras duplas
  • letras reversas
  • pular espaços
  • chave perdida
  • chave inserida

O que é ótimo e gera dezenas, senão centenas, de possíveis nomes de domínio ... mas isso não me diz a coisa mais crucial: quais desses erros de ortografia realmente acontecem mais com usuários reais ao vivo na Internet real?

Como posso encontrar dados reais com erros ortográficos de usuários reais?

Jeff Atwood
fonte

Respostas:

25

Existem alguns recursos na Wikipedia, mas você teria que ter muita sorte de ter um domínio que seja uma simples palavra inglesa baunilha, comum o suficiente para aparecer aqui.

Você pode usar a ferramenta geradora de erros de digitação , ou algo parecido, e depois inserir cada uma delas no Google - que ironicamente tentará corrigir a ortografia - e usar a opção "pesquisar em vez de {versão incorreta}" e ver quantas pesquisas resultados obtidos para esse erro de ortografia específico:

Mostrando resultados para tratado

Procurar em vez disso tretise

Isso fornece cerca de 117.000 resultados para "tretise" vs. 17.800.000 resultados para "tratado". Então agora você tem uma idéia de quão comum esse erro de ortografia é em toda a Internet! Assim, você pode favorecer os erros de ortografia que ocorrem com mais frequência no mundo real.

Talvez o mais importante, também encontrei estas páginas:

http://how-to-spell.net/treatise

Como soletrar tratado?

Correto: tratado .

Erros de ortografia comuns: tretise - 100%

Que aparentemente faz usar dados reais!

Reunimos porcentagens de erros ortográficos em quase 15.423.252 sessões de verificação ortográfica no site spellchecker.net (janeiro de 2010 a junho de 2012).

Idealmente, eu adoraria se o Google compartilhasse dados com erros ortográficos, já que suspeito que eles tenham muito mais dados. Mas não tenho certeza se eles estão dispostos a compartilhar, talvez eles visualizem a correção ortográfica automática de termos de pesquisa digitados incorretamente. vantagem competitiva.

Seria incrível se eles fizeram!

Jeff Atwood
fonte
2
Não esqueça que você também pode perguntar aos seus usuários!
Alex L
2
O corpus de palavras do Google Triliion certamente incluiu palavras escritas corretamente e incorretamente, para que você possa usá-lo e muitas trocas de palavras e números para calcular essas informações a partir de dados brutos que o Google compartilha.
Hippietrail
O OpenDNS e o DNS público do Google definitivamente possuem esse tipo de informação, mas nenhum deles é divulgado, mas sim utilizado para melhorar seus próprios serviços (o OpenDNS possui um recurso de correção de erros de digitação). Você poderia iniciar seu próprio serviço de DNS gratuito / gratuito e coletar dados, eu acho.
Christian Davén
1
Não acho que usar os resultados do Google seja uma boa ideia (mesmo que impraticável). Como pontos xkcd fora em seu blag "o‘número de resultados’contar que o Google dá quando você procura é claramente fabricada".
Rodrigoq
9

Problema interessante. Você pode usar a ferramenta de pesquisa de palavras-chave do Google em https://adwords.google.com/o/KeywordTool para descobrir quantas pesquisas por mês são realizadas para cada erro de digitação de seu nome de domínio (você precisa gerar uma lista de erros de digitação com o ferramenta mencionada acima). Não é perfeito, mas representaria erros de digitação reais do usuário e forneceria dados decentes para você continuar. (Acabei de testar e obtive alguns resultados que pareciam razoáveis.)

Mark Seifert
fonte
Infelizmente, isso não é mais verdade, agora que temos o Hummingbird. A Ferramenta de palavras-chave do Google foi deprecated. Foi substituído pelo Keyword Planner, um produto do Google AdSense.
Ellie Kesselman 12/11/2013
4

Pergunta interessante: analisar os resultados da pesquisa como descrito aqui deve ser uma boa posição inicial, mas é sensível a falsos positivos causados ​​por outros sites com nomes semelhantes aos seus. Também pode haver erros comuns em que você não pensou, olhando a lista que eu diria que analisar a troca de palavras também pode ser interessante.

Um método particularmente bom para descobrir quais erros são mais comumente cometidos por visitantes comuns é pedir que eles digitem o nome. É claro que nem todos os sites são adequados para isso, supondo que a página seja interativa e deve ser adequada.

Em vez de usar captcha's regulares, apenas mostre alguns dos logotipos do seu site com (parte do) nome escrito lá e peça às pessoas que digitem antes que possam fazer o que precisam.

Os dados não serão baseados em uma população enorme, como a pesquisa no Google, mas serão exatamente o grupo-alvo e, portanto, os resultados deverão ser bastante poderosos.

Dennis Jaheruddin
fonte
1

Você pode tentar este localizador de erros de digitação no domínio . Pesquise as opções a seguir, individualmente ou em combinação:

  • Deslizamentos de teclado QWERTY
  • Troca de letra
  • Teclas adesivas, para letras extras ou ausentes
  • Semelhantes, como a letra lversus o número1

Existem três "pontos de vista" para pesquisar. Registrante é o padrão. DNS é uma exibição classificável, mostrando o servidor de nomes e o endereço IP de cada erro de digitação. O TLD encontra erros de digitação nos nomes em qualquer um desses seis TLDs: .com .net .org .biz .us .infoe se estiver registrado.

É diferente da ferramenta de palavras-chave do OP? Talvez. Alega "encontrar erros de digitação comuns associados a nomes de domínio". Isso significa que os dados foram coletados dos usuários enquanto eles digitavam manualmente os nomes de domínio na barra de navegação do navegador .

  • A pesquisa "teclas de aderência" inclui variantes comuns, com ou sem hífens. Esses tipos de erros de digitação não são devidos a teclas pegajosas fisicamente arranjadas, mas a erros na percepção humana. Isso indica o uso de algo melhor do que uma abordagem baseada em regras e sistema especialista.
Ellie Kesselman
fonte