Quais são os métodos usados ​​pelos serviços GeoIP além das informações sobre WHOIS? [fechadas]

11

Eu estava pensando como os serviços GeoIP coletam dados sobre a localização geográfica dos IPs, além de verificar as informações WHOIS do endereço IP. Por exemplo, me deparei com este site, que indica que o IP 74.207.244.221 está sendo localizado em Fremont, Califórnia: https://ipinfo.io/74.207.244.221

Mas não consigo encontrar essas informações nessa informação whois IP. O ipinfo.io afirma que:

Originalmente, nossa API usava dados do MaxMind, mas estivemos muito ocupados trabalhando na criação de nossos próprios dados de geolocalização. Fizemos muito progresso e agora usamos nossos próprios dados para atender cerca de metade de todas as solicitações. Ainda recorremos aos dados do MaxMind

E isso me interessou. Quais são as maneiras pelas quais serviços como ipinfo.io e MaxMind coletam dados GeoIP?

Aprendiz
fonte

Respostas:

11

Esses serviços geralmente usam três maneiras de geolocalizar um endereço IP:

  1. Percorrer os bancos de dados whois para procurar um endereço;
  2. Rastrear consultas DNS reversas para tentar encontrar pistas com base em registros de nome de domínio ou rastrear o caminho do pacote enviado ao destino, o que também pode fornecer pistas (usando o traceroute, por exemplo).
  3. E, finalmente, eles usam triangulação RTT.

A triangulação de tempo de ida e volta (RTT) é um método usado para obter a geolocalização aproximada de um endereço IP, medindo a latência do ping em três locais diferentes.

Por exemplo, se você tiver três servidores espalhados pelo mundo na forma de um triângulo, e se executar ping em um endereço IP dos três e obter os mesmos resultados para latência, isso significa que o endereço IP está localizado exatamente em o centro desse triângulo. É assim que a triangulação funciona, no entanto, neste caso, é usada com pings do ICMP.

Recursos que você pode ler:
O que é ping? @ Artigo da Wikipedia
SIGCOMM sobre triangulação RTT

Fanatique
fonte
5
Uau, eu nunca pensaria que existe uma triangulação baseada em RTT. Interessante. Portanto, se algum servidor quiser evitar a localização geográfica, poderá introduzir um atraso aleatório nas respostas do ICMP.
Apr
Eu gostaria de acrescentar que pode ser útil olhar para tracert / traceroute, conforme escrito em iplocation.net: "Você pode usar o comando 'traceroute' para encontrar pistas sobre a localização do endereço IP. Os nomes dos roteadores através dos quais o fluxo de pacotes do host para o host de destino pode sugerir o caminho geográfico do local final ".
Apr
1
@ Aluno, que é uma boa adição, no entanto, que já está na minha resposta na forma de "rastreamento de consultas DNS reversas". Embora o traceroute realmente não faça isso, ele mostra todos os domínios / endereços pelos quais uma consulta viaja. Vou acrescentar uma nota para torná-lo mais claro, no entanto :)
fanatique
5

Eu sou o fundador do IPinfo , então definitivamente posso oferecer alguns detalhes sobre isso! Não existe um único método que usamos, ou uma única fonte de dados, para produzir nosso próprio banco de dados de geolocalização (ou qualquer outro conjunto de dados, como IP para empresa ou IP para operadora). É uma mistura de diversos conjuntos de dados, técnicas de processamento de dados e lições aprendidas há vários anos!

Algumas fontes de dados e técnicas pouco mencionadas incluem:

  • Feeds diretos dos ISPs. Nosso serviço processa cerca de 500 milhões de solicitações de API por dia e é usado em muitos sites populares. Portanto, os ISPs são incentivados a fornecer dados de geolocalização atualizados e precisos para que seus clientes tenham uma ótima experiência na web. Estamos trabalhando diretamente com mais e mais ISPs o tempo todo.

  • Dados de localização GPS. É possível coletar informações precisas de localização com GPS em dispositivos móveis. Você pode emparelhá-lo com o endereço IP e alguma inferência de topologia de rede para determinar o local dos intervalos de IP, com apenas algumas medidas.

  • Correções enviadas pelo usuário. Quando erramos o local (ou ele não foi atualizado após uma alteração), geralmente recebemos feedback dos usuários com rapidez e podemos corrigir manualmente o local ou ajustar nosso algoritmo para garantir que ele esteja localizado corretamente na próxima execução de nosso pipeline de processamento de dados.

Para o nosso conjunto de dados de IP para empresa, na verdade, coletamos todos os nomes de domínio todos os meses e fazemos referência cruzada dos dados que extraímos com informações de propriedade de IP, registros de registros e muito mais. Em seguida, também usamos os dados de raspagem de domínio para mostrar quais domínios estão hospedados em quais endereços IP e também em nosso classificador de tipo IP, junto com muitas outras fontes de dados, para determinar a probabilidade de um endereço IP ser usado principalmente como um provedor de serviços de Internet residencial, empresa ou provedor de hospedagem. Nós também analisar a estrutura de links dessas páginas, e mostrar alguns destes dados sobre host.io .

Ben Dowling
fonte
Obrigado! Eu não esperava que o fundador deste site respondesse à minha pergunta :) Foi muito interessante.
Apr