Segurança na Web para o site da criança

12

Estou construindo um site em Wordpress para pais de 11 anos que queriam algo para recordar as realizações atléticas, acadêmicas e pessoais de suas filhas. O site inclui fotos e vídeos dela e de seus amigos, informações biográficas e postagens no blog. O domínio está registrado em nome particular da minha empresa, não os adiciono ao console do Google e estou mantendo outros SEO minimizados. Não há sobrenomes ou endereços físicos. Quero ter o máximo de segurança na web em mente para evitar que os raspadores agarrem suas fotos, etc, olhares indiscretos etc. Provavelmente estou sendo paranóico e, como todos os meus sites, acha que poderia obter mais tráfego do que realmente, mas acho que é vale a pena a investigação e vale a pena pontilhar meus i's. O site da criança tem excelente gosto e os pais são muito práticos,

Existem métodos confiáveis ​​que eu possa adotar para aumentar a segurança na Web para essa criança de 11 anos e seu site?

rhill45
fonte
3
Este é um começo: webmasters.stackexchange.com/questions/77031/… Vou pensar em outras idéias para o site em geral. BTW- Bom para você em assumir esta tarefa! É um pouco difícil. Mas vale a pena o esforço !! Eu costumava fazer hospedagem gratuita de caridade, juntamente com a hospedagem paga e as causas nobres sempre foram minhas favoritas. Estes são os que eu lembro!
closetnoc
3
Você percebe que nada o fará 100% invisível ... basta que alguém publique um link no Facebook ou no Tumblr, e esse site estará disponível por aí ... A melhor coisa a fazer é ter o pai supervisionar / aprovar todos os conteúdos a criança é postagem, e educar tanto sobre o que eles precisam ter cuidado com
HorusKol
4
Um robots.txtarquivo com o conteúdo correto pode manter todos os bots legítimos fora. A parte mais difícil é o resto. Muitos deles podem ser mantidos afastados se o endereço do site for difícil de encontrar.
kasperd
5
Além de tudo o que já foi dito, estar ciente de que os dados da imagem folhas Wordpress EXIF intacta ...
user1103
3
Isso precisa ser um site? Se você não quer muito disso se espalhando e entrando em mãos erradas, por que colocá-lo na internet? Você não poderia fazer outra coisa em sua memória e entregá-la aos pais / família / pessoas envolvidas?
precisa saber é o seguinte

Respostas:

20

Provavelmente estou sendo paranóico

Talvez eu esteja sendo paranóico, mas isso parece ser um blog / site totalmente privado. ie protegido por senha. Quem exatamente é o público-alvo?

Além do aspecto de segurança (impedindo que os inescrupulosos encontrem e usem o conteúdo), esse tipo de conteúdo parece adequado para o bullying de outros "amigos" da escola. Conteúdo que pode ser bom no início - para uma criança de 11 anos - pode se tornar embaraçoso em alguns anos.

Não os estou adicionando ao console do Google

Isso parece estar atrasado? A maneira como você oculta o conteúdo do Google (ou seja, um "bom" bot) é usar a robotsmetatag (ou X-Robots-Tagcabeçalho) e talvez robots.txt. A omissão do Google Search Console não ajudará a esse respeito.

Pelo menos, se você o adicionar ao Google Search Console, poderá monitorar itens como backlinks, verificar robots.txt etc. Se você for realmente público.

Sr. White
fonte
1
Esta é realmente a única solução sã. 1
MonkeyZeus 9/11
4
Esclarecimentos breves - não adicionar um site ao Google Search Console significa não informar o Google diretamente sobre um site. Isso significa que você não está se esforçando para fazer o Google notá-lo. No entanto, isso não significa que o Google NÃO O note - você usaria os arquivos dos robôs para isso, como sugerido pela w3d. Além disso, tornar o site protegido por senha significaria que o máximo que o Google poderia indexar seria a página de login.
Jake
11
"A maneira como você oculta o conteúdo do Google" é não colocá-lo na Internet em primeiro lugar .
Lightness Races com Monica
2
Eu acho que proteger a senha com o diretório anularia as razões pelas quais a mãe deseja um site; nesse caso, poderíamos ter acabado de escrever uma carta de notícias doc e enviar por e-mail. A filha quer começar um blog. As mães não são estúpidas, ela está exibindo e editando o conteúdo. Não acredito que eles estejam fazendo algo irresponsável aqui. Este é um excelente feedback sobre esta questão.
rhill45
A senha que protege o site no WP não tem nada a ver com a proteção da mídia.
Blankip
6

A única resposta apropriada é proteger com senha a coisa toda. O HTTP BASIC_AUTH é provavelmente o mais simples de configurar, pois não interage com o WordPress de nenhuma maneira. Isso, por si só, será suficiente para impedir todos os raspadores, mas se você quiser segurança adequada, também deverá usar o HTTPS.

(Nota: Em muitos sistemas, uma página HTTP será redirecionada para HTTPS. No entanto, com HTTP BASIC_AUTH, esse redirecionamento poderá ocorrer após o prompt da sua senha. A página HTTPS solicitará a senha novamente. Isso significa que sua senha foi inserida duas vezes, uma em texto não criptografado e uma vez em um canal seguro.É, em princípio, possível ter senhas diferentes para as versões HTTP e HTTPS ou não ter senha para a versão HTTP: tudo o que faz é redirecionar para a versão HTTPS, que então solicita sua senha. A facilidade de configuração depende de quais ferramentas você está usando para gerenciar as preferências de hospedagem do seu site. Como alternativa, basta garantir que você sempre navegue diretamentepara a página HTTPS, ignorando a versão não segura. Se você usar um sistema de senhas que não seja HTTP BASIC_AUTH, provavelmente nada disso será aplicado.)

TRiG
fonte
4
Se você quiser ir a rota protegida por senha, dado que este é um site WordPress, simplesmente usando WordPress para lidar com tudo isso é o método mais fácil: codex.wordpress.org/Content_Visibility#Private_Content
Doyle Lewis
1
@DoyleLewis. Isso protegerá ativos estáticos, como imagens carregadas? É certo que é improvável que um rastreador os encontre (contanto que você o tenha Options -Indexes).
TRiG
Eu considerei https, mas o único problema é o custo. Eu gostaria de poder encontrar uma maneira de executar o seu site sob o meu empresas SSL mas é claro que não é possível
rhill45
2
letsencrypt.org @ rhill45.
Trig
1
@TRiG Se alguém tivesse o URL para um arquivo de mídia estático, então não, isso não protegeria. Mas nenhum rastreador jamais acessaria, pois não seria capaz de acessar o conteúdo vinculado ao arquivo.
Doyle Lewis
3

Primeiro, vou pedir desculpas a todos os webmasters profissionais por aí, mas para este OP, tenho uma sugestão de ouro:

Violar as diretrizes do mecanismo de pesquisa

Quero dizer, fazê-lo até o ponto em que o conteúdo importante está em javascript complexo e o conteúdo que os robôs podem rastrear não está em HTML adequado. Isso inclui uma etiqueta de descrição incorreta, uma etiqueta de título incorreta, etc. Caramba, talvez transforme o conteúdo inteiro em apenas um vídeo feito em flash ou mostre o conteúdo inteiro como apenas uma imagem. Isso realmente faria o rastreador do mecanismo de busca se encolher.

Vou mostrar por exemplo no código:

Aqui está uma maneira de obter algo indexado:

<!DOCTYPE html>
<html>
<head>
<title>Web page</title>
<meta name="description" content="This is a wonderful web page">
</head>
<body>
<h1>A wonderful web page</h1>
<h2>By John Smith</h2>
<p>This is a wonderful page. ya de ya de ya de ya de ya de ya de</p>
<p>This is wonderful. ya de ya de ya de ya de ya de ya de</p>
</body>
</html>

Ok, admito, o texto não é perfeito, mas você entende o que quero dizer.

Agora, se você deseja ocultá-lo dos rastreadores e fazê-lo da maneira mais simples, tente o seguinte:

<!DOCTYPE html>
<html>
<head>
<title>Private</title>
</head>
<body>
<img src="mywebsite.jpg" width=1024 height=768>
</body>
</html>

faça uma imagem chamada mywebsite.jpg e inclua todo o texto, não no html mostrado acima. Então você precisa proteger mywebsite.jpg criando uma versão com marca d'água para os usuários não autorizados a ver a coisa real. Basta comparar as sequências ou endereços IP do agente do usuário com aqueles que você permite / não permite na imagem. Esse tipo de coisa pode ser feito no .htaccess com algumas regras de reescrita.

Por exemplo, para forçar o googlebot a ver a imagem com marca d'água em vez da coisa real, use estas regras:

RewriteCond %{HTTP_USER_AGENT} ^googlebot$ [NC]
RewriteRule ^mywebsite.jpg$ specialrobotimage.jpg [L]

Estou assumindo aqui que mywebsite.jpg é o seu site real como uma imagem e specialrobotimage.jpg é a marca d'água ou a imagem como uma mensagem informando que apenas usuários reais têm permissão para ver as informações. Além disso, as regras assumem que tudo está na mesma pasta.

Mike
fonte
De fato, a coisa do JS pode ser o caminho a percorrer para muito disso. Enquanto alguns bots executam JS, raspadores e o que geralmente não é feito. Isso significa que vários objetos HTML DOM podem ser configurados para o conteúdo real quando o JS é executado. Eu não sugiro confiar nos agentes do usuário, pois isso geralmente é forjado pelos raspadores. Considere instalar o ModSecurity e deixe que ele faça a maior parte do trabalho para você.
closetnoc
11
Este é realmente um péssimo conselho. É muito trabalho sem nenhum benefício real. Hoje em dia, muitos robôs executam JavaScript. O conteúdo de um vídeo ou imagem não é de fácil manutenção (além de ambos ainda serem indexados regularmente). Até o conteúdo do Flash é indexado há anos.
Brad
Ok, esqueci de mencionar que a não indexação deve ser aplicada às imagens e vídeos. Entendo que eles não são de fácil manutenção, mas pelo menos o texto não pode ser tão facilmente modificado. Se, por outro lado, apenas o texto bruto estiver em uma página, um rastreador poderá pegar um pedaço do texto, modificá-lo, adicionar um modelo a ele e criar outro site a partir dele. Duvido que o rastreador tenha a capacidade de extrair texto de imagens ou vídeos.
Mike
3

Primeiro, essa é realmente uma pergunta do WP. Eu escrevi mais de 20 sites que fazem o que você precisa, então isso é bem fácil.

1 Você faz o login de todos para visualizar todas as páginas.

2 Você bloqueia a pasta de uploads via script e .htaccess. Existem scripts que verificarão o login do usuário antes de permitir a visualização da mídia.

Se você quiser fazer algo entre isso e ter seu site aberto - é muito trabalho. A maneira mais fácil de fazer isso é ter duas pastas de uploads - uma com segurança e outra para todo o resto, se você quiser ter algumas páginas abertas ao público e outras não.

Quanto ao que os outros estão dizendo sobre o conteúdo - não é possível encontrá-lo se suas páginas estiverem bloqueadas ... isso não é verdade. Eu tenho scripts de robô que pesquisam os nomes de arquivos de uma pasta.

Toda a conversa do google e dos robôs é um absurdo. Essas coisas só importam se você quiser pegá-lo pela metade. Se o fizer, siga o conselho de algumas das perguntas anteriores acima.

blankip
fonte