Estou tentando executar um comando regex para analisar os e-mails recebidos para identificar quaisquer hiperlinks enviados por sites de phishing / phishing tentando usar uma variação do nome da empresa. Nossa empresa é abcdomain. Os critérios são:
- Encontre todos os hiperlinks (parte do nome do host) que contenham o nome da empresa 'abcdomain'
- Excluir todos os domínios que nos registramos, por exemplo, meuabdomínio.com, site.abcdomain.com, abcdomain.net, etc.)
Meu regex não está bem formado e não funciona sob algumas variações. O problema provavelmente está relacionado à maneira como eu excluo. No começo, eu estava realmente tentando excluir 'abcdomain.com', mas o regex não parecia funcionar dessa maneira.
- Inquerir:
(http[s]?|ftp)\S*?(abcdomain|myabcdomain)(?!\.com)
- Corda:
http://www.abcdomain.com/logo/email/abcdomain-email-logo.png
Resultado: isso deve ser excluído, mas a consulta ocorre no segundo abcdomain
Inquerir:
(http[s]?|ftp):\/\/([\dA-Za-z\.]*)(abcdomain|myabcdomain)(?!.com|..net)
- Corda:
http://www.fakeabcdomain.com
- Resultado: isso deve ser incluído, mas minha exclusão cuida apenas do resultado da ocorrência)
Respostas:
Este funciona para seus casos de teste:
Explicação:
Corresponde:
E não corresponde:
fonte
http://products.abcdomain.products.net
deve corresponder, mas nãohttp://abcdomain.zendesk.com/help