Como ser um bom cidadão ao rastrear sites?

Vou desenvolver algumas funcionalidades que rastreiam vários sites públicos e processam / agregam os dados neles. Nada sinistro como procurar endereços de email - na verdade, é algo que pode realmente direcionar tráfego adicional para seus sites. Mas eu discordo. Além de honrar robots.txt, existem...