# robots.txt otimizado (regras modernas para motores de busca) # Substitua `seudominio.com` pelo domínio canônico do site (incluindo https:// quando aplicável). # Observações rápidas: # - Use meta robots `noindex`/`nofollow` em páginas individuais para controlar indexação fina. # - Google ignora `Crawl-delay`; ajuste taxa de rastreamento via Search Console quando necessário. # - `Host:` é suportado por Yandex; é opcional para outros motores. # Regras padrão para todos os crawlers User-agent: * # Bloquear áreas administrativas e páginas que não devem ser indexadas Disallow: /admin/ Disallow: /private/ Disallow: /accounts/ Disallow: /login Disallow: /logout Disallow: /search # Permitir o acesso a activos estáticos (ajuste conforme sua estrutura) Allow: /static/ Allow: /media/ # Google (permite rastrear normalmente; use Search Console para controlar velocidade) User-agent: Googlebot Allow: / # Bing (respeita Crawl-delay) User-agent: Bingbot # Ajuste `Crawl-delay` se o servidor precisar reduzir a taxa de requisições do Bing Crawl-delay: 5 Allow: / # DuckDuckGo (usa DuckDuckBot) User-agent: DuckDuckBot Allow: / # Yandex (se aplicável ao seu público) User-agent: Yandex Crawl-delay: 10 Allow: / # Bloquear bots conhecidos indesejados User-agent: BadBot Disallow: / # Sitemap e domínio canônico (substitua pelo seu domínio) Sitemap: http://transparencia.parauapebas.pa.leg.br/sitemap.xml Host: transparencia.parauapebas.pa.leg.br # Fim do arquivo