Largura de banda do kernel: regras de Scott vs. Silverman

14

Alguém poderia explicar em inglês simples qual é a diferença entre as regras práticas de Scott e Silverman para a seleção de largura de banda? Especificamente, quando é um melhor que o outro? Está relacionado à distribuição subjacente? Número de amostras?

PS Estou me referindo ao código no SciPy .

xrfang
fonte
1
Também não quero conhecer python. Eu só quero ajuda para entender quando usar qual regra e por quê.
xrfang

Respostas:

11

Os comentários no código parecem acabar definindo os dois essencialmente de forma idêntica (além de uma diferença relativamente pequena na constante).

Ambos são da forma cUMAn-1/5 , ambas com o que parece ser o mesmo UMA (estimativa de escala), e c é muito próximo de 1 (parente próximo à incerteza típica da estimativa da largura de banda máxima) .

[A estimativa binwdith que mais geralmente parece estar associado com Scott é o um do seu papel 1979 [1] ( 3,49sn-1/3 ) - por exemplo, ver Wikipedia - rolagem para baixo um pouco - ou R de nclass.scott.]

O 1.059 no que o código chama de "estimativa Scott" está no livro (anterior) de Silverman (consulte a página 45 da referência Silverman no seu link - a derivação de Scott está na página 130-131 do livro a que se refere). Vem de uma estimativa da teoria normal.

A largura de banda ideal (em termos de erro quadrático médio integrado) é uma função da segunda derivada ao quadrado integrada e 1.059σ sai desse cálculo para um normal, mas em muitos casos isso é muito mais amplo do que o ideal para outras distribuições.

O termo UMA é uma estimativa de σ (tipo de estimativa robusta, de uma maneira que reduz a tendência a ser muito grande se houver valores extremos / distorção / caudas pesadas). Veja a eq 3.30 na p47, justificada na p46-7.

Por razões semelhantes às sugeridas anteriormente, Silverman sugere a redução de 1,059 (na verdade, ele usa 1,06 por toda parte, e não 1,059 - como Scott em seu livro). Ele escolhe um valor reduzido que não perde mais de 10% de eficiência no IMSE no normal, de onde vem o 0,9.

Portanto, ambas as larguras de caixa são baseadas na largura de caixa ideal para IMSE no normal, uma no ideal e a outra (cerca de 15% menor, para ficar dentro de 90% da eficiência do ideal no normal). [Eu chamaria as duas estimativas de "Silverman". Não faço ideia por que eles nomeiam o 1.059 para Scott.]

Na minha opinião, ambos são grandes demais. Não uso histogramas para obter estimativas ótimas de IMSE da densidade. Se isso (obter estimativas da densidade ideal no sentido IMSE) fosse o que eu queria fazer, não gostaria de usar histogramas para esse fim.

Os histogramas devem estar errados no lado mais ruidoso (deixe o olho fazer a suavização necessária). Quase sempre dobro (ou mais) o número padrão de posições que esses tipos de regra fornecem. Portanto, eu não usaria 1,06 ou 0,9, tenderia a usar algo em torno de 0,5, talvez menos em tamanhos de amostra realmente grandes.

Há realmente muito pouco a escolher entre eles, uma vez que ambos oferecem escassos escaninhos para serem muito úteis para encontrar o que está acontecendo nos dados (nos quais, pelo menos em pequenos tamanhos de amostra, veja aqui) .

[1]: Scott, DW (1979), "On histogramas ótimos e baseados em dados" , Biometrika , 66 , 605-610.

Glen_b -Reinstate Monica
fonte
De acordo com o documento SciPy aqui , a regra de Scott é: n ** (- 1./(d+4)). Ao olhar para o código, descobri que não entendi a regra da mesma forma que "scotts_factor". Você está certo de que a largura de banda é muito grande. Vou abrir uma nova pergunta sobre a seleção de largura de banda numérica. Obrigado.
xrfang
d=1n-1/5UMAc
@ Glen_b-ReinstateMonica Você poderia dar uma olhada na pergunta que eu postei aqui ? Mostro os problemas que a regra de Silverman pode acarretar quando um tamanho grande de amostra é usado. Você poderia responder o que está acontecendo em detalhes?
user269666 12/01