Ao ler o artigo a seguir , deparei-me com a seguinte declaração:
Como mencionado, ele é frequentemente apresentado sem nenhuma referência a modelos probabilísticos, de acordo com a idéia de Benzecri [1973] de "deixar os dados falarem por si".
(citação é de JP Benzécri. L'analyse des données. Tomo II: L'analyse des correspondences. Dunod, 1973.)
Pelo modo como estou lendo este artigo, parece que "deixe os dados falarem por si" significa algo como considerar várias medidas entre os dados, sem levar em consideração uma função de probabilidade ou processo de geração de dados .
Embora tenha ouvido a citação "deixe os dados falarem por si" antes, não pensei muito no que está implícito. Minha interpretação acima é o que está canonicamente implícito nessa citação?
Respostas:
A interpretação depende do contexto, mas há alguns contextos comuns em que isso ocorre. A afirmação é freqüentemente usada na análise bayesiana para enfatizar o fato de que gostaríamos que a distribuição posterior na análise fosse robusta às suposições anteriores, de modo que o efeito dos dados "domine" a posterior. De maneira mais geral, a citação geralmente significa que queremos que nosso modelo estatístico esteja em conformidade com a estrutura dos dados, em vez de forçá-los a uma interpretação que seja uma suposição estrutural não verificável do modelo.
A citação específica a que você está se referindo é complementada pela citação adicional: "O modelo deve seguir os dados, e não o contrário" (traduzido de Benzécri J (1973) L'Analyse des Données. Tomo II: L'Analyse des Correspondences . Dunod, p. 6). Benzécri argumentou que os modelos estatísticos deveriam extrair estrutura dos dados, em vez de impor estrutura. Ele considerou o uso de métodos gráficos exploratórios muito importante para permitir ao analista "deixar os dados falarem".
fonte
Por volta de 2005, quando "Data Mining" foi a mais recente ameaça à profissão de estatística, lembro-me de ver um pôster com "Data Mining Principles", um dos quais era "deixar os dados falarem" (não consigo lembrar se "por si só" estava incluído). Se você pensa em algoritmos que podem ser considerados "Data Mining", apriori e particionamento recursivo, dois algoritmos que podem ser motivados sem suposições estatísticas e resultar em resumos bastante básicos do conjunto de dados subjacente.
A @Ben entende mais da história da frase do que eu, mas pensando na citação conforme citada no artigo:
parece-me que o procedimento do MCA se assemelha a particionamento apriori ou recursivo (ou inferno, a média aritmética para esse assunto), pois pode ser motivado sem qualquer modelagem e é uma operação mecânica em um conjunto de dados que faz sentido com base em alguns primeiros princípios.
Existe um espectro de deixar os dados falarem. Modelos totalmente bayesianos com fortes antecedentes estariam em uma extremidade. Modelos não paramétricos freqüentistas estariam mais próximos do outro lado.
fonte