Estatísticas e Big Data

7

Quem é o pai (ou mãe) da análise linear dos mínimos quadrados como a conhecemos?

Antecedentes: o ajuste de erro ao quadrado mínimo existe há algum tempo. Laplace, PS "Os métodos analíticos do cálculo das probabilidades". CH. 4 em Théorie analytique des probabilités, Livre 2, 3ª ed. Paris: Courcier, 1820. Gauss, CF "Theoria combinaçãois obsevationum erroribus minimis...

least-squares linear-model history

7

O que fazer quando os dados da contagem não se ajustam a uma distribuição Poisson

Eu sou um estudante de estatística de doutorado. Estou trabalhando com um conjunto de dados de contagem. É a contagem de usuários envolvidos em uma conversa de bate-papo em tempo real. O número de usuários varia de 1 a 6 e existem aproximadamente 300 dados no conjunto. Minha motivação inicial era...

r distributions modeling poisson-distribution

7

Existe um exemplo de dois eventos causalmente dependentes sendo logicamente (probabilisticamente) independentes?

Dois eventos são independentes quando , estou tentando me aprofundar nessa definição e tentar reconciliá-la com nossa idéia intuitiva de independência no mundo real. Eu sinto que a equação pode ser alcançada por acidente, sem qualquer fundamento para uma independência real.A , BA,BA,BP( A ∩ B ) =...

probability independence philosophical

7

Como calcular os valores esperados de eventos compostos?

Uma dica útil seria apreciada porque parece que não consigo descobrir como calcular o valor esperado Um lote contém 17 itens, cada um dos quais sujeito a inspeção por dois engenheiros de garantia de qualidade. Cada engenheiro seleciona aleatoriamente e independentemente 4 itens do lote. Determine...

self-study expected-value indicator-function

7

Motivação para distribuição gama com um parâmetro não inteiro

A distribuição Erlang tem uma interpretação direta em termos de tempo de espera para a ocorrência de um número predefinido de eventos em um processo de Poisson ou a soma de um número predefinido de variáveis aleatórias exponenciais. A distribuição gama é mais geral, pois permite um parâmetro não...

distributions modeling gamma-distribution poisson-process

7

Variação mínima e máxima de 2 iid Normal

Deixei XXX e YYY seja iid ∼ Nou r m a l ( 0 , 1 )∼Normumaeu(0 0,1 1)\sim Normal(0,1) Deixei A = m a x ( X,Y)UMA=mumax(X,Y)A=max(X,Y) e B = m i n ( X,Y)B=mEun(X,Y)B=min(X,Y) O que são Va r ( A )Vumar(UMA)Var(A) e Va r ( B )Vumar(B)Var(B)? A partir da simulação, recebo Va r ( A ) = Va r ( B...

self-study variance maximum iid minimum

7

Quantifique a semelhança de sacos de palavras

Eu tenho dois conjuntos de dados que contêm as palavras mais comuns e suas frequências de dois artigos diferentes. por exemplo: A = [apple: 23, healthy: 15, tasty: 4] B = [apple: 19, healthy: 21, bad: 7] Ambos os conjuntos de dados contêm palavras semelhantes. Quero encontrar uma medida que...

natural-language similarities

7

Quantos americanos, escolhidos aleatoriamente, são necessários para ter 50% de chance de dois morarem no mesmo estado ou em estados adjacentes?

fundo Estou estudando coincidências comuns e coincidências "próximas" que, no entanto (indevidamente) impressionam a pessoa comum. A pergunta abaixo é uma extensão do famoso problema do aniversário , que pergunta "Quantas pessoas, escolhidas aleatoriamente, são necessárias para que haja 50% de...

conditional-probability combinatorics birthday-paradox

7

Quando é importante ter um estimador imparcial?

Temos algumas perguntas e respostas sobre quando alguém prefere uma estimativa tendenciosa a uma imparcial, mas não encontrei nada na pergunta inversa: Em que situações é importante considerar apenas estimadores imparciais ? Muita ênfase é colocada no conceito de imparcialidade, nos cursos...

estimation bias unbiased-estimator

7

Que tipo de gráfico é esse?

Tentei diferentes consultas de pesquisa no google, mas não consegui encontrar uma resposta. Que tipo de gráfico é

data-visualization

7

Os pressupostos do modelo de teste são considerados p-hacking / fishing?

"P-hacking", "fishing" e "garden of bifurcação", como explicado aqui e aqui, descrevem um estilo exploratório de análise de dados, semelhante a uma pesquisa que produz estimativas tendenciosas. O teste de premissas do modelo (por exemplo, normalidade, homocedasticidade em regressão) usa testes...

hypothesis-testing model-selection multiple-comparisons assumptions philosophical

7

Se , qual o tamanho ?

Se , onde e for uma sequência de variáveis aleatórias positivas, qual o tamanho ?E|Xn|=O(an)E|Xn|=O(an)\mathbb{E}|X_n|=O(a_n)an→0an→0a_n\to 0XnXnX_nYn=Xnln(1Xn)Yn=Xnln⁡(1Xn)Y_n = X_n\ln\left(\frac{1}{X_n}\right) Minha tentativa: pela desigualdade de Markov implica e . Resta avaliar . Para alguma...

probability asymptotics moments probability-inequalities

7

Cursos de aprendizado de máquina: matemática explicada

Estou procurando um curso de aprendizado de máquina que dê a matemática por trás dos algoritmos, em vez de simplesmente ensinar como aplicá-los. Analisei o curso Udacity Into to Machine Learning e o curso de Andrew Ng sobre Coursera, e ambos parecem muito aplicados a mim. Qualquer recomendação de...

machine-learning references

7

Por que o viés é igual a zero para o estimador OLS em relação à regressão linear?

Entendo o conceito de compensação de desvio e desvio. O viés baseado no meu entendimento representa o erro devido ao uso de um classificador simples (por exemplo: linear) para capturar um limite de decisão não linear complexo. Então, eu esperava que o estimador OLS tivesse alto viés e baixa...

regression machine-learning least-squares unbiased-estimator blue

7

Como posso mostrar se duas séries temporais são "diferentes" uma da outra?

Eu tenho um pequeno conjunto de dados que mostra que o número de pacientes jovens em um registro de doença está aumentando ao longo do tempo. Eu suspeito que isso seja apenas porque o registro se tornou mais bem-sucedido ao longo do tempo e agora captura uma proporção maior de casos. Gostaria,...

time-series data-visualization

7

Amostragem normalmente do simplex padrão

Eu quero ser capaz de gerar valores de um nnndistribuição gaussiana multivariada tridimensional truncada para [0,1][0,1][0, 1] variam com os meios dados e uma matriz de covariância, de modo que eles somam um. Eu acho que isso é o mesmo que amostragem do padrão nnn-simplex de acordo com a...

normal-distribution simulation multivariate-normal

7

Cálculo da probabilidade de x1> x2

Sou autodidata sobre probabilidade usando R, modelos lineares e cálculos de probabilidade. Atualmente, estou preso em como comparar duas previsões de um modelo. Os dados que estou usando são baixados (grátis) a partir daqui: wmbriggs.com/public/sat.csv df <- read.csv("sat.csv") # Load data lm...

r regression predictive-models interpretation

7

Quais são as motivações para o uso da função logística como modelo de classificação binária?

A regressão logística, usada na classificação binária, usa a função logística como modelo para a probabilidade subjacente da variável de resultado. Possui algumas propriedades úteis e essenciais para a montagem desse modelo. Por exemplo, está aumentando monotonicamente, tende a 1 quando x tende ao...

regression logistic

7

Entropia de distribuição com subdistribuição uniforme

Deixei XXXser uma variável aleatória que aceita valores em um conjunto . A distribuição de não é uniforme, mas existe um subconjunto que é "uniforme": todos os eventos em ocorrem com igual probabilidade.XX\mathcal{X}XXXA∈XA∈XA\in\mathcal{X}AAA Podemos relacionar a entropia de com o tamanho do...

entropy information-theory

7

Como calcular um valor parcial esperado da distribuição beta (média de um beta truncado)?

Dada uma Distribuição Beta com a = 2, b = 3, podemos encontrar um valor esperado (média) para o intervalo [0, 1] = a / (a + b) = 2/5 = 0,4 e mediana = (a - 1/3) / (a + b-2/3) = 0,39, que estão próximos. Eu estou procurando uma solução em python. Posso usar scipy.stats.beta para calcular a...

python mean median beta-distribution truncation