Estatísticas e Big Data

10

Estacionidade espacial intrínseca: não se aplica apenas a pequenos atrasos?

A partir da definição de estacionariedade intrínseca: E[Z(x)−Z(x−h)]=0E[Z(x)−Z(x−h)]=0E[Z(x)-Z(x-h)] = 0 Essa suposição é usada, por exemplo, na krigagem comum, em vez de assumir uma média constante em todo o espaço, assumimos que a média é constante localmente. Se a média for constante em uma...

spatial

10

Determinante da matriz de informações de Fisher para um modelo superparameterizado

Considere uma variável aleatória Bernoulli com o parâmetro (probabilidade de sucesso). A função de probabilidade e as informações de Fisher (uma matriz ) são:X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times

bernoulli-distribution parameterization fisher-information determinant

10

k-significa vs k-significa ++

Até onde eu sei, o k-means escolhe os centros iniciais aleatoriamente. Como eles são baseados em pura sorte, eles podem ser muito mal selecionados. O algoritmo K-means ++ tenta resolver esse problema, espalhando os centros iniciais uniformemente. Os dois algoritmos garantem os mesmos resultados?...

k-means

10

Uma série temporal sazonal implica uma série temporal estacionária ou não estacionária

Se eu tenho uma série temporal com sazonalidade, isso automaticamente torna a série não estacionária? Minha intuição (provavelmente desligada) é que não. Sazonalidade significa que a série sobe e desce em torno de um valor constante ... algo como uma onda senoidal. Portanto, por essa lógica, uma...

time-series stationarity seasonality

10

Prever com efeitos aleatórios em mgcv gam

Estou interessado em modelar a captura total de peixes usando gam em mgcv para modelar efeitos aleatórios simples para navios individuais (que fazem viagens repetidas ao longo do tempo na pesca). Eu tenho 98 sujeitos, então pensei em usar gam em vez de gamm para modelar os efeitos aleatórios. Meu...

prediction random-effects-model gam mgcv

10

O que exatamente é o método Box-Jenkins para processos ARIMA?

A página da Wikipedia diz que Box-Jenkins é um método de ajustar um modelo ARIMA a uma série temporal. Agora, se eu quiser ajustar um modelo ARIMA a uma série temporal, vou abrir o SAS, chamar proc ARIMA, fornecer os parâmetros e o SAS fornecerá os coeficientes AR e MA. Agora, posso tentar...

time-series arima sas aic box-jenkins

10

Como visualizar porcentagens comparadas com o número de entradas.

Estou tentando descobrir a melhor maneira de visualizar o gráfico abaixo e enfatizar a eficácia do tratamento, em oposição ao número de pacientes que tentaram o tratamento. Aqui está o link para a página real: http://curetogether.com/cluster-headaches/treatments/ Qual é a melhor maneira de...

data-visualization pie-chart

10

O que são critérios e tomada de decisão para não linearidade em modelos estatísticos?

Espero que a seguinte pergunta geral faça sentido. Lembre-se de que, para os fins desta pergunta em particular, não estou interessado em razões teóricas (domínio do assunto) para introduzir a não linearidade. Portanto, formularei a questão completa da seguinte maneira: O que é uma estrutura...

nonlinear-regression methodology nonlinear regression-strategies

10

Como obter a tabela ANOVA com erros padrão robustos?

Estou executando uma regressão OLS em pool usando o pacote plm em R. No entanto, minha pergunta é mais sobre estatísticas básicas, então tento publicá-la aqui primeiro;) Como meus resultados de regressão produzem resíduos heterocedásticos, eu gostaria de tentar usar erros padrão robustos de...

r anova multiple-regression heteroscedasticity robust-standard-error

10

Curvas ROC para conjuntos de dados não balanceados

Considere uma matriz de entrada e uma saída binária .XXXyyy Uma maneira comum de medir o desempenho de um classificador é usar curvas ROC. Em um gráfico ROC, a diagonal é o resultado que seria obtido de um classificador aleatório. No caso de uma saída desequilibrada o desempenho de um...

classification roc unbalanced-classes

10

O que é a matriz de covariância assintótica?

É verdade que a matriz de covariância assintótica é igual à matriz de covariância das estimativas de parâmetros? se não, o que é? E qual é a diferença entre a matriz de covariância e a matriz de covariância assintótica nesse caso? Desde já,

covariance asymptotics

10

Como determinar o número de operadores convolucionais na CNN?

Na tarefa de visão computacional, como a classificação de objetos, com as Redes Neurais Convolucionais (CNN), a rede oferece um desempenho atraente. Mas não tenho certeza de como configurar os parâmetros em camadas convolucionais. Por exemplo, uma imagem em escala de cinza ( 480x480), a primeira...

neural-networks deep-learning conv-neural-network computer-vision

10

A média de um conjunto de médias sempre será a mesma que a média obtida de todo o conjunto de dados brutos?

Se eu calculei a média para quatro conjuntos de dados (que têm tamanhos de amostra diferentes), posso obter uma "média geral" calculando a "média das médias"? Se sim, essa "média dos meios" será a mesma que se eu tivesse combinado os dados de todos os 4 conjuntos e calculado a média?...

mathematical-statistics weighted-mean mean

10

Bootstrap: estimativa está fora do intervalo de confiança

Fiz um bootstrap com um modelo misto (várias variáveis com interação e uma variável aleatória). Eu obtive este resultado (apenas parcial): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std....

r confidence-interval bootstrap bias

10

Como classificar um conjunto de dados desequilibrado por Redes Neurais Convolucionais (CNN)?

Eu tenho um conjunto de dados desequilibrado em uma tarefa de classificação binária, em que a quantidade positiva vs a quantidade negativa é 0,3% vs 99,7%. A diferença entre pontos positivos e negativos é enorme. Quando treino uma CNN com a estrutura usada no problema MNIST, o resultado do teste...

classification neural-networks deep-learning convolution computer-vision

10

d prime com 100% de probabilidade de taxa de acerto e 0% de probabilidade de falso alarme

Gostaria de calcular d prime para uma tarefa de memória que envolve a detecção de itens antigos e novos. O problema que tenho é que alguns dos sujeitos têm taxa de acerto de 1 e / ou taxa de alarme falso de 0, o que torna as probabilidades 100% e 0%, respectivamente. A fórmula para d prime é d' =...

roc excel signal-detection d-prime

10

Usando o LASSO para seleção de variáveis e depois usando o Logit

Sei que isso prejudicaria a inferência estatística, mas estou realmente preocupado apenas em chegar o mais próximo possível de um modelo preciso. Eu tenho uma variável de resultado dicotômica, com um grande conjunto de preditores dicotômicos. Penso que gostaria de tentar usar o LASSO para...

model-selection lasso logit

10

Definindo a dependência da cauda

Eu tenho tentado encontrar uma definição simples e concisa do que é a dependência da cauda. Alguém poderia compartilhar o que eles acreditam que é. Em segundo lugar, se eu plotar simulações usando diferentes cópulas em um gráfico, como saberia quais exibem dependência de...

fat-tails

10

Como encontro um valor p da regressão spline / loess suave?

Eu tenho algumas variáveis e estou interessado em encontrar relações não lineares entre elas. Então, decidi encaixar um spline ou loess e imprimir bons gráficos (veja o código abaixo). Mas também quero ter algumas estatísticas que me dêem uma idéia do quanto é provável que o relacionamento seja...

r regression splines loess

10

VC-Dimensão do vizinho mais próximo k

Qual é a dimensão VC do algoritmo k-vizinho mais próximo se k for igual ao número de pontos de treinamento usados? Contexto: Essa pergunta foi feita em um curso que eu faço e a resposta dada foi 0. Eu, no entanto, não entendo por que esse é o caso. Minha intuição é que a VC-Dimension seja 1,...

machine-learning self-study k-nearest-neighbour vc-dimension