Estatísticas e Big Data

8

Uma rede neural idealmente projetada contém zero neurônios ReLU "mortos" quando treinados?

Em geral, devo treinar minha rede neural com menos neurônios, para que ela tenha menos neurônios ReLU mortos? Eu li opiniões conflitantes sobre ReLUs mortos. Algumas fontes dizem que ReLUs mortos são bons porque incentivam a escarsidade. Outros dizem que são ruins porque as RELUs mortas estão...

machine-learning neural-networks conv-neural-network

8

GLM apto para a família weibull [fechado]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 12 meses . Estou tentando ajustar o modelo linear...

r generalized-linear-model survival gamlss

8

Modo de normalização Scikit-learn (L1 vs L2 e Max)

Eu queria saber se alguém aqui pode explicar a diferença entre o modo de normalização l1, l2 e max no módulo sklearn.preprocessing.normalize ()? Depois de ler a documentação , não percebi a

normalization scikit-learn

8

Cluster de séries temporais multivariadas

Estou coletando um grupo de seqüências de tempo multivariadas. Por exemplo, existem 2000 séries temporais. Cada série temporal é de 12 dimensões. Existem modelos / algoritmos sistemáticos que podem agrupar séries temporais multivariadas? Por exemplo, gostaria de identificar algumas séries...

machine-learning time-series clustering multivariate-analysis sequential-pattern-mining

8

Lei da regra da expecação total / torre: Por que as duas variáveis aleatórias devem ter o mesmo espaço de probabilidade?

Cito (ênfase minha) da definição da Wikipedia : A proposição na teoria da probabilidade conhecida como lei da expectativa total, ..., afirma que se X é uma variável aleatória integrável (isto é, uma variável aleatória que satisfaz E (| X |) <∞) e Y é qualquer variável aleatória, não...

probability expected-value conditional-expectation

8

Qual é a análise correta para esse tipo de pergunta? (Regressão logística condicional?)

Dada a experiência a seguir, qual é o método estatístico correto para responder à pergunta abaixo: Um participante recebe as imagens consecutivamente e é obrigado a responder se viu um objeto ou um rosto após cada foto. Em cada tentativa (apresentação da imagem), a imagem apresentada (1 de 210...

hypothesis-testing logistic multiple-comparisons paired-data

8

Existem maneiras de lidar com o gradiente de fuga para saturar não linearidades que não envolvem normalização em lote ou unidades ReLu?

Eu queria treinar uma rede com não linearidades que sofrem com o desaparecimento (ou o problema do gradiente explodindo, embora principalmente o desaparecimento). Sei que a maneira padrão (atual) é usar a normalização de lote 1 [BN] 1 ou simplesmente abandonar a não linearidade e usar as unidades...

machine-learning neural-networks conv-neural-network batch-normalization

8

Probabilidade de as pessoas não enfrentarem o parceiro em uma mesa redonda

Se os casais estão sentados aleatoriamente em uma mesa redonda, qual é a chance de ninguém estar sentado em frente ao seu parceiro? Se houver quatro pessoas, a resposta é 2/3. Se houver seis é 15/8, eu acho. Depois disso, meu método passo a passo, preenchendo todas as possibilidades e terminando...

probability

8

Quando a linha de regressão ao quadrado mínimo (LSQ) é igual à linha de desvio mínimo absoluto (LAD)?

Eu tenho a seguinte pergunta em mãos. Suponha (x1,y1),(x2,y2),⋯,(x10,y10)(x1,y1),(x2,y2),⋯,(x10,y10)(x_1,y_1),(x_2,y_2),\cdots,(x_{10},y_{10}) representa um conjunto de observações bi-variáveis (X,Y)(X,Y)(X,Y) de tal modo que x2=x3=⋯=x10≠x1.x2=x3=⋯=x10≠x1.x_2=x_3=\cdots =x_{10}\ne x_1. Em que...

regression self-study least-squares least-absolute-deviations

8

A função de pontuação de Fisher tem média zero - o que isso significa?

Estou tentando seguir a revisão de Princeton da teoria da probabilidade . Eles definem Fisher’s score functioncomo a primeira derivada da função log-verossimilhança e dizem que a pontuação é um vetor aleatório. Por exemplo, para a distribuição geométrica: u(π)=n(1π−y¯1−π)u(π)=n(1π−y¯1−π) u(\pi) =...

likelihood geometric-distribution fisher-scoring

8

Queda repentina de precisão ao treinar LSTM ou GRU em Keras

Minha rede neural recorrente (LSTM, resp. GRU) se comporta de uma maneira que não consigo explicar. O treinamento começa e treina bem (os resultados parecem muito bons) quando a precisão cai repentinamente (e a perda aumenta rapidamente) - métricas de treinamento e teste. Às vezes, a rede fica...

neural-networks lstm gru

8

Terminologia 'matriz de massa' Hamiltoniana / Híbrida do MCMC

Estou tentando implementar o HMC com uma matriz de massa não diagonal, mas estou sendo enganado por algumas das terminologias. De acordo com a revisão do BDA3 e Neal, o termo energia cinética (que eu acho que é sempre usado devido à conveniência) é K( p ) = pTM- 1p2.K(p)=pTM-1p2. K(p) =...

bayesian mcmc monte-carlo

8

Como prever probabilidades ou estados de estado para novos dados com o pacote DepmixS4, para modelos de Markov ocultos

Parece que posso aprender bem os parâmetros e encontrar as probabilidades posteriores para os dados de treinamento, mas não tenho idéia de como fazer novas previsões sobre novos dados. O problema, em particular, vem das probabilidades de transição alteradas nas covariáveis, por isso não é trivial...

r hidden-markov-model mixture

8

Variação da média ponderada maior que a média não ponderada

Um revisor meu está perguntando por que motivo usei dados não ponderados, em vez de dados ponderados. Eu discuti o assunto com um estatístico e sua resposta foi ao longo das linhas de Se você tiver observações independentes e fizer a média geral, sua variação será sempre menor que a variação de...

variance weighted-mean weighted-data

8

Como uma taxa de aprendizado menor prejudica o desempenho de um gbm?

Eu sempre subscrevi a sabedoria popular de que diminuir a taxa de aprendizado em um gbm (modelo de árvore com gradiente aumentado) não prejudica o desempenho fora da amostra do modelo. Hoje não tenho tanta certeza. Estou ajustando modelos (minimizando a soma dos erros ao quadrado) no conjunto de...

machine-learning boosting out-of-sample

8

Detecção de mudança de etapa

Estou usando um método de mínimos quadrados não linear para ajustar uma função analítica a alguns dados experimentais. Eu tenho que fornecer alguns valores iniciais de adivinhação para o algoritmo, então estou tentando descobrir como fazer isso automaticamente (em vez de a olho nu, que é o que...

time-series variance

8

Redes neurais: uma época no SGD é a mesma do mini lote?

No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento). Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma...

machine-learning neural-networks

8

Qual é a diferença entre regressão beta e quase glm com variância =

Primeiro, deixe-me dar uma base; Resumirei minhas perguntas no final. A distribuição Beta, parametrizada por sua média e ϕ , possui Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , onde V ( μ ) = μ ( 1 - μ ) é a função de variância.μμ\muϕϕ\phiVar(Y)=V(μ)/(ϕ+1)Var⁡(Y)=V⁡(μ)/(ϕ+1)\operatorname{Var}(Y) =...

generalized-linear-model lme4-nlme binomial beta-regression quasi-likelihood

8

Cálculo da expectativa condicional em álgebras

Eu realmente não vi nenhum livro de probabilidades calcular expectativa condicional, exceto as σσ\sigma álgebras geradas por uma variável aleatória discreta. Eles simplesmente afirmam a existência de expectativa condicional, juntamente com suas propriedades, e deixam assim. Acho isso um pouco...

probability conditional-probability conditional-expectation conditioning sigma-algebra

8

Por que o bloqueio é necessário no projeto experimental se já realizamos tarefas aleatórias?

Estou passando pela primeira parte do curso de estatística da Duke sobre o Coursera, e surge o conceito de bloqueio no projeto experimental. Se bem entendi, o bloqueio refere-se à separação dos sujeitos em grupos com base em alguma variável que pode afetar o resultado. No entanto, se já estamos...

experiment-design blocking