Mecânica por trás do desvio da distribuição aleatória

8

O sistema em que trabalhamos é biológico, mais especificamente a distribuição de eventos de danos ao DNA programados em um cromossomo. Isso pode ser pensado como uma matriz 1D (o cromossomo) através da qual os pontos podem ser escolhidos (os locais de dano intencional). Mapeamos as posições desses eventos experimentalmente e inicialmente perguntamos se eles se encaixavam em uma distribuição aleatória - ou seja, danos podem ocorrer em qualquer ponto do cromossomo com chances iguais e qualquer local de dano é independente um do outro. Ao gerar distribuições aleatórias no MATLAB (randi), isso acabou não sendo o caso.

Analisando as distâncias entre pontos (IPDs) dos dados reais e modelados, os dados reais são desviados de uma distribuição aleatória apenas abaixo de um determinado tamanho de IPD, antes de voltar à distribuição aleatória acima dela, ou seja, há menos IPDs mais curtos do que seria esperado por acaso nos dados reais.

insira a descrição da imagem aqui

Resultados IPD de exemplo:

insira a descrição da imagem aqui

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

As IPDs são plotadas aqui no eixo Y do log e simplesmente em ordem crescente, como se fosse um histograma. Como você pode ver abaixo de um certo tamanho de IPD (eixo Y), a linha azul se desvia da linha vermelha.

A hipótese que estamos testando (que tem uma sólida base biológica) é que a posição de um evento depende daqueles já formados. Especificamente, assim que um local é escolhido, ele invoca uma zona de repressão ao seu redor, diminuindo a probabilidade de a região circundante ser escolhida como o próximo site. Isso efetivamente espaça os eventos e explica a ausência de IPDs mais curtos. Essa zona reduz gradualmente a intensidade à medida que você se afasta de um ponto escolhido - explicando o retorno à independência acima de uma certa distância IPD.

insira a descrição da imagem aqui

Pergunta : Existe um método matemático pelo qual podemos derivar a forma dessa zona apenas a partir dos conjuntos de dados aleatórios e reais? Por exemplo, calculando sua força (capacidade de se desviar da aleatoriedade) em cada ponto dado até que seus efeitos não sejam mais vistos?

A forma e a escala do triângulo no diagrama acima é a principal coisa que estou tentando obter (não é necessariamente um triângulo).

Temos um segundo modelo que simula essa hipótese - e que fornece resultados promissores; no entanto, precisamos de orientação sobre a forma, escala, etc. da zona de repressão, caso contrário, isso depende de tentativa e erro e várias janelas + parâmetros diferentes podem se encaixar.


Eu já vi algo semelhante feito anteriormente, dividindo os IPDs em um histograma, ajustando uma função de probabilidade gama e convertendo-a em uma função de risco, mas eu não sou matemático e não sei se esse é o método correto nem como proceder. isto.

Eu trabalho em grande parte no MATLAB, portanto, se alguém pudesse fornecer alguma ajuda na forma do MATLAB, seria ótimo - mas qualquer ajuda seria muito apreciada.

Dados usados ​​no gráfico:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
AnnaSchumann
fonte
O método que você sugeriu é uma maneira padrão de ajustar distribuições. Não está claro para mim se o tempo é importante para você ou não, embora pareça, nesse caso, você pode estar lidando com um processo não homogêneo. Isso será mais complicado.
mandata
Não sei ao certo o que você está perguntando sobre o tempo. Você poderia elaborar?
AnnaSchumann
"Esta zona se dissipa gradualmente, explicando o retorno à independência acima de uma certa distância da DPI." Você se importa com isso?
mandata
Você pode descrever um pouco o seu fenômeno? O que você está medindo? Além disso, parece que por "aleatório" você quer dizer uma certa distribuição que você tem em mente. A variável pode ser aleatória, mas a partir de uma distribuição diferente, que pode produzir caudas mais finas do que o esperado.
Aksakal
@mandata Minhas desculpas - isso foi mal formulado. Eu atualizei-o através de uma edição. Eu quis dizer que a intensidade da zona reduz gradualmente quanto mais você se afasta de um ponto escolhido - não que se dissipe com o tempo.
AnnaSchumann

Respostas:

3

O problema é que você assumiu uma certa distribuição aleatória de IPD e ela não se ajusta à distribuição empírica. Portanto, a formulação da sua pergunta é um pouco confusa, dada a explicação que você forneceu até agora. O "desvio" não é da aleatoriedade, mas da distribuição empírica da suposta teoria.

xEuvocê(0 0,1000)ΔxEu=|xEu-xEu-1|


P(ΔxEu)<ε
ε>0 0

P(ΔxEu)<ε=ε500-ε21,000,000

Esta é uma distribuição peculiar. Aqui estão as funções cumulativas e de densidade:insira a descrição da imagem aqui insira a descrição da imagem aqui

O eixo x é IPD, e o eixo y é cumulativo (esquerda) e funções de probabilidade (direita).

Como você pode ver sua escolha de modelo (ou seja, função randi), implica que a probabilidade de uma pequena distância é bastante alta, muito maior do que uma IPD grande. Seu fenômeno biológico provavelmente não está se encaixando nesse modelo. Você já tentou outro modelo.

Aksakal
fonte
Inicialmente, testamos para ver se nossas distribuições determinadas experimentalmente correspondiam ou não a uma distribuição aleatória. Eles não - e nós sabemos disso. Agora, estamos tentando formular um novo modelo usando a hipótese declarada no OP (que tem uma base biológica específica). O principal problema que temos é que várias combinações de formas / escalas para a zona de repressão se ajustam aos dados - e precisamos saber qual é o correto, portanto, estou perguntando se é possível derivar a forma / escala apenas dos conjuntos de dados.
AnnaSchumann
@AnnaSchumann, procure uma distribuição que tenha uma densidade menor para a cauda esquerda do que a distribuição uniforme induzida. Por exemplo, se você notou que há um modo na distribuição de IPDs, poderia começar com Poisson, Negomial, Lognormal ou até normal apenas para ver se o ajuste fica melhor.
Aksakal
Obrigado! Vou dar uma olhada agora. Quais são os rótulos dos eixos nos gráficos na sua resposta acima? Não tenho certeza de entendê-los completamente.
AnnaSchumann
@AnnaSchumann, atualizei a resposta
Aksakal
As probabilidades de certos tamanhos de IPD não dependeriam de quantos números são escolhidos por randi em cada iteração? Em nosso sistema, normalmente temos limites muito grandes, mas talvez apenas escolha entre 3 a 5 locais de eventos. Existe uma maneira de modelar as distribuições de probabilidade para diferentes quantidades de sites escolhidos?
AnnaSchumann 25/05