Distribuição hipergeométrica Função distribuição de probabilidade para alguns valores de N {\displaystyle N} K {\displaystyle K} n {\displaystyle n} Função 💶 distribuição acumulada para alguns valores de N {\displaystyle N} K {\displaystyle K} n {\displaystyle n} Parâmetros N ∈ { 0 💶 , 1 , 2 , .
.
.
} K ∈ { 0 , 1 , 2 , .
.
.
, N } 💶 n ∈ { 0 , 1 , 2 , .
.
.
, N } {\displaystyle {\begin{aligned}N&\in \left\{0,1,2,\dots \right\}\\K&\in \left\{0,1,2,\dots ,N\right\}\
&\in \left\{0,1,2,\dots 💶 ,N\right\}\end{aligned}}\,} Suporte k ∈ { max ( 0 , n + K − N ) , .
.
.
, min ( 💶 n , K ) } {\displaystyle \scriptstyle {k\,\in \,\left\{\max {(0,\,n+K-N)},\,\dots ,\,\min {(n,\,K)}\right\}}\,} f.d.p.
( K k ) ( N − K 💶 n − k ) ( N n ) {\displaystyle {{{K \choose k}{{N-K} \choose {n-k}}} \over {N \choose n}}} f.d.a.
1 − 💶 ( n k + 1 ) ( N − n K − k − 1 ) ( N K ) 💶 3 F 2 [ 1 , k + 1 − K , k + 1 − n k + 2 💶 , N + k + 2 − K − n ; 1 ] , {\displaystyle 1-{{{n \choose {k+1}}{{N-n} \choose {K-k-1}}} 💶 \over {N \choose K}}\,_{3}F_{2}\!\!\left[{\begin{array}{c}1,\ k+1-K,\ k+1-n\\k+2,\ N+k+2-K-n\end{array}};1\right],} p F q {\displaystyle \,_{p}F_{q}} Média n K N {\displaystyle n{K \over N}} 💶 Moda ⌊ ( n + 1 ) ( K + 1 ) N + 2 ⌋ {\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor 💶 } Variância n K N ( N − K ) N N − n N − 1 {\displaystyle n{K \over 💶 N}{(N-K) \over N}{N-n \over N-1}} Obliquidade ( N − 2 K ) ( N − 1 ) 1 2 ( 💶 N − 2 n ) [ n K ( N − K ) ( N − n ) ] 1 💶 2 ( N − 2 ) {\displaystyle {\frac {(N-2K)(N-1)^{\frac {1}{2}}(N-2n)}{[nK(N-K)(N-n)]^{\frac {1}{2}}(N-2)}}} Curtose 1 n K ( N − K ) 💶 ( N − n ) ( N − 2 ) ( N − 3 ) ⋅ {\displaystyle \left.
{\frac {1}{nK(N-K)(N-n)(N-2)(N-3)}}\cdot \right.
} 💶 [ ( N − 1 ) N 2 ( N ( N + 1 ) − 6 K ( N 💶 − K ) − 6 n ( N − n ) ) + {\displaystyle {\Big [}(N-1)N^{2}{\Big (}N(N+1)-6K(N-K)-6n(N-n){\Big )}+} 6 n 💶 K ( N − K ) ( N − n ) ( 5 N − 6 ) ] {\displaystyle 6nK(N-K)(N-n)(5N-6){\Big 💶 ]}} Função Geradora de Momentos ( N − K n ) 2 F 1 ( − n , − K 💶 ; N − K − n + 1 ; e t ) ( N n ) {\displaystyle {\frac {{N-K \choose 💶 n}\scriptstyle {\,_{2}F_{1}(-n,-K;N-K-n+1;e^{t})}}{N \choose n}}\,\!} Função Característica ( N − K n ) 2 F 1 ( − n , − 💶 K ; N − K − n + 1 ; e i t ) ( N n ) {\displaystyle {\frac 💶 {{N-K \choose n}\scriptstyle {\,_{2}F_{1}(-n,-K;N-K-n+1;e^{it})}}{N \choose n}}}
Em teoria das probabilidades e estatística, a distribuição hipergeométrica é uma distribuição de probabilidade discreta 💶 que descreve a probabilidade de k {\displaystyle k} sucessos em n {\displaystyle n} retiradas, sem reposição, de uma população de 💶 tamanho N {\displaystyle N} que contém exatamente K {\displaystyle K} sucessos, sendo cada retirada um sucesso ou um fracasso.
Em contraste, 💶 a distribuição binomial descreve a probabilidade de k {\displaystyle k} sucessos em n {\displaystyle n} retiradas com reposição.
Em estatística, o 💶 teste hipergeométrico usa a distribuição hipergeométrica para calcular a significância estatística de obtenção de um número específico k {\displaystyle k} 💶 de sucessos (a partir de um total de n {\displaystyle n} retiradas) a partir da população acima mencionada.
O teste é 💶 frequentemente usado para identificar quais subpopulações estão super-representadas ou sub-representadas em um amostra.
Por exemplo, um grupo de marketing poderia usar 💶 o teste para compreender bet 355 bet base de consumidores ao testar um conjunto de consumidores desconhecidos para avaliar a super-representação de 💶 vários subgrupos demográficos (como mulheres ou pessoas abaixo de 30).
As seguintes condições caracterizam a distribuição hipergeométrica:
O resultado de cada retirada 💶 (os elementos da população que compõem a amostra) pode ser classificado em uma de duas categorias mutuamente excludentes (por exemplo, 💶 aprovação ou reprovação, empregado ou desempregado);
A probabilidade de um sucesso muda a cada retirada, conforme cada retirada diminui a população 💶 (amostragem sem reposição a partir de uma população finita).
Uma variável aleatória X {\displaystyle X} segue a distribuição hipergeométrica se a 💶 função massa de probabilidade for dada por[1]
P ( X = k ) = ( K k ) ( N − 💶 K n − k ) ( N n ) , {\displaystyle P(X=k)={\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}},}em queN {\displaystyle N}K {\displaystyle 💶 K}n {\displaystyle n}k {\displaystyle k}
( a b ) {\displaystyle \textstyle {a \choose b}} coeficiente binomial.
A função massa de probabilidade é 💶 positiva quando max ( 0 , n + K − N ) ≤ k ≤ min ( K , n 💶 ) {\displaystyle \max(0,n+K-N)\leq k\leq \min(K,n)} .
A função massa de probabilidade satisfaz a relação de recorrência
( k + 1 ) ( 💶 N − K − ( n − k − 1 ) ) P ( X = k + 1 ) 💶 = ( K − k ) ( n − k ) P ( X = k ) {\displaystyle (k+1)(N-K-(n-k-1))P(X=k+1)=(K-k)(n-k)P(X=k)}com
P ( 💶 X = 0 ) = ( N − K n ) ( N n ) {\displaystyle P(X=0)={\frac {\binom {N-K}{n}}{\binom {N}{n}}}}
Como 💶 é de se esperar, a soma das probabilidades resulta em 1:
∑ 0 ≤ k ≤ n ( K k ) 💶 ( N − K n − k ) ( N n ) = 1 {\displaystyle \sum _{0\leq k\leq n}{{K \choose 💶 k}{N-K \choose n-k} \over {N \choose n}}=1}
Esta é essencialmente a identidade de Vandermonde da combinatória.
A seguinte identidade também se aplica:
( 💶 K k ) ( N − K n − k ) ( N n ) = ( n k ) 💶 ( N − n K − k ) ( N K ) .
{\displaystyle {{{K \choose k}{{N-K} \choose {n-k}}} \over {N 💶 \choose n}}={{{n \choose k}{{N-n} \choose {K-k}}} \over {N \choose K}}.}
Isto segue da simetria do problema, mas isto também pode ser 💶 mostrado expressando os coeficientes binomiais em termos de fatoriais e rearranjando os últimos.[2]
Aplicação e exemplo [ editar | editar código-fonte 💶 ]
A aplicação clássica da distribuição hipergeométrica é a amostragem sem reposição.
Suponha uma urna com dois tipos de bolas, vermelhas e 💶 verdes.
Defina a retirada de uma bola verde como um sucesso e a retirada de uma bola vermelha como um fracasso 💶 (o que é análogo à distribuição binomial).
Se a variável N {\displaystyle N} descrever o número de todas as bolas na 💶 urna e K {\displaystyle K} descrever o número de bolas verdes, então N − K {\displaystyle N-K} corresponde ao número 💶 de bolas vermelhas.
Neste exemplo, X {\displaystyle X} é a variável aleatória cujo valor observado é k {\displaystyle k} , o 💶 número de bolas verdes retiradas no experimento.
Esta situação é ilustrada pela seguinte tabela de contingência:
Retiradas Não retiradas Total Bolas verdes 💶 k {\displaystyle k} K − k {\displaystyle K-k} K {\displaystyle K} Bolas vermelhas n − k {\displaystyle n-k} N + 💶 k − n − K {\displaystyle N+k-n-K} N − K {\displaystyle N-K} Total n {\displaystyle n} N − n {\displaystyle 💶 N-n} N {\displaystyle N}
Agora, assuma, por exemplo, que há 5 bolas verdes e 45 bolas vermelhas na urna.
De pé ao 💶 lado da urna, você fecha seus olhos e retira 10 bolas sem reposição.
Qual é a probabilidade de que exatamente 4 💶 das 10 sejam verdes? Note que, apesar de estarmos observando sucessos e fracassos, os dados não são precisamente modelados pela 💶 distribuição binomial, porque a probabilidade de sucesso em cada triagem não é a mesma, já que o tamanho da população 💶 remanescente muda conforme removemos cada bola.
O problema está resumido pela seguinte tabela de contingência:
Retiradas Não retiradas Total Bolas verdes k 💶 = 4 {\displaystyle k=4} K − k = 1 {\displaystyle K-k=1} K = 5 {\displaystyle K=5} Bolas vermelhas n − 💶 k = 6 {\displaystyle n-k=6} N + k − n − K = 39 {\displaystyle N+k-n-K=39} N − K = 💶 45 {\displaystyle N-K=45} Total n = 10 {\displaystyle n=10} N − n = 40 {\displaystyle N-n=40} N = 50 {\displaystyle 💶 N=50}
A probabilidade de retirar exatamente k {\displaystyle k} bolas verdes pode ser calculada pela fórmula
P ( X = k ) 💶 = f ( k ; N , K , n ) = ( K k ) ( N − K 💶 n − k ) ( N n ) .
{\displaystyle P(X=k)=f(k;N,K,n)={{{K \choose k}{{N-K} \choose {n-k}}} \over {N \choose n}}.}
Assim, neste exemplo, 💶 calcula-se
P ( X = 4 ) = f ( 4 ; 50 , 5 , 10 ) = ( 5 💶 4 ) ( 45 6 ) ( 50 10 ) = 5 ⋅ 8145060 10272278170 = 0.003964583 .
.
.
.
{\displaystyle P(X=4)=f(4;50,5,10)={{{5 💶 \choose 4}{{45} \choose {6}}} \over {50 \choose 10}}={5\cdot 8145060 \over 10272278170}=0.003964583\dots .}
Intuitivamente, é ainda mais improvável que todas as cinco 💶 bolas sejam verdes.
P ( X = 5 ) = f ( 5 ; 50 , 5 , 10 ) = 💶 ( 5 5 ) ( 45 5 ) ( 50 10 ) = 1 ⋅ 1221759 10272278170 = 0.0001189375 .
.
.
💶 .
{\displaystyle P(X=5)=f(5;50,5,10)={{{5 \choose 5}{{45} \choose {5}}} \over {50 \choose 10}}={1\cdot 1221759 \over 10272278170}=0.0001189375\dots .}
Conforme esperado, a probabilidade de retirar cinco 💶 bolas verdes é aproximadamente 35 vezes menor do que a probabilidade de retirar 4 bolas verdes.
Outro exemplo se refere a 💶 um jogo de loteria que consiste em selecionar seis números de um conjunto de cem, que vão de de 00 💶 a 99, com uma bola para cada número e sem reposição.
Em um cartão de aposta, o jogador pode escolher de 💶 6 a 12 números.
Qual é a probabilidade de que o jogador acerte a quina, ou seja, cinco números, ao marcar 💶 10 números no volante? Temos
N {\displaystyle N} N = 100 {\displaystyle N=100}
n {\displaystyle n} n = 6 {\displaystyle n=6}
K {\displaystyle 💶 K} K = 10 {\displaystyle K=10}
X {\displaystyle X} X = 5 {\displaystyle X=5}
P ( X = 5 | 100 , 💶 10 , 6 ) = ( 10 5 ) ( 100 − 10 6 − 5 ) ( 100 6 💶 ) = 252 ∗ 90 1.192.052.400 = 0 , 000019.
{\displaystyle P(X=5|100,10,6)={{{10 \choose 5}{{100-10} \choose {6-5}}} \over {100 \choose 6}}={{{252}*{90}} \over 💶 {1.192.052.400}}=0,000019.}
A probabilidade de que o jogador acerte a quina é de aproximadamente 0,000019%.
O mesmo problema pode ser resolvido de outra 💶 forma.
Pode-se pensar que a escolha aleatória é feita pelo jogador, mas que os números "premiados" já estão definidos a priori, 💶 sem que o jogador saiba.
Logo, existem dois tipos de números, os "premiados" e os "não premiados".
O jogador escolhe aleatoriamente (ou 💶 não, desde que seu critério de escolha seja independente dos números "premiados") os 10 números do seu jogo.Assim:
N {\displaystyle N} 💶 N = 100 {\displaystyle N=100}
n {\displaystyle n} n = 10 {\displaystyle n=10}
K {\displaystyle K} K = 6 {\displaystyle K=6}
X {\displaystyle 💶 X} X = 5 {\displaystyle X=5}
P ( X = 5 | 100 , 6 , 10 ) = ( 6 💶 5 ) ( 100 − 6 10 − 5 ) ( 100 10 ) = 6 ∗ 54.891.018 17.310.309.456.440 = 💶 0 , 000019.
{\displaystyle P(X=5|100,6,10)={{{6 \choose 5}{{100-6} \choose {10-5}}} \over {100 \choose 10}}={{{6}*{54.891.018}} \over {17.310.309.456.440}}=0,000019.}
O resultado é o mesmo.
Aplicação no Texas 💶 hold 'em [ editar | editar código-fonte ]
No pôquer Texas hold 'em, jogadores fazer a melhor mão que podem combinando 💶 duas cartas em suas mãos com as cinco cartas (cartas comunitárias) eventualmente distribuídas sobre a mesa.
O baralho tem 52 cartas, 💶 13 de cada naipe.
Para este exemplo, assuma que um jogador tem duas cartas de paus na mão e há três 💶 cartas na mesa, duas das quais também são de paus.
O jogador gostaria de saber a probabilidade de que uma das 💶 duas próximas cartas a serem mostradas seja uma carta de paus para completar o flush.
Note que as chances calculadas neste 💶 exemplo assumem que nenhuma informação é conhecida sobre as cartas nas mãos dos outros jogadores.
Entretanto, jogadores de pôquer experientes podem 💶 levar em conta como outros jogadores fazem suas apostas ao considerar as probabilidades para cada cenário.
Estritamente falando, a abordagem ao 💶 calcular probabilidades de sucesso aqui descrita é precisa em um cenário em que há apenas um jogador na mesa.
Em uma 💶 partida com vários jogadores, estas probabilidades podem ser ajustadas de alguma forma com base nas apostas dos oponentes.
Há quatro cartas 💶 de paus à mostra, então há nove cartas de paus ocultas.
Há cinco cartas à mostra (duas na mão e três 💶 na mesa, então há 52 − 5 = 47 {\displaystyle 52-5=47} ainda ocultas.
A probabilidade de que uma das duas próximas 💶 cartas a serem mostradas seja uma carta de paus pode ser calculada usando a hipergeométrica k = 1 {\displaystyle k=1} 💶 , n = 2 {\displaystyle n=2} , K = 9 {\displaystyle K=9} e N = 47 {\displaystyle N=47} , sendo 💶 cerca de 31,6%.
A probabilidade de que as duas próximas cartas a serem mostradas sejam duas cartas de paus pode ser 💶 calculada usando a hipergeométrica k = 2 {\displaystyle k=2} , n = 2 {\displaystyle n=2} , K = 9 {\displaystyle 💶 K=9} e N = 47 {\displaystyle N=47} , sendo cerca de 3,3%.
A probabilidade de que nenhuma das duas próximas cartas 💶 a serem mostradas seja uma carta de paus pode ser calculada usando a hipergeométrica k = 0 {\displaystyle k=0} , 💶 n = 2 {\displaystyle n=2} , K = 9 {\displaystyle K=9} e N = 47 {\displaystyle N=47} , sendo cerca 💶 de 65,0%.
Invertendo os atributos das bolas verdes e vermelhas, temos:
f ( k ; N , K , n ) = 💶 f ( n − k ; N , N − K , n ) .
{\displaystyle f(k;N,K,n)=f(n-k;N,N-K,n).}
Invertendo os atributos das bolas 💶 retiradas e não retiradas, temos:
f ( k ; N , K , n ) = f ( K − k 💶 ; N , K , N − n ) .
{\displaystyle f(k;N,K,n)=f(K-k;N,K,N-n).}
Invertendo os atributos das bolas verdes e retiradas, temos:
f ( 💶 k ; N , K , n ) = f ( k ; N , n , K ) .
{\displaystyle 💶 f(k;N,K,n)=f(k;N,n,K).}
O biólogo e estatístico britânico Ronald Fisher
O teste hipergeométrico usa a distribuição hipergeométrica para medir a significância estatística da obtenção 💶 de uma amostra que consiste de um número específico de k {\displaystyle k} sucessos (dentre um total n {\displaystyle n} 💶 de retiradas) a partir de uma população de tamanho N {\displaystyle N} contendo K {\displaystyle K} sucessos.
Em um teste para 💶 a super-representação de sucessos na amostra, o valor-p hipergeométrico é calculado como a probabilidade de obter aleatoriamente k {\displaystyle k} 💶 ou mais sucessos a partir da população em um total n {\displaystyle n} de retiradas.
Em um teste para sub-representação, o 💶 valor-p é a probabilidade de obter aleatoriamente k {\displaystyle k} ou menos sucessos.
Relação com o teste exato de Fisher [ 💶 editar | editar código-fonte ]
O teste baseado na distribuição hipergeométrica, o teste hipergeométrico, é idêntico à versão unicaudal correspondente do 💶 teste exato de Fisher.
[3] Reciprocamente, o valor-p de um teste exato de Fisher bicaudal pode ser calculada como a soma 💶 de dois testes hipergeométricos apropriados.[4]
Ordem das retiradas [ editar | editar código-fonte ]
A probabilidade de retirar qualquer sequência de bolas 💶 brancas e pretas, a distribuição hipergeométrica, depende apenas do número de bolas brancas e pretas, não da ordem em que 💶 elas aparecem, isto é, é uma distribuição intercambiável.
Como resultado, a probabilidade de retirar uma bola branca na i {\displaystyle i} 💶 -ésima retirada[5]P ( W i ) = K N .
{\displaystyle P(W_{i})={\frac {K}{N}}.}
Considere X ∼ {\displaystyle X\sim } Hipergeométrica ( K 💶 , N , n ) {\displaystyle (K,N,n)} e p = K / N {\displaystyle p=K/N} .
Se n = 1 {\displaystyle 💶 n=1} X {\displaystyle X} distribuição de Bernoulli com parâmetro p {\displaystyle p}
distribuição de Bernoulli com parâmetro Considere que Y {\displaystyle 💶 Y} n {\displaystyle n} p {\displaystyle p} N {\displaystyle N} K {\displaystyle K} n {\displaystyle n} p {\displaystyle p} X 💶 {\displaystyle X} Y {\displaystyle Y} P ( X ≤ k ) ≈ P ( Y ≤ k ) {\displaystyle P(X\leq 💶 k)\approx P(Y\leq k)}
Se n {\displaystyle n} N {\displaystyle N} K {\displaystyle K} n {\displaystyle n} p {\displaystyle p}
P ( X 💶 ≤ k ) ≈ Φ ( k − n p n p ( 1 − p ) ) , {\displaystyle 💶 P(X\leq k)\approx \Phi \left({\frac {k-np}{\sqrt {np(1-p)}}}\right),}
em que Φ {\displaystyle \Phi }
Se as probabilidades de retirar uma bola branca ou preta 💶 não forem iguais (por exemplo, porque bolas brancas são maiores ou mais fáceis de pegar do que as bolas pretas), 💶 então, X {\displaystyle X}
A distribuição beta-binomial é a priori conjugada para a distribuição hipergeométrica.
A tabela abaixo descreve quatro distribuição relacionadas 💶 com o número de sucessos em uma sequência de retiradas:
Com reposições Sem reposições Dado número de retiradas Distribuição binomial Distribuição 💶 hipergeométrica Dado número de fracassos Distribuição binomial negativa Distribuição hipergeométrica negativa
Limites de cauda [ editar | editar código-fonte ]
Considere X 💶 ∼ {\displaystyle X\sim } Hipergeométrica ( K , N , n ) {\displaystyle (K,N,n)} e p = K / N 💶 {\displaystyle p=K/N} .
Então, podemos derivar os seguintes limites:[6]
Pr [ X ≤ ( p − t ) n ] ≤ e 💶 − n D ( p − t | | p ) ≤ e ( − 2 t 2 n ) 💶 Pr [ X ≥ ( p + t ) n ] ≤ e − n D ( p + t 💶 | | p ) ≤ e ( − 2 t 2 n ) {\displaystyle {\begin{aligned}\Pr[X\leq (p-t)n]&\leq e^{-n{\text{D}}(p-t||p)}\leq e^{(-2t^{2}n)}\\\Pr[X\geq (p+t)n]&\leq e^{-n{\text{D}}(p+t||p)}\leq 💶 e^{(-2t^{2}n)}\\\end{aligned}}\!}em que
D ( a | | b ) = a log a b + ( 1 − a ) 💶 log 1 − a 1 − b {\displaystyle D(a||b)=a\log {\frac {a}{b}}+(1-a)\log {\frac {1-a}{1-b}}}
é a divergência de Kullback-Leibler e D 💶 ( a , b ) ≥ 2 ( a − b ) 2 {\displaystyle D(a,b)\geq 2(a-b)^{2}} é usado.[7]
Se n {\displaystyle 💶 n} for maior que N / 2 {\displaystyle N/2} , pode ser útil aplicar simetria para "inverter" os limites, o 💶 que resulta no seguinte:[7][8]
Pr [ X ≤ ( p − t ) n ] ≤ e − ( N − 💶 n ) D ( p + t n N − n | | p ) ≤ e − 2 t 💶 2 n n N − n , Pr [ X ≥ ( p + t ) n ] ≤ e 💶 − ( N − n ) D ( p − t n N − n | | p ) ≤ 💶 e − 2 t 2 n n N − n .
{\displaystyle {\begin{aligned}\Pr[X\leq (p-t)n]&\leq e^{-(N-n){\text{D}}(p+{\tfrac {tn}{N-n}}||p)}\leq e^{-2t^{2}n{\tfrac {n}{N-n}}},\\\\\Pr[X\geq (p+t)n]&\leq e^{-(N-n){\text{D}}(p-{\tfrac {tn}{N-n}}||p)}\leq 💶 e^{-2t^{2}n{\tfrac {n}{N-n}}}.\\\end{aligned}}\!}
Distribuição hipergeométrica multivariada [ editar | editar código-fonte ]
Distribuição hipergeométrica multivariada Parâmetros c ∈ N = { 0 , 💶 1 , .
.
.
} {\displaystyle c\in \mathbb {N} =\lbrace 0,1,\ldots \rbrace }
( K 1 , .
.
.
, K c ) 💶 ∈ N c {\displaystyle (K_{1},\ldots ,K_{c})\in \mathbb {N} ^{c}}
N = ∑ i = 1 c K i {\displaystyle N=\sum _{i=1}^{c}K_{i}}
n 💶 ∈ { 0 , .
.
.
, N } {\displaystyle n\in \lbrace 0,\ldots ,N\rbrace } Suporte { k ∈ Z 0 💶 + c : ∀ i k i ≤ K i , ∑ i = 1 c k i = n 💶 } {\displaystyle \left\{\mathbf {k} \in \mathbb {Z} _{0+}^{c}\,:\,\forall i\ k_{i}\leq K_{i},\sum _{i=1}^{c}k_{i}=n\right\}} f.d.p.
∏ i = 1 c ( K i 💶 k i ) ( N n ) {\displaystyle {\frac {\prod _{i=1}^{c}{\binom {K_{i}}{k_{i}}}}{\binom {N}{n}}}} Média E ( X i ) = 💶 n K i N {\displaystyle E(X_{i})={\frac {nK_{i}}{N}}} Variância Var ( X i ) = K i N ( 1 − 💶 K i N ) n N − n N − 1 {\displaystyle {\text{Var}}(X_{i})={\frac {K_{i}}{N}}\left(1-{\frac {K_{i}}{N}}\right)n{\frac {N-n}{N-1}}}
O modelo de uma urna 💶 com bolas pretas e brancas pode ser estendida ao caso em que há mais de duas cores de bolas.
Se houver 💶 K i {\displaystyle K_{i}} bolas de cor i {\displaystyle i} na urna e forem retiradas n {\displaystyle n} bolas aleatoriamente, 💶 sem reposição, então, o número de bolas de cada cor na amostra ( k 1 , k 2 , ...
, 💶 k c ) {\displaystyle (k_{1},k_{2},...
,k_{c})} tem distribuição hipergeométrica multivariada.
Esta tem uma relação com a distribuição multinomial igual à que a 💶 distribuição hipergeométrica tem com a distribuição binomial - a distribuição multinomial é a distribuição "com reposição" e a a distribuição 💶 hipergeométrica multivariada é a distribuição "sem reposição".
As propriedades desta distribuição são dadas na tabela adjacente, em que c {\displaystyle c} 💶 é o número de cores diferentes e N = ∑ i = 1 c K i {\displaystyle N=\sum _{i=1}^{c}K_{i}} é 💶 o número total de bolas.
Suponha que uma urna contém cinco bolas pretas, dez bolas brancas e quinze bolas vermelhas.
São selecionadas 💶 seis bolas sem reposição.
A probabilidade de que sejam retiradas duas bolas de cada cor é
P ( 2 pretas, 2 brancas, 💶 2 vermelhas ) = ( 5 2 ) ( 10 2 ) ( 15 2 ) ( 30 6 ) 💶 = 0.079575596816976.
{\displaystyle P({\text{2 pretas, 2 brancas, 2 vermelhas}})={{{5 \choose 2}{10 \choose 2}{15 \choose 2}} \over {30 \choose 6}}=0.079575596816976.}