Cópula (estatística)

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

Em estatística, uma função cópula é usada como método geral para formular distribuições multivariadas de maneira que diversos tipos gerais de dependência possam ser representados 1

Idéia básica[editar | editar código-fonte]

Considere duas variáveis aleatórias X e Y com distribuição cumulativa conjunta dada por F_{X,Y}(x,y) e distribuições cumulativas marginais dadas por F_{X}(x) e F_{Y}(y). Segundo o teorema de Sklar 1 , para qualquer par de variáveis aleatórias existe uma função  C(u,v) tal que:

F_{X,Y}\left(x,y\right) = C(F_{X}(x),F_{Y}(y))

Sempre é possível fazer a transformação de variáveis

 U = F_{X}\left(X\right) e  V = F_{Y}\left(Y\right),

de forma que U e V possuem ambas distribuições marginais uniformes no intervalo [0,1]. A distribuição cumulativa conjunta de U e V é dada pela própria função cópula:

 F_{U,V}\left(u,v\right) = C(u,v)

A função cópula C(u,v) contém todas as informações da distribuição de probabilidade que independem das distribuições marginais. Dessa forma, pode-se dizer que as cópulas codificam a dependência entre as variáveis. Com essa construção temos que a distribuição conjunta de variáveis aleatórias podem ser decompostas em distribuições marginais de cada uma das variáveis, que contém todas as informações sobre cada uma das variáveis correspondentes, e cópula, que contém toda a informação de como as variáveis dependem uma das outras.

Definição formal[editar | editar código-fonte]

Uma cópula é uma distribuição cumulativa conjunta multivariada no cubo unitário n-dimensional [0,1]^n tal que todas as distribuições marginais são uniformes no intervalo [0,1]:

 C\left(u_{1}, u_{2},\ldots,u_{n}\right)= C(\mathbf{u}) = \mathrm{Prob}\left(U_{1}<u_{1}, U_{2}<u_{2},\ldots,U_{n}<u_{n}\right) com  u_{n} \in [0,1] ,
 \operatorname{Prob}\left(U_{i} < u_{i}\right) = u_{i} para todo  i \in \{1,2, \ldots, n\}.

De maneira maneira alternativa, uma função C:\left[0,1\right]^n \rightarrow [0,1] é dita uma cópula em n dimensões se:

 C(\mathbf{u}) = 0 sempre que ao menos uma das componentes de \mathbf{u} for nula,
 C(\mathbf{u}) = u_{i} sempre que todas as componentes de \mathbf{u} são iguais a 1, exceto a i-ésima, que é igual a u_{i},
 C(\mathbf{u}) é n-crescente, ou seja, todo B=\times_{i=1}^{n}[x_i,y_i]\subseteq [0,1]^n possui C-volume maior ou igual a 0, com C-volume definido por \sum_{\mathbf z\in \times_{i=1}^{n}\{x_i,y_i\}} (-1)^{\operatorname{card}\{k\mid z_k=x_k\}} C(\mathbf z).

Caso n=2[editar | editar código-fonte]

No caso bivariado, a função C\left(u,v\right): [0,1]\times[0,1] \rightarrow [0,1] é denominada uma cópula se:

 C(0,v) = C\left(u,0\right) = 0 ,
 C\left(u,1\right) = u e  C\left(1,v\right)=v,
Se u_{1}\le u_{2} e v_{1}\le v_{2}, então  C\left(u_{2},v_{2}\right) - C\left(u_{1},v_{2}\right) - C\left(u_{2},v_{1}\right) + C\left(u_{1},v_{1}\right) \ge 0

Limites de Fréchet-Hoeffding[editar | editar código-fonte]

As funções  W(u,v) = \max(0, u+v-1) e  M(u,v) = \min(u,v) são cópulas bivariadas e possuem a propriedade de limitar por cima e por baixo todas as outras cópulas possíveis. Assim, se  C(u,v) é uma cópula em 2 dimensões, então:

 W\left(u,v\right) \le C(u,v) \le M(u,v) para quaisquer u e v no intervalo unitário.

No caso multivariado também existem cópulas limítrofes dadas por:

 W(u_{1},u_{2},\ldots,u_{n}) = \max \left(1-n+\sum_{i=1}^{n}u_{i},0\right) e M(u_{1},u_{2},\ldots,u_{n}) = \min \left(u_{1},u_{2},\ldots,u_{n}\right),

de tal forma que W(\mathbf{u}) \le C(\mathbf{u}) \le M(\mathbf{u}).

Densidade de Cópula[editar | editar código-fonte]

A função densidade de probabilidade é dada por:

 p_{X,Y}(x,y) =  \frac{\partial^2F_{X,Y}\left(x,y\right)}{\partial x \partial y} = c(F_{X}(x), F_{Y}(y)) p_{X}(x) p_{Y}(y)

onde p_{X}(x) e p_{Y}(y) são as funções densidade de probabilidade marginais de X e Y respectivamente e a função:

c(u,v) = \frac{\partial^2}{\partial u \partial v}C(u,v)

é dita a densidade de cópula. A densidade de cópula é também a função densidade de probabilidade conjunta para as variáveis U e V definidas acima.

Cópulas importantes e famílias de cópulas[editar | editar código-fonte]

Nas aplicações em finanças e inferência estatística pode-se famílias de distribuições multivariadas construídas com cópulas parametrizadas por um ou mais parâmetros a serem encontrados através dos métodos estabelecidos de inferência (método dos momentos, máxima verossimilhança, estimação bayesiana de parâmetros, etc). Abaixo algumas famílias conhecidas de cópulas são apresentadas com suas propriedades mais importantes.

Cópula trivial[editar | editar código-fonte]

Além das cópulas de Fréchet-Hoeffding, que indicam dependência máxima positiva e negativa, uma terceira cópula importante é aquela que indica dependência estatística nula, a cópula trivial ou cópula produto:

C\left(u,v\right) = uv

Essa cópula é a que surge quando as variáveis são estatisticamente independentes, ou seja, quando a distribuição conjunta pode ser escrita como um produto das distribuições marginais. No caso multivariado a cópula produto é dada por:

C\left(\mathbf{u}\right) = \prod_{i=1}^{n} u_{i}

Cópula Normal ou Gaussiana[editar | editar código-fonte]

A distribuição normal multivariada pode ser usada para construir uma família de cópulas através da mudança de variáveis indicada na introdução. Dessa forma se obtém uma família de cópulas parametrizadas pelos n(n-1)/2 coeficientes independentes da matriz de correlação. A cópula gaussiana ou normal será portanto dada por:

 C_{\hat{\Sigma}} (\mathbf{u}) = \frac{1}{\left[2\pi\det(\hat{\Sigma})\right]^{\frac{n}{2}}}\int_{-\infty}^{\Phi^{-1}\left(u_{1}\right)}\int_{-\infty}^{\Phi^{-1}\left(u_{2}\right)}\cdots\int_{-\infty}^{\Phi^{-1}\left(u_{n}\right)}dx_{1} dx_{2}\ldots dx_{n} \exp\left[-\frac{1}{2} \mathbf{x}^{\mathrm{T}}\hat{\Sigma}^{-1}\mathbf{x}\right]

em que:

  • 
\hat{\Sigma} = \begin{bmatrix}
    1 & \rho_{1,2} &  \cdots & \rho_{1,n} \\
    \rho_{2,1} & 1 & \cdots & \rho_{2,n} \\
    \vdots & \vdots & \ddots & \vdots \\
    \rho_{n,1} & \rho_{n,2} & \cdots & 1
    \end{bmatrix}
é a matriz de correlação que parametriza a cópula e

No caso bivariado ficamos com:


C_{\rho}\left(u,v\right) = \frac{1}{2 \pi\sqrt{1-\rho^2}} \int_{-\infty}^{\Phi^{-1}\left(u\right)}dx\int_{-\infty}^{\Phi^{-1}\left(v\right)}dy\exp \left (-
\frac{1}{2(1-\rho^2)}  \left [{x^2+y^2} -2\rho xy  \right ] \right )

onde \rho é a correlação que parametriza a cópula.

A cópula normal se reduz à cópula produto quando a matriz de correlação é diagonal, i. e., quando todas as correlações são nulas.

Cópula t[editar | editar código-fonte]

Assim como a cópula normal pode ser definida a partir da distribuição normal multivariada, a distribuição t de Student multivariada dá origem à cópula t 2 . A cópula t é dada por:

 C_{\hat{\Sigma},\nu} (\mathbf{u}) = \frac{\Gamma(\frac{\nu+d}{2})}{\Gamma(\frac{\nu}{2})\sqrt{(\pi\nu)^{d}|\hat{\Sigma}|}}\int_{-\infty}^{t_{\nu}^{-1}\left(u_{1}\right)}dx_{1} \int_{-\infty}^{t_{\nu}^{-1}\left(u_{2}\right)}dx_{2} \ldots \int_{-\infty}^{t_{\nu}^{-1}\left(u_{n}\right)}dx_{n}\left[1+ \frac{\mathbf{x}^{\mathrm{T}}\hat{\Sigma}^{-1}\mathbf{x}}{\nu}\right]^{-\frac{\nu+d}{2}},

em que:

  • \hat{\Sigma} é a matriz de correlações, como no caso da cópula normal,
  • \nu é o parâmetro conhecido como número de graus de liberdade da distribuição t e
  • t_{\nu}(x) é a distribuição cumulativa de uma distribuição Student t univariada padronizada.

Quando o número de graus de liberdade \nu é muito grande, a cópula t fica cada vez mais próxima da cópula gaussiana, ficando idêntica à mesma no limite \nu \rightarrow \infty.

Cópulas arquimedianas[editar | editar código-fonte]

Algumas cópulas podem ser escritas na forma:

 C(u,v) = \phi\left(\phi^{-1}(u) + \phi^{-1}(v)\right)

e são chamadas cópulas arquimedianas com função geradora \phi(x). Qualquer função pode ser a função geradora de uma cópula arquimediana se satisfizer os critérios:

 \phi \left(0\right) = 1
 \lim_{x\rightarrow 0}\phi(x) = \infty
 \frac{\mathrm{d}\phi}{\mathrm{d}x} < 0
 \frac{\mathrm{d}^2\phi}{\mathrm{d}x^2} > 0

Cópulas dessa classe são usadas extensamente em econometria, finanças e estatística por possuírem expressões analíticas extremamente simples para a maioria de seus momentos e parâmetros de dependência.

A cópula produto é uma cópula arquimediana com função geradora  \phi(x) = -\ln(x) .

Mais importantes funcções geradoras para cópulas arquimedianas. 3
name função geradora \,\phi(t) inversa da geradora \,\phi^{-1}(t) parameter
Ali-Mikhail-Haq \frac{1-\theta}{\exp(t)-\theta} \log\left(\frac{1-\theta+\theta t}{t}\right) \theta\in[0,1)
Clayton4 \left(1+t\right)^{-1/\theta} t^{-\theta}-1\, \theta\in(0,\infty)
Frank -\frac{\log(1-(1-\exp(-\theta))\exp(-t))}{\theta} -\log\left(\frac{\exp(-\theta t)-1}{\exp(-\theta)-1}\right) \theta\in(0,\infty)
Gumbel \exp\left(-t^{1/\theta}\right) \left(-\log(t)\right)^\theta \theta\in[1,\infty)
Independence \exp(-t)\, -\log(t)\,
Joe 1-\left(1-\exp(-t)\right)^{1/\theta} -\log\left(1-(1-t)^\theta\right) \theta\in[1,\infty)

Cópula de Clayton[editar | editar código-fonte]

A cópula de Clayton é obtida usando a função geradora:

 \phi(x) = \frac{1}{\alpha}(t^{-\alpha}-1) ,

e é dada pela expressão:

 C(u,v) = \max(\left[u^{-\alpha} + v^{-\alpha} -1 \right]^{-\frac{1}{\alpha}}, 0 ) .

Cópula de Frank[editar | editar código-fonte]

A cópula de Frank é obtida usando a função geradora:

 \phi(x) = -\ln\left(\frac{\exp(-\alpha t)-1}{\exp(-\alpha)-1}\right) ,

e é dada pela expressão:

 C(u,v) = -\frac{1}{\alpha}\ln\left(1+ \frac{(e^{-\alpha u}-1)(e^{-\alpha v}-1)}{e^{-\alpha}-1}\right).

Estimação de cópulas[editar | editar código-fonte]

A função cópula pode ser estimada a partir dos métodos tradicionais de inferência paramétrica ou não-paramétrica.

Distribuição cumulativa empírica dos postos[editar | editar código-fonte]

O método mais simples e imediato é através da interpolação de um histograma dos postos. A partir de uma série de observações  (x_i, y_i) com  i= 1,2,\ldots, N das variáveis X e Y, definimos o posto X_i da seguinte forma:

  1. ordene os valores x_{i} de forma crescente,
  2. X_{i} é definido como a posição do valor x_{i} nessa seqüência ordenada dividida pelo número de observações N.

analogamente Y_{i} é a posição de y_{i} na lista ordenada de todos os valores de Y normalizada pelo total N. As variáveis de posto (X_i,Y_i) são estimadores para as variáveis U e V da introdução. Dessa forma, uma estimativa para a cópula pode ser obtida estimando a distribuição cumulativa dos postos:


C_n\left(\frac{j}{N}, \frac{k}{N}\right) = \frac{\text{Numero de pares de postos} (X_{i},Y_{i}) \text{tais que } X_{i} \leq X_{(j)} \text{ e } Y_{i} \leq Y_{(k)} }{N}.

Valores de C(u,v) não compreendidos pela expressão acima podem ser interpolados.

Método dos momentos[editar | editar código-fonte]

Uma outra forma de estimar a cópula associada a um certo conjunto de dados é usar uma família de cópulas C(u,v|\theta) com um série de parâmetros \theta_1, \theta_2,\ldots, \theta_n. Se são conhecidas expressões analíticas dos valores esperados com relação a esta cópula de n funções:

E\left[f_{i}(u,v)\right]=F_{i}(\theta),

pode-se obter n equações para os parâmetros \theta se houver estimativas para esses valores esperados a partir do conjunto de dados conhecido.

Método da máxima verossimilhança[editar | editar código-fonte]

O método da máxima verossimilhança pode ser aplicado a qualquer família distribuição de probabilidades com um certo número de parâmetros, e isso se aplica também a cópulas. O conjunto de parâmetros que maximiza a probabilidade dos dados observados:

 \hat{\theta} = \arg\max_{\theta} L(\theta, {(x_{i},y_{i}), i=1..n}) =\arg\max_{\theta} \sum_{i=1}^{n} c\left(X_{i},Y_{i}|\theta\right),

onde (X_{i},Y_{i}) são os postos definidos acima, oferece uma estimativa para a cópula dada por:

\hat{C}(u,v) = C\left(u,v|\hat{\theta}\right).

Inferência bayesiana[editar | editar código-fonte]

Priors para estimação bayesiana, paramétrica e não paramétrica, de cópulas, particularmente se for suposta uma estrutura arquimediana, são assuntos tratados em referências recentes enquanto se escreve esse artigo5 ,6 ,7 ,8 .

Medidas de dependência[editar | editar código-fonte]

O conceito de medidas de dependência está intimamente ligado ao conceito de cópula. Alguns dos requisitos de Renyi9 10 para que um funcional possa ser considerado uma boa medida de dependência pode ser resumidos no requisito de que dependenda exclusivamente da densidade de cópula.

Aplicações[editar | editar código-fonte]

Ver também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

Notas[editar | editar código-fonte]

  1. a b Roger B. Nelsen. An Introduction to Copulas (em inglês). [S.l.: s.n.], 1999. ISBN 0-387-98623-5
  2. Demarta S; McNeil A J. (2005). "The t copula and related copulas" (em inglês). International Statistical Review 73 (1): 111-129.
  3. Jan Marius Hofert (2010): Sampling Nested Archimedean Copulas with Applications to CDO Pricing. Dissertation at the University of Ulm
  4. David G. Clayton (1978), "A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence", Biometrika 65, 141–151. JSTOR (subscription)
  5. Philippe Lambert. (2007). "Archimedean copula estimation using Bayesian splines smoothing techniques". Source Computational Statistics & Data Analysis archive 51 (12): 6307-6320.
  6. David Huarda; Guillaume Évina ; Anne-Catherine Favre. (2006). "Bayesian copula selection". Computational Statistics & Data Analysis 51 (2): 809-822.
  7. Roberto de Matteis. Fitting copulas to data. Zurique: Diploma Thesis apresentada à universidade de Zurique, 2001.
  8. Dimitris Nicoloutsopoulos. Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Ph.D. Thesis apresentada à universidade de Londres, 2005.
  9. Renyi, A.. (1959). "On measures of dependence." (em inglês). Acta. Math. Acad. Sci. Hungar. 10: 441-451.
  10. Schweizer, B.; Wolff, E. F.. (1981). "On nonparametric measures of dependence for random variables." (em inglês). The Annals of Statistics 9 (4): 879-885.

Gerais[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]