Regressão Não Paramétrica

Regressão Não Paramétrica

Considere o modelo: \[ y_i = f(x_i) + e_i \;,\spc i = 1,\dots,n \] com \(e_i \overset{iid}{\sim} \norm(0, \sigma^2)\).


Em Problemas de regressão paramérica, assume-se uma forma funcional para \(f\), por exemplo, \(f(x) = \beta_0 + \beta_1 x + \dots + \beta_p x^p\).


Já em problemas de regressão não paramétrica, \(f\) é desconhecida. Logo, para estimar \(f\) utiliza-se bases como ondaletas, splines entre outras.

Regressão Não Paramétrica

Ademais, em termos vetoriais, o modelo é dado por: \[ \bs y = \bs f + \bs e \] onde

\[ \bs y = \begin{bmatrix}y_1\\\vdots\\y_n\end{bmatrix}, \hspace{2.5cm} \bs f = \begin{bmatrix}f(x_1)\\\vdots\\f(x_n)\end{bmatrix}, \hspace{2.5cm} \bs e =\begin{bmatrix}e_1\\\vdots\\e_n\end{bmatrix} \]

Regressão Não Paramétrica


Vantagens:

  • Maior flexibilidade;
  • Captura padrões complexos e não lineares;
  • Adapta-se aos dados, sendo especialmente útil quando há pouco conhecimento prévio sobre o modelo.


Desvantagens:

  • Menor interpretabilidade;
  • Necessita de uma maior quantidade de dados.

Ondaletas (Wavelets)

Ondaleta

Seja \(\psi \in \mathbb{L}_2(\RR) = \{f: \RR \to \RR \mid \int f^2 < \infty\}\) uma função que satisfaça a condição \[ C_\psi = \int_\RR \frac{\lvert\Psi(\omega)\rvert^2}{\lvert\omega\rvert} d\omega < \infty \] onde \(\Psi\) é a transformada de Fourier de \(\psi\). Então, dizemos que \(\psi\) é uma ondaleta (mãe).

Ondaleta

Além disso, uma vez que a ondaleta foi definida, pode-se gerar ondaletas através de operações de dilatação e translação: \[ \psi_{jk}(x) = 2^{j/2} \psi (2^jx - k) \;, \spc j,k \in \ZZ \]

Como \(\{\psi_{jk}\}_{j,k \in \ZZ}\) formam uma base ortonormal para \(\mathbb{L}_2(\RR)\), qualquer função \(f \in \mathbb{L}_2(\RR)\) pode ser representada por: \[ f(x) = \sum_{j,k \in \ZZ} d_{jk} \psi_{jk}(x) \] onde \(d_{jk}\) é chamado de coeficiente de ondaleta (“detalhes”).

Ondaleta

Além disso, também existe a ondaleta pai ou função escala \(\phi\), a qual fazemos translações e dilatações: \[ \phi_{jk}(x) = 2^{j/2} \phi (2^jx - k) \;, \spc j,k \in \NN \]

Com isso, para determinano nível \(j_0 \in \ZZ\) (resolução primária), uma função \(f\) pode ser escrita por: \[ f(x) = \sum_{k \in \ZZ} c_{j_0k} \phi_{j_0k}(x) + \sum_{j \geq j_0} \sum_{k \in \ZZ} d_{jk}\psi_{jk}(x) \] onde \(c_{jk}\) é chamado de coeficiente da função escala.

Ondaleta

Do ponto de vista matricial, considerando um vetor de dados \(\bs y \in \RR^n\) diádico, isto é, \(n = 2^J\), \(J \in \NN\). É possível aplicar a transformada discreta de ondaletas (DWT), representada pela matriz \(W\), de forma que \[ \bs d = W \bs y \] onde \(\bs d\) representa os coeficientes empíricos de ondaleta.

Além disso, como \(W\) é uma matriz ortogonal (\(W' = W^{-1}\)), a transformada discreta de ondaletas inversa (IDWT) é dada por: \[ \bs y = W'\bs d \]

Ademais, pela ortogonalidade de \(W\), temos que \(\|\bs d\|^2_2 = \|\bs y\|^2_2\) (Relação de Parseval).

Ondaleta

Figura 1: Funções ondaleta de Daubechies \(\psi\) e escala \(\phi\) para 1 (Haar), 2, 5 e 8 momentos nulos.

Exemplo 1: DWT

Exemplo 1: DWT

Ondaleta (mãe) de Haar: \[ \psi(x) = \begin{cases} 1 &, \; x \in \left[0, \frac{1}{2}\right)\\ -1 &, \; x \in \left[\frac{1}{2}, 1\right)\\ 0 &, \; c{.}c. \end{cases} \]


Função escala de Haar:

\[ \phi(x) = \begin{cases} 1 &, \; x \in [0, 1]\\ 0 &, \; c{.}c. \end{cases} \]

Exemplo 1: DWT

Agora que fixamos \(\psi\) e \(\phi\), falta apenas definir como calcular \(c_{jk}\) e \(d_{jk}\). Neste caso (considerando a ondaleta de Haar), eles podem ser calculados na primeira aplicação por:

\[ d_{jk} = \frac{1}{\sqrt{2}}(y_{2k} - y_{2k-1}) \hspace{2cm} \text{ e } \hspace{2cm} c_{jk} = \frac{1}{\sqrt{2}}(y_{2k} + y_{2k-1}) \] e, nas demais, por: \[ d_{jk} = \frac{1}{\sqrt{2}}(c_{j+1,2k} - c_{j+1, 2k-1}) \hspace{2cm} \text{ e } \hspace{2cm} c_{jk} = \frac{1}{\sqrt{2}}(c_{j+1,2k} + c_{j+1,2k-1}) \]

Exemplo 1: DWT

Considerando o vetor de dados \(\bs y = (1, 1, 7, 9, 2, 8, 8, 6)'\), a Figura 1 apresenta graficamente a DWT.

Figura 2: Exemplo visual da DWT (Nason, 2008).

Exemplo 1: DWT

Figura 3: Decomposição dos coeficientes de ondaletas. por nível de resolução.

Exemplo 1: DWT

A matriz \(W\) que faz essa transformação para \(n=8\) observações é dada por:

\[ W = \begin{bmatrix} \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4}\\ \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0 & 0 & 0\\ 0 & 0 &0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0\\ 0 & 0 & 0 & 0 &0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\\ \frac{-1}{2} & \frac{-1}{2} & \frac{1}{2} & \frac{1}{2} & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 &\frac{-1}{2} & \frac{-1}{2} & \frac{1}{2} & \frac{1}{2}\\ \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} \end{bmatrix} \]

Modelo

Modelo

Portanto, retomando ao modelo de regressão não paramétrica, temos que: \[ \bs y = \bs f + \bs e \] com \(e_i \overset{iid}{\sim} \norm(0, \sigma^2)\).

Então, multiplicando por \(W\) vamos ter o nosso modelo no domínio das ondaletas, dado por: \[ \bs d = \bs\theta + \bs\varepsilon \] onde

  • \(\bs d = W \bs y\) é o vetor dos coeficientes empíricos de ondaleta;
  • \(\bs \theta = W \bs f\) é o vetor dos coeficientes verdadeiros;
  • \(\bs\varepsilon = W \bs e\) é o erro, o qual tem suas propriedades preservadas, i.e., \(\varepsilon_i \overset{iid}{\sim} \norm(0,\sigma^2)\).

Modelo

Logo, o problema de estimar a função \(f\) foi substituido por estimar os coeficientes de ondaletas \(\bs\theta\) através dos coeficientes empíricos \(\bs d\).


Para isso, a abordagem mais tradicional é a utilização das regras de shrinkage, neste caso, a limiarização (thresholding), a qual consiste em anular coeficientes suficientemente pequenos. As duas propostas mais comuns são a do limiar duro (hard threshold) e limiar suave (soft threshold).


A intuição desta técnica consiste em que o vetor de coeficientes de ondaleta normalmente são esparsos. Além disso, coeficientes grandes estão associados às características importantes da função, como mínimos e máximos locais, descontinuidades entre outras. Enquanto que a parte mais suave da função se associa aos coeficientes nulos.

Modelo

Regra do limiar duro: \[ \delta^H(d) = \begin{cases} 0 &, \text{ se } \lvert d \rvert \leq \lambda\\ d &, \text{ se } \lvert d \rvert > \lambda \end{cases} \]

Figura 4: Regra do limiar duro.

Regra do limiar suave: \[ \delta^S(d) = \begin{cases} 0 &, \text{ se } \lvert d \rvert \leq \lambda\\ \operatorname{sgn}(d) (\lvert d \rvert - \lambda) &, \text{ se } \lvert d \rvert > \lambda \end{cases} \]

Figura 5: Regra do limiar suave.

Modelo

Existem diversas estratégias para determinar \(\lambda\), algumas delas são:

  • Validação cruzada.

  • Universal Threshold: utilizando o MAD (median absolute deviation) para estimar \(\sigma\), temos: \[ \lambda = \sigma \sqrt{2 \ln(n)} \]

  • SURE Threshold: escolhe o \(\lambda\) que minimiza o estimador não viesado do risco de Stein \(SURE(\lambda, \bs y)\), dado por: \[ SURE(\lambda; \mathbf{y}) = n - 2\#\{i:|y_i| \leq \lambda\} + \sum_{i}(\min\{|y_i|, \lambda\})^2 \]

Recapitulando




Figura 6: Resumo do procedimento de estimação.

Exemplo 2: Aplicando Método em Função de Teste

Funções de Teste

Figura 7: Funções de teste de Donoho e Johnstone.

Razão Sinal-Ruído (SNR)

A razão sinal-ruído (SNR) é dada por:

\[ SNR = \frac{\operatorname{SD}(\text{sinal})}{\operatorname{SD}(\text{ruído})} = \frac{\operatorname{SD}(f)}{\operatorname{SD}(\varepsilon)} \] Para estudos simulacionais, é interessante fixar a razão sinal-ruído para determinar o desepenho da téninca para aquela \(SNR\) e permitir a comparação com outros métodos.

Figura 8: Comparação entre diferentes SNR. Azul representa a função verdadeira e preto a amostra gerada.

Gerando Amostra

Figura 9: Amostra gerada com \(SNR = 3\). Azul representa a função verdadeira e preto a amostra.

Coeficientes de Ondaletas

Figura 10: Coeficientes de ondaletas empíricos (a.) e estimados (b.) por nível de resolução.

Estimativa da Bumps

Figura 11: Estimativa da bumps utilizando ondaleta de Daubechies com 2 momentos nulos e política de validação cruzada. Azul representa a função verdadeira e preto a função estimada.

Priore Spike and Slab

Priore Spike and Slab

Existem também propostas bayesianas para o problema, por exemplo, a apresentada em Barrios (2025), cuja priori atribuída é: \[\pi(\theta) = \alpha \delta_0(\theta) + (1 - \alpha) g(\theta; \beta) \hspace{1.2cm} \text{ e } \hspace{1.2cm} \sigma^2 \sim Exp(\lambda)\] onde \(\alpha \in (0,1)\), \(\lambda > 0\), \(\delta_0\) é o delta de Dirac com massa em \(0\) e \(g(d; \beta)\) é a função densidade da Epanechnikov Generalizada, dada por: \[ g(x; \beta) = \frac{3}{4\beta^3}(\beta^2 - x^2) \ind_{(-\beta, \beta)}^{(x)} \] com \(\beta > 0\).

Vale ressaltar que, diferente das estratégias apresentadas anteriormente, propostas bayesianas não zeram os coeficientes, apenas encolhem.

Regra de Encolhimento

Figura 12: Densidade da Epanechnikov Generalizada para \(\beta = 2\), \(3\) e \(5\).

Regra de Encolhimento

Com isso, é possível estabelecer a distribuição a posteriori \(\theta \mid d\) de cada coeficiente:

\[\begin{align*} \pi(\theta \mid d) &\propto \pi(\theta) \LL(\theta; d)\\ &\propto \left[\alpha \delta_0(\theta) + (1 - \alpha) g(\theta; \tau) \right]\exp\left\{\frac{-1}{2\sigma^2} (d - \theta)^2\right\} \end{align*}\]

A regra de encolhimento é dada pela esperança da posteriori, calculando obtém-se que: \[ \small \delta(d) = \dfrac{ (1-\alpha) \frac{3 \sqrt{2\lambda}}{8 \beta^3} \left[ \frac{2 \lambda\beta^2 + 3\beta\sqrt{2\lambda} + 3}{2\lambda^2} \left( e^{-\sqrt{2\lambda}(\beta - d)} - e^{-\sqrt{2\lambda}(\beta+d)} \right) + \frac{(\lambda\beta^2 - 3) d\sqrt{2\lambda} - d^3\lambda\sqrt{2\lambda}}{\lambda^2} \right] }{ \alpha \frac{\sqrt{2l}}{2} e^{-\sqrt{(2l)}\lvert d \rvert} \left(0, \frac{1}{\sqrt{2\lambda}} \right) + (1 - \alpha) \frac{3\sqrt{2\lambda}}{8\beta^3} \left[\frac{\beta}{\lambda} \left( e^{-\sqrt{2\lambda}(\beta + d)} + e^{-\sqrt{2\lambda}(\beta-d)} \right) + \frac{2}{\sqrt{2\lambda}} \left(\beta^2 - d^2 - \frac{1}{\lambda}\right) \right] } \] Por sorte, esta regra tem forma explicita, no geral, elas não são tratáveis analiticamente, sendo necessário utilizar métodos Monte Carlo para aproximá-la.

Regra de Encolhimento

Figura 13: Regra de encolhimento variando os parámetro \(\alpha\), \(\beta\) e \(\lambda\), separadamente.

Aplicação

Contextualização

A epilepsia é um distúrbio neurológico caracterizado pela ocorrência de convulsões, causadas por uma atividade neuronal excessiva ou sincronizada no cérebro.


Essas crises podem resultar em problemas psiquiátricos, quedas, déficits cognitivos e aumento do risco de morte.


Uma das estratégias mais promissoras é a detecção do estado pré-ictal, período que antecede uma crise.


Identificá-lo pode permitir ações preventivas e reduzir os impactos negativos das convulsões.

Aplicação

Este estudo utiliza dados do eletroencefalograma (EEG) do couro cabeludo de \(14\) pacientes, registrados com eletrodos reutilizáveis de prata e ouro.


Os dados foram retirados de Detti et al. (2020), da Unidade de Neurologia e Neurofisiologia da Universidade de Siena, Itália.


O banco apresenta variáveis como gênero, idade, número de canais de EEG, quantidade de crises e o tempo das gravações.


Para este estudo, foi seleiconado o paciente \(5\) com tamanho amostral correspondente a \(n = 2^{15} = 32.768\) observações.

Aplicação

Figura 15: Função observada (preto) e função recuperada (azul).

Simulação

Simulação

Na simulação foram comparados os cenários:

  • \(10.000\) replicações;
  • \(n = 32\) e \(128\) pontos;
  • \(SNR = 3\) e \(SNR = 7\);
  • Funções de teste: Bumps e SpaHet;
  • Métodos aplicados:
    • Limiarização com política SURE para escolha de limiar;
    • Proposta bayesiana com \(\alpha = 0.8\), \(\lambda_{n=32} \approx 0.34\) e \(\lambda_{n=128} \approx 1.3\);
    • Suaviazação por splines (método “concorrente”).
  • Foram utilizadas as ondaletas de Daubechies com \(5\) momentos nulos.

Funções Usadas na Simulação

Figura 16: Funções de teste utilizadas na simulação.

Splines

Neste método, busca-se estimar uma função \(g\), tal que: \[ \sum_{i=1}^n (y_i - g(x_i))^2 + \lambda\int g''(t) dt \] com \(\lambda \leq 0\).

A função \(g\) que minimiza a condição é denominada de spline de suavização. Além disso, o parâmetro \(\lambda\) controla a suavidade da função, onde:

  • \(\lambda = 0\): gera uma \(g\) interpoladora (não há penalização);
  • \(\lambda \to \infty\): aumenta a suavização de \(g\) até chegar em uma reta.

Resultados

Tabela 1: Resultado da simulação com AMSE (SD).

Resultados

Figura 17: Box Plot do MSE.

Vantagens e Desvantagens das Ondaletas


Vantages:

  • Modela funções com discontinuidades, picos entre outras características;
  • Representação esparsa;
  • Grande flexibilidade, já que existem diversos tipos de ondaletas, para diversos problemas.


Desvantagens:

  • No geral, não apresentam forma fechada.
  • Maior dificuldade em interpretação, comparado à metodos tradicionais.

Muito Obrigado!

Referências

  • Nason, G.P. (2008). Wavelet Methods in Statistics with R. Springer.

  • Nason, G.P. (2024). wavethresh: Wavelets Statistics and Transforms. R package version 4.7.3, https://CRAN.R-project.org/package=wavethresh.

  • Sousa, A.R.S. (2018). Encolhimento Bayesiano Sob Priori Beta de Coeficientes de Ondaletas em Modelos com Erros Gaussianos e Positivos. Tese (doutorado) - UNICAMP, IMECC, Campinas, SP. DOI: 10.47749/T/UNICAMP.2018.1080773.

  • Sousa, A.R.S. (2020). Bayesian wavelet shrinkage with logistic prior. Communications in Statistics - Simulation and Computation. DOI: 10.1080/03610918.2020.1747076.

  • Barrios, F.A.C. (2025). Comparação de Desempenho de Estimadores de Coeficientes de Ondaletas em Dados com Baixa Razão Sinal-Ruído via Simulações Monte Carlo. Tese (mestrado) - UNICAMP, IMECC, Campinas, SP.

  • Detti, P., Vatti, G., Lara, Z.M. (2020). EEG Synchronization Analysis for Seizure Prediction: A Study on Data of Noninvasive Recordings. Processes, 8(7), 846. DOI: 10.3390/pr8070846.

  • James, G., Witten, D., Hastie, T., Tibshirani, R. (2014). An Introduction to Statistical Learning with Applications in R. Segunda edição. Springer.