Regressão Não Paramétrica Através de Ondaletas

Uma Abordagem Bayesiana com Priore Spike and Slab

João Victor Siqueira Rodrigues, 236153
Mariana Peres Nascimento, 204344
Lara Maria Herrera, 236181
Rodrigo Caldiron, 185416

Instituto de Matemática, Estatística e Computação Científica (IMECC)
Universidade Estadual de Campinas (UNICAMP)

Regressão Não Paramétrica

Considere o modelo: \[ y_i = f(x_i) + e_i \;,\spc i = 1,\dots,n \] com \(e_i \overset{iid}{\sim} \norm(0, \sigma^2)\).

Em Problemas de regressão paramérica, assume-se uma forma funcional para \(f\), por exemplo, \(f(x) = \beta_0 + \beta_1 x + \dots + \beta_p x^p\).

Já em problemas de regressão não paramétrica, \(f\) é desconhecida. Logo, para estimar \(f\) utiliza-se bases como ondaletas, splines entre outras.

Regressão Não Paramétrica

Ademais, em termos vetoriais, o modelo é dado por: \[ \bs y = \bs f + \bs e \] onde

\[ \bs y = \begin{bmatrix}y_1\\\vdots\\y_n\end{bmatrix}, \hspace{2.5cm} \bs f = \begin{bmatrix}f(x_1)\\\vdots\\f(x_n)\end{bmatrix}, \hspace{2.5cm} \bs e =\begin{bmatrix}e_1\\\vdots\\e_n\end{bmatrix} \]

Regressão Não Paramétrica

Vantagens:

Maior flexibilidade;
Captura padrões complexos e não lineares;
Adapta-se aos dados, sendo especialmente útil quando há pouco conhecimento prévio sobre o modelo.

Desvantagens:

Menor interpretabilidade;
Necessita de uma maior quantidade de dados.

Ondaletas (Wavelets)

Ondaleta

Seja \(\psi \in \mathbb{L}_2(\RR) = \{f: \RR \to \RR \mid \int f^2 < \infty\}\) uma função que satisfaça a condição \[ C_\psi = \int_\RR \frac{\lvert\Psi(\omega)\rvert^2}{\lvert\omega\rvert} d\omega < \infty \] onde \(\Psi\) é a transformada de Fourier de \(\psi\). Então, dizemos que \(\psi\) é uma ondaleta (mãe).

Ondaleta

Além disso, uma vez que a ondaleta foi definida, pode-se gerar ondaletas através de operações de dilatação e translação: \[ \psi_{jk}(x) = 2^{j/2} \psi (2^jx - k) \;, \spc j,k \in \ZZ \]

Como \(\{\psi_{jk}\}_{j,k \in \ZZ}\) formam uma base ortonormal para \(\mathbb{L}_2(\RR)\), qualquer função \(f \in \mathbb{L}_2(\RR)\) pode ser representada por: \[ f(x) = \sum_{j,k \in \ZZ} d_{jk} \psi_{jk}(x) \] onde \(d_{jk}\) é chamado de coeficiente de ondaleta (“detalhes”).

Ondaleta

Além disso, também existe a ondaleta pai ou função escala \(\phi\), a qual fazemos translações e dilatações: \[ \phi_{jk}(x) = 2^{j/2} \phi (2^jx - k) \;, \spc j,k \in \NN \]

Com isso, para determinano nível \(j_0 \in \ZZ\) (resolução primária), uma função \(f\) pode ser escrita por: \[ f(x) = \sum_{k \in \ZZ} c_{j_0k} \phi_{j_0k}(x) + \sum_{j \geq j_0} \sum_{k \in \ZZ} d_{jk}\psi_{jk}(x) \] onde \(c_{jk}\) é chamado de coeficiente da função escala.

Ondaleta

Do ponto de vista matricial, considerando um vetor de dados \(\bs y \in \RR^n\) diádico, isto é, \(n = 2^J\), \(J \in \NN\). É possível aplicar a transformada discreta de ondaletas (DWT), representada pela matriz \(W\), de forma que \[ \bs d = W \bs y \] onde \(\bs d\) representa os coeficientes empíricos de ondaleta.

Além disso, como \(W\) é uma matriz ortogonal (\(W' = W^{-1}\)), a transformada discreta de ondaletas inversa (IDWT) é dada por: \[ \bs y = W'\bs d \]

Ademais, pela ortogonalidade de \(W\), temos que \(\|\bs d\|^2_2 = \|\bs y\|^2_2\) (Relação de Parseval).

Ondaleta

Exemplo 1: DWT

Ondaleta (mãe) de Haar: \[ \psi(x) = \begin{cases} 1 &, \; x \in \left[0, \frac{1}{2}\right)\\ -1 &, \; x \in \left[\frac{1}{2}, 1\right)\\ 0 &, \; c{.}c. \end{cases} \]

Função escala de Haar:

\[ \phi(x) = \begin{cases} 1 &, \; x \in [0, 1]\\ 0 &, \; c{.}c. \end{cases} \]

Exemplo 1: DWT

Agora que fixamos \(\psi\) e \(\phi\), falta apenas definir como calcular \(c_{jk}\) e \(d_{jk}\). Neste caso (considerando a ondaleta de Haar), eles podem ser calculados na primeira aplicação por:

\[ d_{jk} = \frac{1}{\sqrt{2}}(y_{2k} - y_{2k-1}) \hspace{2cm} \text{ e } \hspace{2cm} c_{jk} = \frac{1}{\sqrt{2}}(y_{2k} + y_{2k-1}) \] e, nas demais, por: \[ d_{jk} = \frac{1}{\sqrt{2}}(c_{j+1,2k} - c_{j+1, 2k-1}) \hspace{2cm} \text{ e } \hspace{2cm} c_{jk} = \frac{1}{\sqrt{2}}(c_{j+1,2k} + c_{j+1,2k-1}) \]

Exemplo 1: DWT

Considerando o vetor de dados \(\bs y = (1, 1, 7, 9, 2, 8, 8, 6)'\), a Figura 1 apresenta graficamente a DWT.

Figura 2: Exemplo visual da DWT (Nason, 2008).

Exemplo 1: DWT

**Figura 3**: Decomposição dos coeficientes de ondaletas. por nível de resolução.

Exemplo 1: DWT

A matriz \(W\) que faz essa transformação para \(n=8\) observações é dada por:

\[ W = \begin{bmatrix} \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4}\\ \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0 & 0 & 0\\ 0 & 0 &0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} & 0 & 0\\ 0 & 0 & 0 & 0 &0 & 0 & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\\ \frac{-1}{2} & \frac{-1}{2} & \frac{1}{2} & \frac{1}{2} & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 &\frac{-1}{2} & \frac{-1}{2} & \frac{1}{2} & \frac{1}{2}\\ \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{-\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} & \frac{\sqrt2}{4} \end{bmatrix} \]

Modelo

Portanto, retomando ao modelo de regressão não paramétrica, temos que: \[ \bs y = \bs f + \bs e \] com \(e_i \overset{iid}{\sim} \norm(0, \sigma^2)\).

Então, multiplicando por \(W\) vamos ter o nosso modelo no domínio das ondaletas, dado por: \[ \bs d = \bs\theta + \bs\varepsilon \] onde

\(\bs d = W \bs y\) é o vetor dos coeficientes empíricos de ondaleta;
\(\bs \theta = W \bs f\) é o vetor dos coeficientes verdadeiros;
\(\bs\varepsilon = W \bs e\) é o erro, o qual tem suas propriedades preservadas, i.e., \(\varepsilon_i \overset{iid}{\sim} \norm(0,\sigma^2)\).

Modelo

Logo, o problema de estimar a função \(f\) foi substituido por estimar os coeficientes de ondaletas \(\bs\theta\) através dos coeficientes empíricos \(\bs d\).

Para isso, a abordagem mais tradicional é a utilização das regras de shrinkage, neste caso, a limiarização (thresholding), a qual consiste em anular coeficientes suficientemente pequenos. As duas propostas mais comuns são a do limiar duro (hard threshold) e limiar suave (soft threshold).

A intuição desta técnica consiste em que o vetor de coeficientes de ondaleta normalmente são esparsos. Além disso, coeficientes grandes estão associados às características importantes da função, como mínimos e máximos locais, descontinuidades entre outras. Enquanto que a parte mais suave da função se associa aos coeficientes nulos.

Modelo

Regra do limiar duro: \[ \delta^H(d) = \begin{cases} 0 &, \text{ se } \lvert d \rvert \leq \lambda\\ d &, \text{ se } \lvert d \rvert > \lambda \end{cases} \]

Figura 4: Regra do limiar duro.

Regra do limiar suave: \[ \delta^S(d) = \begin{cases} 0 &, \text{ se } \lvert d \rvert \leq \lambda\\ \operatorname{sgn}(d) (\lvert d \rvert - \lambda) &, \text{ se } \lvert d \rvert > \lambda \end{cases} \]

Figura 5: Regra do limiar suave.

Modelo

Existem diversas estratégias para determinar \(\lambda\), algumas delas são:

Validação cruzada.
Universal Threshold: utilizando o MAD (median absolute deviation) para estimar \(\sigma\), temos: \[ \lambda = \sigma \sqrt{2 \ln(n)} \]
SURE Threshold: escolhe o \(\lambda\) que minimiza o estimador não viesado do risco de Stein \(SURE(\lambda, \bs y)\), dado por: \[ SURE(\lambda; \mathbf{y}) = n - 2\#\{i:|y_i| \leq \lambda\} + \sum_{i}(\min\{|y_i|, \lambda\})^2 \]

Recapitulando

Figura 6: Resumo do procedimento de estimação.

Exemplo 2: Aplicando Método em Função de Teste

Funções de Teste

Razão Sinal-Ruído (SNR)

A razão sinal-ruído (SNR) é dada por:

\[ SNR = \frac{\operatorname{SD}(\text{sinal})}{\operatorname{SD}(\text{ruído})} = \frac{\operatorname{SD}(f)}{\operatorname{SD}(\varepsilon)} \] Para estudos simulacionais, é interessante fixar a razão sinal-ruído para determinar o desepenho da téninca para aquela \(SNR\) e permitir a comparação com outros métodos.

**Figura 8**: Comparação entre diferentes SNR. Azul representa a função verdadeira e preto a amostra gerada.

Gerando Amostra

**Figura 9**: Amostra gerada com \(SNR = 3\). Azul representa a função verdadeira e preto a amostra.

Coeficientes de Ondaletas

Estimativa da Bumps

Priore Spike and Slab

Existem também propostas bayesianas para o problema, por exemplo, a apresentada em Barrios (2025), cuja priori atribuída é: \[\pi(\theta) = \alpha \delta_0(\theta) + (1 - \alpha) g(\theta; \beta) \hspace{1.2cm} \text{ e } \hspace{1.2cm} \sigma^2 \sim Exp(\lambda)\] onde \(\alpha \in (0,1)\), \(\lambda > 0\), \(\delta_0\) é o delta de Dirac com massa em \(0\) e \(g(d; \beta)\) é a função densidade da Epanechnikov Generalizada, dada por: \[ g(x; \beta) = \frac{3}{4\beta^3}(\beta^2 - x^2) \ind_{(-\beta, \beta)}^{(x)} \] com \(\beta > 0\).

Vale ressaltar que, diferente das estratégias apresentadas anteriormente, propostas bayesianas não zeram os coeficientes, apenas encolhem.

Regra de Encolhimento

**Figura 12**: Densidade da Epanechnikov Generalizada para \(\beta = 2\), \(3\) e \(5\).

Regra de Encolhimento

Com isso, é possível estabelecer a distribuição a posteriori \(\theta \mid d\) de cada coeficiente:

\[\begin{align*} \pi(\theta \mid d) &\propto \pi(\theta) \LL(\theta; d)\\ &\propto \left[\alpha \delta_0(\theta) + (1 - \alpha) g(\theta; \tau) \right]\exp\left\{\frac{-1}{2\sigma^2} (d - \theta)^2\right\} \end{align*}\]

A regra de encolhimento é dada pela esperança da posteriori, calculando obtém-se que: \[ \small \delta(d) = \dfrac{ (1-\alpha) \frac{3 \sqrt{2\lambda}}{8 \beta^3} \left[ \frac{2 \lambda\beta^2 + 3\beta\sqrt{2\lambda} + 3}{2\lambda^2} \left( e^{-\sqrt{2\lambda}(\beta - d)} - e^{-\sqrt{2\lambda}(\beta+d)} \right) + \frac{(\lambda\beta^2 - 3) d\sqrt{2\lambda} - d^3\lambda\sqrt{2\lambda}}{\lambda^2} \right] }{ \alpha \frac{\sqrt{2l}}{2} e^{-\sqrt{(2l)}\lvert d \rvert} \left(0, \frac{1}{\sqrt{2\lambda}} \right) + (1 - \alpha) \frac{3\sqrt{2\lambda}}{8\beta^3} \left[\frac{\beta}{\lambda} \left( e^{-\sqrt{2\lambda}(\beta + d)} + e^{-\sqrt{2\lambda}(\beta-d)} \right) + \frac{2}{\sqrt{2\lambda}} \left(\beta^2 - d^2 - \frac{1}{\lambda}\right) \right] } \] Por sorte, esta regra tem forma explicita, no geral, elas não são tratáveis analiticamente, sendo necessário utilizar métodos Monte Carlo para aproximá-la.

Regra de Encolhimento

Aplicação

Contextualização

A epilepsia é um distúrbio neurológico caracterizado pela ocorrência de convulsões, causadas por uma atividade neuronal excessiva ou sincronizada no cérebro.

Essas crises podem resultar em problemas psiquiátricos, quedas, déficits cognitivos e aumento do risco de morte.

Uma das estratégias mais promissoras é a detecção do estado pré-ictal, período que antecede uma crise.

Identificá-lo pode permitir ações preventivas e reduzir os impactos negativos das convulsões.

Aplicação

Este estudo utiliza dados do eletroencefalograma (EEG) do couro cabeludo de \(14\) pacientes, registrados com eletrodos reutilizáveis de prata e ouro.

Os dados foram retirados de Detti et al. (2020), da Unidade de Neurologia e Neurofisiologia da Universidade de Siena, Itália.

O banco apresenta variáveis como gênero, idade, número de canais de EEG, quantidade de crises e o tempo das gravações.

Para este estudo, foi seleiconado o paciente \(5\) com tamanho amostral correspondente a \(n = 2^{15} = 32.768\) observações.

Aplicação

**Figura 15**: Função observada (preto) e função recuperada (azul).

Simulação

Na simulação foram comparados os cenários:

\(10.000\) replicações;
\(n = 32\) e \(128\) pontos;
\(SNR = 3\) e \(SNR = 7\);
Funções de teste: Bumps e SpaHet;
Métodos aplicados:
- Limiarização com política SURE para escolha de limiar;
- Proposta bayesiana com \(\alpha = 0.8\), \(\lambda_{n=32} \approx 0.34\) e \(\lambda_{n=128} \approx 1.3\);
- Suaviazação por splines (método “concorrente”).
Foram utilizadas as ondaletas de Daubechies com \(5\) momentos nulos.

Funções Usadas na Simulação

**Figura 16**: Funções de teste utilizadas na simulação.

Splines

Neste método, busca-se estimar uma função \(g\), tal que: \[ \sum_{i=1}^n (y_i - g(x_i))^2 + \lambda\int g''(t) dt \] com \(\lambda \leq 0\).

A função \(g\) que minimiza a condição é denominada de spline de suavização. Além disso, o parâmetro \(\lambda\) controla a suavidade da função, onde:

\(\lambda = 0\): gera uma \(g\) interpoladora (não há penalização);
\(\lambda \to \infty\): aumenta a suavização de \(g\) até chegar em uma reta.

Resultados

Tabela 1: Resultado da simulação com AMSE (SD).

Resultados

Vantagens e Desvantagens das Ondaletas

Vantages:

Modela funções com discontinuidades, picos entre outras características;
Representação esparsa;
Grande flexibilidade, já que existem diversos tipos de ondaletas, para diversos problemas.

Desvantagens:

No geral, não apresentam forma fechada.
Maior dificuldade em interpretação, comparado à metodos tradicionais.

Muito Obrigado!

Referências

Nason, G.P. (2008). Wavelet Methods in Statistics with R. Springer.
Nason, G.P. (2024). wavethresh: Wavelets Statistics and Transforms. R package version 4.7.3, https://CRAN.R-project.org/package=wavethresh.
Sousa, A.R.S. (2018). Encolhimento Bayesiano Sob Priori Beta de Coeficientes de Ondaletas em Modelos com Erros Gaussianos e Positivos. Tese (doutorado) - UNICAMP, IMECC, Campinas, SP. DOI: 10.47749/T/UNICAMP.2018.1080773.
Sousa, A.R.S. (2020). Bayesian wavelet shrinkage with logistic prior. Communications in Statistics - Simulation and Computation. DOI: 10.1080/03610918.2020.1747076.
Barrios, F.A.C. (2025). Comparação de Desempenho de Estimadores de Coeficientes de Ondaletas em Dados com Baixa Razão Sinal-Ruído via Simulações Monte Carlo. Tese (mestrado) - UNICAMP, IMECC, Campinas, SP.
Detti, P., Vatti, G., Lara, Z.M. (2020). EEG Synchronization Analysis for Seizure Prediction: A Study on Data of Noninvasive Recordings. Processes, 8(7), 846. DOI: 10.3390/pr8070846.
James, G., Witten, D., Hastie, T., Tibshirani, R. (2014). An Introduction to Statistical Learning with Applications in R. Segunda edição. Springer.