Skip to main content

Regresi Nonparametrik Kernel

Estimator kernel adalah pengembangan dari estimator histogram. Estimator ini merupakan estimator linier yang mirip dengan estimator regresi nonparametrik yang lain, perbedaannya hanya karena estimator kernel lebih khusus dalam penggunaan metode bandwidth (Eubank, 1999).

Apa itu Regresi Nonparametrik dan apa Regresi Nonparametrik lain selain Regresi Nonparametrik Kernel? Simak ulasannya di artikel:
1. Analisis Regresi: Parametrik, Nonparametrik dan Semiparametrik
2. Regresi Nonparametrik Spline Truncated

Kelebihan dari estimator kernel adalah memiliki kemampuan yang baik dalam memodelkan data yang tidak mempunyai pola tertentu (Hardle, 1994). Selain itu, estimator kernel lebih fleksibel, bentuk matematisnya mudah, dan dapat mencapai tingkat kekonvergenan yang relatif cepat (Budiantara & Mulianah, 2007). Dari segi komputasinya, metode kernel lebih mudah dilakukan dan mudah diimplementasikan (Klemela, 2014).

Diberikan pasangan pengamatan independen \(\left(x_i,y_i\right),\) \(i=1,2,\ldots,n,\) dimana \(y_i\) adalah variabel respon, sedangkan \(x_i\) adalah variabel prediktor. Hubungan \(y_i\) dan \(x_i\) dapat dimodelkan secara fungsional dalam bentuk \[ y_i=f\left(x_i\right)+\varepsilon_i\ , \] dimana kurva regresi \(f\left(x_i\right)\) merupakan kurva yang tidak diketahui bentuknya. Menurut Hardle (1994), kurva \(f\left(x_i\right)\) pada model nonparametrik tersebut dapat diestimasi dengan pendekatan kernel yang didasarkan pada fungsi densitas kernel.

Kurva \(f\left(x_i\right)\) dapat diestimasi menggunakan estimator kernel Nadaraya-Watson. Estimator kernel Nadaraya-Watson merupakan kasus khusus dari kurva regresi polinomial lokal yaitu kurva regresi polinomial lokal yang memiliki orde sama dengan 0 atau disebut juga dengan kurva regresi konstan lokal. Ketika kurva regresi polinomial lokal memiliki orde sama dengan 1, maka kurva regresi polinomial lokal disebut dengan kurva regresi linier lokal.

Kurva regresi polinomial lokal mengadopsi dari perluasan deret Taylor di sekitar \(x\). Kurva \(f\left(x_i\right)\) dapat dihampiri dengan kurva regresi polinomial lokal \[ \begin{aligned} f\left(x_i\right)&=\beta_0+\beta_1\left(x_i-x\right)+\beta_2\left(x_i-x\right)^2+\ldots+\beta_p\left(x_i-x\right)^p\\ &=\sum_{k=0}^{p}{\beta_k\left(x_i-x\right)^k}, \end{aligned} \] dimana \[ \beta_k=\frac{f^k\left(x\right)}{k!}\ ,\ \ k=0,\ 1,\ 2,\ldots,p. \] Dalam bentuk matriks dapat ditulis \[ \vec{y}=\mathbf{X}\vec{\beta}+\vec{\varepsilon}, \] dimana \[ \mathbf{X}=\left[\begin{matrix}1&\left(x_1-x\right)&\left(x_1-x\right)^2&\cdots&\left(x_1-x\right)^p\\1&\left(x_2-x\right)&\left(x_2-x\right)^2&\ldots&\left(x_2-x\right)^p\\\vdots&\vdots&\vdots&\ddots&\vdots\\1&\left(x_n-x\right)&\left(x_n-x\right)^2&\ldots&\left(x_n-x\right)^p\\\end{matrix}\right], \] \[ \vec{\beta}=\left[\begin{matrix}\beta_0\\\beta_1\\\beta_2\\\vdots\\\beta_p\\\end{matrix}\right]. \] Parameter \(\vec{\beta}\) bergantung pada titik \(x\) yang disebut sebagai titik lokal. Parameter \(\vec{\beta}\) dapat diestimasi menggunakan weighted least square (WLS) dengan meminimumkan fungsi \[ L=\sum_{i=1}^{n}{\left(y_i-\sum_{k=0}^{p}{\beta_k\left(x_i-x\right)^k}\right)^2K\left(\frac{x_i-x}{h}\right)}\, \] dimana \(h\) merupakan bandwidth yang mengontrol ukuran persekitaran titik lokal \(x_0.\) Permasalahan weighted least square dalam bentuk matriks dapat ditulis menjadi \[ L=\left(\vec{y}-\mathbf{X}\vec{\beta}\right)^\text{T}\mathbf{W}\left(\vec{y}-\mathbf{X}\vec{\beta}\right), \] dimana \(\mathbf{W}\) merupakan matriks diagonal yang berukuran \(n\times n,\) \[ \mathbf{W}=\text{diag}\left\{K\left(\frac{x_i-x}{h}\right)\right\}. \] Hasil estimasi dari parameter \(\vec{\beta}\) adalah \[ \widehat{\vec{\beta}}=\left(\mathbf{X}^\text{T}\mathbf{WX}\right)^{-1}\mathbf{X}^\text{T}\mathbf{W}\vec{y}, \] sehingga estimasi model regresi polinomial lokal adalah \[ \begin{aligned} \widehat{\vec{y}}&={\mathbf{X}\left(\mathbf{X}^T\mathbf{WX}\right)}^{-1}\mathbf{X}^T\mathbf{W}\vec{y}\\ &=\mathbf{H}\vec{y}, \end{aligned} \] dimana \[ \mathbf{H}={\mathbf{X}\left(\mathbf{X}^T\mathbf{WX}\right)}^{-1}\mathbf{X}^T\mathbf{W}. \] Terkait dengan model regresi polinomial lokal, model regresi kernel Nadaraya-Watson merupakan model regresi polinomial lokal yang hanya memuat konstan lokal. Jadi jika \(f\left(x_i\right)\) hanya memuat konstan lokal, maka dengan meminimumkan fungsi \[ L=\sum_{i=1}^{n}{\left(y_i-\beta_0\right)^2K\left(\frac{x_i-x}{h}\right)}, \] akan dihasilkan \[ \beta_0=\sum_{i=1}^{n}{\frac{K\left(\frac{x_i-x}{h}\right)}{\sum_{i=1}^{n}K\left(\frac{x_i-x}{h}\right)}y_i}, \] sehingga \[ \begin{aligned} {\hat{f}}_h\left(x_i\right)&=n^{-1}\sum_{i=1}^{n}{\frac{K_h\left(x_i-x\right)}{n^{-1}\sum_{i=1}^{n}{K_h\left(x_i-x\right)}}y_i}\\ &=n^{-1}\sum_{i=1}^{n}{W_{hi}\left(x\right)y_i} \end{aligned} \] Fungsi \(W_{h_ji}\left(x_j\right)\) merupakan fungsi pembobot \[ W_{h i}\left(x\right)=\frac{K_h\left(x_i-x\right)}{n^{-1}\sum_{i=1}^{n}{K_h\left(x_i-x\right)}} \] dimana \(K_{h_j}\left(x_j-x_{ji}\right)\) adalah fungsi kernel \[ K_h\left(x_i-x\right)=\frac{1}{h}K\left(\frac{x_i-x}{h}\right). \] Fungsi kernel \(K\) adalah fungsi yang bernilai riil, kontinu, terbatas dan simetris dengan integralnya sama dengan satu atau \(\int K\left(z\right)dz=1.\) Fungsi kernel \(K\) dapat berupa kernel uniform, kernel segitiga, kernel epanechnikov, kernel kuadrat, kernel triweight, kernel kosinus atau kernel Gaussian (Hardle, Muller, Sperlich, & Werwatz, 2004). Kernel Gaussian cukup sering digunakan dalam banyak penelitian. Fungsi kernel Gaussian lebih smooth dibandingkan dengan fungsi kernel yang lain. Bentuk fungsi kernel Gaussian adalah \[ K\left(z\right)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{1}{2}z^2\right), \] dimana \(-\infty<z<\infty.\)

Jika bentuk penjumlahan pada persamaan regresi kernel dijabarkan dengan lebih lengkap, maka \[ {\hat{f}}_h\left(x_i\right)=n^{-1}W_{h1}\left(x\right)y_1+n^{-1}W_{h2}\left(x\right)y_2+\ldots+n^{-1}W_{h n}\left(x\right)y_n \] Karena berlaku untuk setiap \(x=x_1\) sampai dengan \(x=x_n,\) maka jika persamaan untuk \(x_1\) sampai \(x_n\) digabungkan ke dalam bentuk matriks akan menjadi \[ \left[\begin{matrix}{\hat{f}}_h\left(x_1\right)\\{\hat{f}}_h\left(x_2\right)\\\vdots\\{\hat{f}}_h\left(x_n\right)\\\end{matrix}\right]=\left[\begin{matrix}n^{-1}W_{h1}\left(x_1\right)&n^{-1}W_{h2}\left(x_1\right)&\cdots&n^{-1}W_{h n}\left(x_1\right)\\n^{-1}W_{h1}\left(x_2\right)&n^{-1}W_{h2}\left(x_2\right)&\ldots&n^{-1}W_{h n}\left(x_2\right)\\\vdots&\vdots&\ddots&\vdots\\n^{-1}W_{h1}\left(x_n\right)&n^{-1}W_{h2}\left(x_n\right)&\ldots&n^{-1}W_{h n}\left(x_n\right)\\\end{matrix}\right]\left[\begin{matrix}y_1\\y_2\\\vdots\\y_n\\\end{matrix}\right]. \] Jika dinotasikan ke dalam bentuk matriks akan menjadi \[ {\widehat{\vec{f}}}_h\left(x\right)=\mathbf{X}\left(h\right)\vec{y}, \] dimana \[ {\widehat{\vec{f}}}_h\left(x\right)=\left[\begin{matrix}{\hat{f}}_h\left(x_1\right)\\{\hat{f}}_h\left(x_2\right)\\\vdots\\{\hat{f}}_h\left(x_n\right)\\\end{matrix}\right]\ , \mathbf{X}\left(h\right)=\left[\begin{matrix}n^{-1}W_{h1}\left(x_1\right)&n^{-1}W_{h2}\left(x_1\right)&\cdots&n^{-1}W_{h n}\left(x_1\right)\\n^{-1}W_{h1}\left(x_2\right)&n^{-1}W_{h2}\left(x_2\right)&\ldots&n^{-1}W_{h n}\left(x_2\right)\\\vdots&\vdots&\ddots&\vdots\\n^{-1}W_{h1}\left(x_n\right)&n^{-1}W_{h2}\left(x_n\right)&\ldots&n^{-1}W_{h n}\left(x_n\right)\\\end{matrix}\right]. \] Vektor \({\widehat{\vec{f}}}_h\left(x\right)\) berukuran \(n\times1,\) sedangkan matriks \(\mathbf{X}\left(h\right)\) berukuran \(n\times n.\) Estimator kernel sangat sensitif pada pemilihan bandwidth \(h\) yang fungsinya mengontrol kemulusan kurva estimasi. Jika bandwidth \(h\) diperkecil maka bias akan turun, namun varian akan membesar, sebaliknya jika bandwidth \(h\) diperbesar maka varian yang akan turun, namun bias akan membesar. Oleh karena itu, perlu adanya keseimbangan antara bias dan varian melalui pemilihan bandwidth \(h\) yang optimum (tidak terlalu kecil dan tidak terlalu besar). Penggunaan bandwidth \(h\) yang optimum akan menghasilkan mean squared error (MSE) terkecil. Hubungan MSE, bias dan varian adalah \[ \begin{aligned} \text{MSE}\left[{\hat{f}}_h\left(x_i\right)\right]&=E\left[{\hat{f}}_h\left(x_i\right)-f_h\left(x_i\right)\right]^2\\ &=E\left[{\hat{f}}_h\left(x_i\right)-E\left[{\hat{f}}_h\left(x_i\right)\right]\right]^2+\left(E\left[{\hat{f}}_h\left(x_i\right)\right]-h_h\left(x_i\right)\right)^2\\ &=\text{Var}\left[{\hat{f}}_h\left(x_i\right)\right]+\left(\text{Bias}\left[{\hat{f}}_h\left(x_i\right)\right]\right)^2. \end{aligned} \] Salah satu metode yang digunakan untuk mendapatkan bandwidth optimum adalah metode GCV. \[ \text{GCV}\left(h\right)=\frac{\text{MSE}\left(h\right)}{\left(n^{-1}tr\left(\mathbf{I}-\mathbf{X}\left(h\right)\right)\right)^2}, \] dimana \[ \text{MSE}\left(h\right)=n^{-1}\sum_{i=1}^{n}\left(y_i-{\hat{f}}_h\left(x_i\right)\right)^2\ . \] Nilai bandwidth yang optimum berkaitan dengan nilai GCV yang minimum (Eubank, 1999).

Referensi: