Skip to main content

Analisis Regresi: Parametrik, Nonparametrik dan Semiparametrik

Analisis regresi digunakan untuk mengetahui pola hubungan antara variabel respon dan variabel prediktor. Jika variabel respon adalah \(y_i\) dan variabel prediktor adalah \(x_i\) dimana \(i=1,2,\cdots,n,\) maka pasangan data \(x_i\text{,}y_i\) akan memiliki model hubungan fungsional \[ y_i=f\left(x_i\right)+\varepsilon_i\ , \] dimana \(f\left(x_i\right)\) adalah kurva regresi dan \(\varepsilon_i\) adalah error random yang diasumsikan identik, independen dan berdistribusi normal dengan mean nol dan varian \(\sigma^2\) (Eubank, 1999). Analisis regresi memiliki dua tujuan utama. Pertama, memberikan cara mengeksplorasi hubungan antara variabel respon dan variabel prediktor dan yang kedua adalah membuat prediksi (Silverman, 1985).

Model regresi umumnya dibagi ke dalam tiga bentuk, yaitu model regresi parametrik, model regresi nonparametrik dan model regresi semiparametrik. Bentuk model regresi tersebut tergantung pada kurva \(f\left(x_i\right)\). Apabila bentuk kurva \(f\left(x_i\right)\) diketahui, maka pendekatan model regresi yang digunakan adalah pendekatan Model Regresi Parametrik (Islamiyati & Budiantara, 2007). Apabila bentuk kurva \(f\left(x_i\right)\) tidak diketahui atau tidak terdapat informasi masa lalu yang lengkap tentang bentuk pola datanya, maka pendekatan model regresi yang digunakan adalah pendekatan Model Regresi Nonparametrik (Lestari & Budiantara, 2010). Dalam beberapa kasus, sebagian bentuk pola data diketahui, sedangkan untuk sebagian yang lain bentuk pola datanya tidak diketahui. Pada kasus ini, pendekatan model regresi yang disarankan adalah pendekatan Model Regresi Semiparametrik (Wahba, 1990).

Menurut Budiantara (2009), dalam regresi parametrik terdapat asumsi yang sangat kaku dan kuat yaitu bentuk kurva regresi diketahui, misalnya linear, kuadratik, kubik, polinomial derajat-p, eksponen, dan lain-lain. Untuk memodelkan data menggunakan regresi parametrik linear, kuadrat, kubik atau yang lain, umumnya dimulai dengan membuat diagram pencar. Pendekatan regresi parametrik memiliki sifat yang sangat baik dari pandangan statistika inferensi, seperti sederhana, mudah interpretasinya, parsimoni, estimatornya tidak bias, tergolong estimator linear, efisien, konsisten, BLUE (Best Linear Unbiased Estimator), yang sangat jarang dimiliki oleh pendekatan regresi lain seperti regresi nonparametrik dan regresi semiparametrik. Dalam pandangan regresi nonparametrik, data mencari sendiri bentuk estimasi dari kurva regresinya tanpa harus dipengaruhi oleh faktor subyektifitas si peneliti. Ini berarti pendekatan model regresi nonparametrik sangatlah fleksibel dan sangat obyektif. Pendekatan model regresi parametrik yang sering digunakan oleh para peneliti adalah pendekatan model regresi linier sederhana dan model regresi linier berganda, sedangkan pada model regresi nonparametrik, pendekatan model regresi yang sering digunakan adalah pendekatan regresi spline dan regresi kernel.

Baca lebih detail: Regresi Spline Truncated dan Regresi Kernel

Regresi nonparametrik umumnya tidak mensyaratkan uji asumsi klasik. Misalnya pada regresi nonparametrik ridge yang tidak menyaratkan terjadinya multikolinieritas. Pelanggaran asumsi multikolinieritas biasanya terjadi pada regresi parametrik linier berganda dimana di antara variabel prediktor terdapat hubungan linier, sehingga pada estimasi parameter \[ \widehat{\mathbf{\beta}}=\left(\mathbf{X}^\text{T}\mathbf{X}\right)^{-1}\mathbf{X}^\text{T}\mathbf{y}\ \] menyebabkan determinan \(\mathbf{X}^\text{T}\mathbf{X}\) sama dengan 0 (matriks singular) atau determinan \(\mathbf{X}^\text{T}\mathbf{X}\) mendakati 0 (hampir singular). Adanya multikolinieritas menyebabkan terdapat akar karakteristik yang kecil dalam matriks \(\mathbf{X}^\text{T}\mathbf{X},\) yang mengakibatkan varian \(\widehat{\beta}\) menjadi besar. Multikolinieritas yang tinggi mengakibatkan estimator \(\widehat{\beta}\) yang dihasilkan dari metode Ordinary Least Square (OLS) menjadi tidak stabil (peka terhadap perubahan kecil pada data yang kelihatannya tidak penting).

Pada regresi nonparametrik ridge, estimasi \(\beta\) dimodifikasi menjadi \[ \widehat{\mathbf{\beta}}_R=\left(\mathbf{X}^\text{T}\mathbf{X}+\lambda\mathbf{I}\right)^{-1}\mathbf{X}^\text{T}\mathbf{y}\ , \] dimana \(0\le\lambda\le\infty,\) \(\lambda\) adalah nilai konstan yang dipilih sebagai indeks dari kelas estimator. Adanya konstanta \(\lambda\) menyebabkan matriks \(\mathbf{X}^\text{T}\mathbf{X}+\lambda\mathbf{I}\) memiliki determinan tidak sama dengan 0 (bukan matriks singular) atau tidak mendekati 0. Oleh karena itu, regresi nonparametrik ridge tidak mensyaratkan uji asumsi multikolinieritas, namun demikian estimator ridge bersifat bias, yaitu sebesar \[ Bias=\lambda\left(\mathbf{X}^\text{T}\mathbf{X}+\lambda\mathbf{I}\right)^{-1}\mathbf{\beta} . \] Sifat bias pada estimator regresi ridge bertentangan dengan sifat estimator yang baik, namun estimator ridge dapat mengatasi adanya multikolinieritas. Sifat tidak bias merupakan sifat yang dibutuhkan namun tidak terlalu penting. Hal ini disebabkan karena sifat tak bias tidak menunjukkan apapun mengenai penyebaran dari distribusi estimator. Suatu estimator yang tidak bias namun mempunyai varian yang besar seringkali menghasilkan estimasi yang jauh berbeda dari nilai parameter yang sebenarnya.

Referensi:
  • Budiantara, I. N. (2009). Spline dalam Regresi Nonparametrik dan Semiparametrik: Sebuah Pemodelan Statistika Masa Kini dan Masa Mendatang. Surabaya: ITS Press.
  • Eubank, R. L. (1999). Nonparametric Regression and Spline Smoothing. New York: Marcel Dekker, Inc.
  • Islamiyati, A., & Budiantara, I. N. (2007). "Model Spline dengan Titik-titik Knots dalam Regresi Nonparametrik". Jurnal INFERENSI, Vol. 3, hal. 11-21.
  • Lestari, B., & Budiantara, I. N. (2010). "Spline Estimator of Triple Response Nonparametric Regression Model". Jurnal Ilmu Dasar, Vol. 11, hal. 17-22.
  • Silverman, B. W. (1985). "Some Aspects of The Spline Smoothing Approach to Non-parametric Regression Curve Fitting". Journal of the Royal Statistical Society. Series B (Methodological), Vol. 47, No. 1, hal. 1-52.
  • Wahba, G. (1990). Spline Models for Observational Data. Philadelphia: Society for Industrial and Applied Mathematics.