Analisis Cluster

Analisis cluster sering juga disebut analisis gerombol. Analisis cluster adalah analisis statistika yang bertujuan untuk mengelompokkan data sedemikian sehingga data yang berada dalam kelompok yang sama mempunyai sifat yang relatif homogen daripada data yang berada dalam kelompok yang berbeda.

Ditinjau dari hal-hal yang dikelompokkan, analisis cluster dibagi menjadi dua macam, yaitu pengelompokan observasi dan pengelompokan variabel. Dalam pembahasan ini, pengelompokan yang dilakukan adalah pengelompokan observasi.

Jika ditinjau dari metode pengelompokannya, analisis cluster memiliki dua metode, yaitu :

Metode Hierarki.

Metode ini digunakan untuk mencari struktur pengelompokan dari objek-objek. Jadi, hasil pengelompokannya disajikan secara hierarki atau berjenjang. Metode hierarki ini terdiri dari dua cara, yaitu:

a) Penggabungan (Agglomerative).
Cara ini digunakan jika masing-masing objek dianggap satu kelompok kemudian antar kelompok yang jaraknya berdekatan bergabung menjadi satu kelompok.

b) Pemecahan (Devise).
Cara ini digunakan jika pada awalnya semua objek berada dalam satu kelompok. Setelah itu, sifat paling beda dipisahkan dan membentuk satu kelompok yang lain. Proses tersebut berlanjut sampai semua objek tersebut masing-masing membentuk satu kelompok.
Metode Tidak Hierarki.

Metode ini digunakan apabila jumlah kelompok yang diinginkan sudah diketahui dan biasanya dipakai untuk mengelompokkan data yang ukurannya besar.

Dalam proses penggabungan kelompok dengan metode hierarki selalu diikuti dengan perbaikan matriks jarak. Suatu fungsi disebut jarak jika mempunyai sifat tak negatif (dij ≥ 0) dan (dij = 0) jika i = j simetris (dij = dji), panjang salah satu sisi segitiga selalu lebih kecil atau sama dengan jumlah dua sisi yang lain (dij ≤ dik + djk).

Beberapa macam jarak yang biasa dipakai di dalam analisis kelompok:

Jarak Euclidean:

Jarak Manhattan:

Jarak Pearson:

Jarak Korelasi:
dij = 1 - rij

Jarak Korelasi Mutlak:
dij = 1 - | rij |

Dalam banyak penelitian, jarak euclidean adalah jarang yang paling sering digunakan, begitu juga dengan kuadrat jarak euclidean.

Metode-metode pengelompokan hierarki dibedakan berdasarkan konsep jarak antar kelompok, penentuan jarak antar kelompok untuk metode-metode tersebut adalah sebagai berikut.

Metode Single Linkage
Metode ini mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
d(i,j)k = min(dik, djk)
Metode Complete Linkage
Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
d(i,j)k = max(dik, djk)
Metode Average Linkage
Metode ini mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
d(i,j)k = average(dik, djk)
Metode Median Linkage
Pada metode ini, jarak antara dua cluster adalah jarak di antara centroid cluster tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster yang didapat dengan melakukan rata-rata pada semua anggota suatu cluster tertentu. Dengan metode ini, setiap terjadi cluster baru, akan terjadi perhitungan ulang centroid hingga terbentuk cluster tetap. Jarak antar kelompok (i,j) dengan k adalah :
d(i,j)k = median(dik, djk)

Hasil dari analisis akan disajikan dalam bentuk struktur pohon yang disebut dendogram. Pemotongan dendogram dapat dilakukan pada selisih jarak penggabungan yang terbesar. Akar pohon terdiri dari cluster tunggal yang berisi semua pengamatan, dan daun sesuai dengan pengamatan individu.

Algoritma untuk mengelompokkan hierarki pada umumnya menggunakan cara agglomerative, yaitu dimulai dari daun dan secara berurutan menggabungkan cluster bersama, atau pemecahan yang dimulai dari akar dan dibagi secara rekursif.

Pemotongan pada ketinggian tertentu akan memberikan clustering pada presisi yang dipilih. Sebagai contoh pada observasi {a}{b}{c}{d}{e} dan {f}. Misalnya pemotongan setelah baris kedua akan menghasilkan cluster {a}{bc}{de}{f}. Pemotongan setelah baris ketiga akan menghasilkan cluster {a}{bc}{def}, yang merupakan clustering kasar dengan sejumlah cluster yang lebih besar.

Secara bebas kita juga dapat membuat matriks jarak pada tahap ini dengan angka dalam baris ke-j kolom ke-i adalah jarak antara j dan elemen i. Kemudian, setelah clustering berlangsung, baris dan kolom menjadi kelompok dengan jarak yang sudah diperbarui. Ini adalah cara yang umum untuk mengimplementasikan jenis clustering dan berguna untuk menyembunyikan jarak antara cluster.

Setiap algomerasi terjadi pada jarak antar cluster yang lebih besar daripada algomerasi sebelumnya, dan clustering berhenti jika cluster terlalu jauh untuk digabung atau ketika ada jumlah angka cluster yang cukup kecil.

Search This Blog

Analisis Cluster

Data Tunggal

Data Berkelompok

Tabel Distribusi Statistik

Uji Z

Uji t

Statistik Inferensial Lainnya

Search This Blog

Analisis Cluster

Artikel yang berhubungan:

Data Tunggal

Data Berkelompok

Tabel Distribusi Statistik

Uji Z

Uji t

Statistik Inferensial Lainnya