Pendahuluan
Datamining
Ketika kita
disodori sejumlah data dari suatu subjek atau kejadian, apa yang bisa kita lakukan Untuk menindak
lanjutinya? Kita perlu mengolahnya untuk
mendapatkan kecenderungan tertentu dari data tersebut. Misalkan data itu tentang mahasiswa
baru, mungkin bisa kita kelompokkan berdasarkan asal SMU atau
tingginya nilai tes masuk atau berdasarkan kedua – duanya. Setelah proses
pengelompokan ini mungkin akan kita dapatkan mahasiswa berdasarkan kategori dari SMU
swasta dengan nilai tertentu.
Kemudian kita bisa melakukan analisis
lebih jauh, mengenali pola data
mahasiswa tersebut. Misalnya
kecenderungan jika mahasiswa berasal dari negeri akan menapatkan indeks
prestasi tinggi di semester pertama atau
kecenderungan yang lain.
Kemudian kita
juga bisa melakukan pekerjaan prediksi atas apa yang akan terjadi pada seorang mahasiswa berasarkan data masa sebelumnya berkaitan
dengan indeks prestasi yang akan
dicapainya pada semester satu. Pekerjaan
– pekerjaan seperti ini dalam dunia
ilmiah sering disebut
dengan pattern recognition atau pengenalan pola. Pengenalan pola adalah bagian
dari data mining. Jadi pengenalan pola
adalah suatu disiplin ilmu yang
mempelajari bagaimana kita mengelompokkan obyek ke berbagai kelas dan bagaimana dari data bisa kita temukan kecenderungannya. Yang pertama mengacu pada kasus klasifikasi dan yang kedua mengacu pada regresi. Data mining juga
meliputi langkah – langkah menentukan
varibel atau fitur
yang penting untuk di pakai dalam klasifikasi dan regresi. Data mining memegang peran penting
dalam bidang industry, keuangan,
cuaca, ilmu dan teknologi. Data mining berkenaan dengan pengolahan data dalam skala besar. Berikut ini adalah contoh – contoh data
volume besar yang sekarang tersedia di
dunia.
•
Very Long
Baseline Interferometry (VLBI) milik Eropa
mempunyai 16 teleskop, dimana setiap satunya
menghasilkan
data sebesar 1 Gigabit / detik data
astronomi . Ini membawa konsekuensi penyimpanan
anilisis suatu problem skala besar.
• AT- T menangani milyaran panggilan telepon
per hari
• Berdasarkan survey Winter Corp .2003: france telecom mempunyai
decision – support DB , 30 TB
(tera
bit) ; AT & T 26 TB
• Google searches milyaran halaman, mencapai ratusan
TB
• UC Berkeley 2003 mengestimasi 5 exabytes ( 5 juta terabytes) data baru
dihasilkan pada tahun 2002
Winter
Corp melakukan survei mengenai ukuran data paling besar dalam beberapa tahun
terakhir.
Dalam dua
tahun terakhir ukuran ini menjadi 3 kali lipat ( Piatetsky and Shapiro, 2006).
Banyak
kasus dalam kehidupan sehari – hari yang
memakai teknik – teknik data mining yang
dipelajari
dalam buku ini. Istilah ini mungkin belum begitu di kenal di kalangan mahasiswa
maupun
dosen atau
kalangan umum termasuk industry. Contoh
– contoh berikut ini memperlihatkan
masalah –
masalah dalam data mining :
1. Memprediksi harga suatu saham dalam beberapa bulan ke depan berdasarkan performansi perusahaan
dan data – data ekonomi.
2. Memprediksi apakah seorang pasien yang diopname akan mendapatkan serangan jantung berikutnya
berdasarkan catatan kesehatan sebelumnya dan pola makananya.
3. Memprediksi permintaan semen
dalam beberapa tahun mndatang berdasarkan data permintaan semen di tahun - tahun sebelumnya.
4. Memprediksi apakah akan terjadi
tornado berdasarkan informasi dari sebuah radar tentang kondisi angin dan
atmosfir yang lain.
5. Identifikasi apakah sudah trjadi
penipuan terhadap pengguna kartu kredit dengan melihat catatan transaksi yang tersimpan dalam database perusahaan kredit.
6. Barang apa yang biasanya dibeli oleh customer supermarket ketika dia membeli
diaper bayi? bagaimana manajemen supermarket
member respon stelah mengetahui pola
pembelian customer.
7. Berapa persen kira – kira
customer yang akan lari dari service atau produk kita? Bagaimana mencegahnya?
8. Dalam hal orang meminta hutang ke suatu bank. Haruskah suatu bank
menyetujui hutang tersebut? Orang yang
punya sejarah paling bagus biasanya tidak perlu hutang, dan orang yang
mempunyai sejarah paling buruk biasanya tidak akan membayar hutang. Customer bank yang terbaik adalah yang ditengah –tengah.
9. Dalam e-commerce, misalkan seseorang membeli buku lewat Amazon.com. Kita
bisa menyarankan buku lain apa yang seharusnya dibeli oleh customer yang sama.
Amazon bisa melakukan klastering data buku – buku yang dibeli. Misalnya
customer yang membeli Data Mining : Teknik memanfaatkan data , juga membeli
Data Mining dengan Matlab.
10. Diberikan data microarray untuk
sejumlah sampel (pasien), bisakah kita mendiagnosis secara akurat penyakit yang
diderita? Prediksi hasil dari suatu treatment terhadap pasien ?
Rekomendasikan treatment terbaik?
11. Dalam marketing : menemukan kelompok customer dan mempergunakan untuk target pemasaran dan
re-organization.
12. Dalam Astronomi: menemukan kelompok bintang yang mirip dan galaksi.
13. Gemomics : menemukan kelompok gen dengan tingkat ekspresi yang mirip.
Tentu saja masih banyak lagi contoh – contoh dari
berbagai bidang yang bisa dimasukkan atau bisa diselesaikan dengan teknik –
teknik data mining. Teknik – teknik belajar (learning) memegang peran kunci dalam masalah - masalah di atas. Masalah – masalah yang
sesuai untuk diselesaikan dengan teknik data mining bila dicirikan dengan
(Piatetsky and Shapiro, 2006)
• Memerlukan keputusan yang
bersifat knowledge – based
• Mempunyai lingkungan yang berubah
• Metode yang
ada sekarang bersifat sub – optimal
• Tersedia
data yang bisa diakses, cukup dan relevan
• Memberikan
keuntungan yang tinggi jika keputusan yang diambil tepat
Secara umum
kajian data mining meliputi hal – hal seperti dalam
Gambar 1.1
Untuk ilustrasi lebih jauh, lihat sebagian
data Iris Fisher (1936) dalam Tabel 1.1 berikut yang
menandakan jenis bunga berdasarkan panjang
sepal, lebar sepal, panjang petal dan
lebar petal.
Sedangkan jenis bunga bisa di kelompokkan alam Virginica, Setosa dan Versicolor .
Jenis - jenis bunga
iris ini bisa diubah ke dalam nilai numeric,
misalkan 1 untuk Virginica, 2 untuk
Setosa dan 3 untuk
Versicolor. Dalam hal ini, panjang panjang sepal, lebar
sepal, panjang petal dan lebar petal
kita sebut
Sebagai
atribut atau variabel. Nilai dari variabel ini kita sebut input. Sedangkan
jenis bunga kita namakan
sebagai output.
Data iris jika diplot dalam dua
dimensi akan nampak seperti dalam Gambar 1.3 Gambar ini menunjukan kasus klasifikasi
dengan tiga kelas dimana outputnya dinilai diskrit. Sedangkan Gambar 1.4
menunjukan ilustrasi untuk kasus regresi
dengan output yang berupa data kuantitatif yang nilainya kontinyu.
0 comments:
Post a Comment