Tuesday, June 6, 2017

Pendahuluan Data Mining

 Pendahuluan Datamining




Ketika kita disodori sejumlah data dari suatu subjek atau kejadian,  apa yang bisa kita lakukan Untuk menindak lanjutinya?  Kita perlu mengolahnya untuk mendapatkan kecenderungan tertentu dari data tersebut. Misalkan data itu tentang  mahasiswa  baru,  mungkin bisa  kita kelompokkan berdasarkan asal SMU atau tingginya nilai tes masuk atau berdasarkan  kedua – duanya. Setelah proses pengelompokan  ini mungkin akan kita  dapatkan mahasiswa  berdasarkan kategori  dari SMU  swasta  dengan nilai tertentu. Kemudian kita bisa melakukan  analisis lebih jauh, mengenali  pola data mahasiswa tersebut.  Misalnya kecenderungan jika mahasiswa berasal dari negeri akan menapatkan indeks prestasi tinggi di semester pertama  atau kecenderungan yang lain.


Kemudian kita juga bisa melakukan pekerjaan prediksi atas apa yang akan terjadi pada seorang mahasiswa  berasarkan data masa sebelumnya berkaitan dengan indeks prestasi yang  akan dicapainya pada semester satu.  Pekerjaan – pekerjaan  seperti ini dalam dunia ilmiah  sering  disebut  dengan pattern recognition atau pengenalan pola. Pengenalan pola adalah bagian dari data mining. Jadi pengenalan  pola adalah suatu  disiplin ilmu yang mempelajari  bagaimana  kita mengelompokkan  obyek ke berbagai  kelas dan bagaimana dari data bisa kita  temukan kecenderungannya.  Yang pertama mengacu  pada kasus klasifikasi dan yang kedua  mengacu pada regresi. Data mining juga meliputi langkah – langkah  menentukan varibel  atau  fitur  yang penting untuk di pakai dalam klasifikasi dan regresi.  Data mining memegang peran  penting  dalam bidang industry, keuangan,  cuaca,  ilmu dan teknologi.  Data mining berkenaan  dengan pengolahan data dalam skala besar.  Berikut ini adalah contoh – contoh data volume  besar yang sekarang tersedia di dunia.


•  Very Long Baseline Interferometry (VLBI) milik Eropa  mempunyai 16 teleskop, dimana setiap satunya
    menghasilkan data sebesar  1 Gigabit / detik data astronomi . Ini membawa konsekuensi penyimpanan
    anilisis suatu problem  skala besar.

  AT- T menangani milyaran panggilan telepon per hari
  Berdasarkan survey  Winter Corp .2003: france telecom mempunyai decision – support DB , 30 TB
    (tera bit) ; AT & T 26 TB
 Google searches milyaran halaman, mencapai ratusan TB
 UC Berkeley 2003 mengestimasi   5 exabytes ( 5 juta terabytes) data baru dihasilkan pada tahun 2002


   Winter Corp melakukan survei mengenai ukuran data paling besar dalam beberapa tahun terakhir.
 Dalam dua tahun terakhir ukuran ini menjadi 3 kali lipat ( Piatetsky and Shapiro, 2006).                                                                                                                                           

     Banyak kasus dalam kehidupan sehari – hari  yang memakai teknik – teknik  data mining  yang
 dipelajari  dalam buku  ini.  Istilah ini mungkin  belum begitu di kenal di kalangan mahasiswa maupun
 dosen atau kalangan umum termasuk industry.  Contoh – contoh berikut ini  memperlihatkan masalah –
 masalah  dalam data mining :
1.       Memprediksi harga suatu saham dalam beberapa bulan ke depan  berdasarkan performansi  perusahaan  dan data – data ekonomi.
2.       Memprediksi  apakah seorang  pasien yang diopname  akan mendapatkan serangan jantung berikutnya berdasarkan catatan kesehatan sebelumnya dan pola makananya.
3.       Memprediksi  permintaan semen dalam beberapa tahun mndatang berdasarkan data permintaan semen di tahun  - tahun sebelumnya.
4.       Memprediksi apakah akan  terjadi tornado  berdasarkan informasi  dari sebuah radar tentang kondisi angin dan atmosfir yang lain.
5.       Identifikasi  apakah sudah trjadi penipuan terhadap pengguna kartu kredit dengan melihat catatan transaksi  yang tersimpan  dalam database  perusahaan kredit.
6.       Barang apa yang biasanya dibeli oleh customer supermarket ketika dia membeli diaper bayi? bagaimana manajemen supermarket  member respon stelah mengetahui pola  pembelian customer.
7.       Berapa persen kira – kira  customer yang akan lari dari service atau produk kita?  Bagaimana mencegahnya?
8.       Dalam hal orang meminta hutang ke suatu bank. Haruskah suatu bank menyetujui hutang tersebut?  Orang yang punya sejarah paling bagus biasanya tidak perlu hutang, dan orang yang mempunyai sejarah paling buruk biasanya tidak akan membayar hutang. Customer  bank yang terbaik adalah  yang ditengah –tengah.
9.       Dalam e-commerce, misalkan seseorang membeli buku lewat Amazon.com. Kita bisa menyarankan buku lain apa yang seharusnya dibeli oleh customer yang sama. Amazon bisa melakukan  klastering  data buku – buku yang dibeli. Misalnya customer yang membeli Data Mining : Teknik memanfaatkan data , juga membeli Data Mining dengan Matlab.
10.   Diberikan  data microarray untuk sejumlah sampel (pasien), bisakah kita mendiagnosis secara akurat penyakit yang diderita?  Prediksi  hasil dari suatu treatment terhadap pasien ? Rekomendasikan treatment  terbaik?
11.   Dalam marketing : menemukan kelompok customer  dan mempergunakan untuk target pemasaran dan re-organization.
12.   Dalam Astronomi: menemukan kelompok bintang yang mirip dan galaksi.
13.   Gemomics : menemukan kelompok gen dengan tingkat ekspresi  yang mirip.



Tentu  saja masih banyak lagi contoh – contoh dari berbagai bidang yang bisa dimasukkan atau bisa diselesaikan dengan teknik – teknik  data mining. Teknik – teknik  belajar (learning) memegang  peran kunci dalam masalah  - masalah di atas. Masalah – masalah yang sesuai untuk diselesaikan dengan teknik data mining bila dicirikan dengan (Piatetsky and Shapiro, 2006)


 Memerlukan keputusan yang bersifat knowledge – based
•   Mempunyai  lingkungan yang berubah
•   Metode yang ada sekarang bersifat sub – optimal
•   Tersedia data yang bisa diakses, cukup dan relevan
•   Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat 


Secara umum kajian data mining meliputi hal – hal seperti dalam
Gambar 1.1

    Buku ini memperkenalkan  dan membahas metode – metode yang sering dipaki dalam data mining. bahasan terutama ditujukan untuk klastering,klasifikasi,regresi, seleksi  variabel dan market basket analisis atau aturan asosiasi. Dalam contoh di atas, harga aham masuk dalam  variabel kuantitatif yang nilainya kontinyu.  Sedangkan output dari prediksi kita terhadap tornado  berupa variabel diskrit atau kategori yaitu ada tornado  atau tidak. Untuk masalah harga saham kita menggunakan teknik prediksi yang sering di sebut regresi. Dalam prediksi  tornado kita gunakan  teknik  klasifikasi. Apa yang akan kita lalukan terhadap data yang kita miliki secara umum  dan urutan langkahnya digambarkan dalam 

 Untuk ilustrasi lebih jauh, lihat sebagian data Iris Fisher (1936) dalam Tabel 1.1 berikut yang
 menandakan jenis bunga berdasarkan panjang sepal, lebar sepal,  panjang petal dan lebar petal.
 Sedangkan jenis bunga  bisa di kelompokkan  alam Virginica, Setosa dan Versicolor . Jenis  - jenis  bunga
 iris ini bisa diubah ke dalam nilai numeric, misalkan  1 untuk Virginica, 2 untuk Setosa dan 3 untuk
 Versicolor. Dalam  hal ini, panjang panjang sepal, lebar sepal,  panjang petal dan lebar petal kita sebut
Sebagai atribut atau variabel. Nilai dari variabel ini kita sebut input. Sedangkan jenis bunga kita namakan
 sebagai output.


         Data iris jika diplot dalam dua dimensi akan nampak seperti dalam Gambar 1.3 Gambar ini menunjukan kasus klasifikasi dengan tiga kelas dimana outputnya dinilai diskrit. Sedangkan Gambar 1.4 menunjukan ilustrasi  untuk kasus regresi dengan output yang berupa data kuantitatif yang nilainya kontinyu.

0 comments:

Post a Comment

Share

Twitter Delicious Facebook Digg Stumbleupon Favorites More