Posted by : Unknown
Selasa, 22 November 2016
Pendahuluan
Datamining
Ketika kita
disodori sejumlah data dari suatu subjek atau kejadian, apa yang bisa kita lakukan Untuk menindak
lanjutinya? Kita perlu mengolahnya untuk
mendapatkan kecenderungan tertentu dari data tersebut. Misalkan data itu tentang mahasiswa
baru, mungkin bisa kita kelompokkan berdasarkan asal SMU atau
tingginya nilai tes masuk atau berdasarkan kedua – duanya. Setelah proses
pengelompokan ini mungkin akan kita dapatkan mahasiswa berdasarkan kategori dari SMU
swasta dengan nilai tertentu.
Kemudian kita bisa melakukan analisis
lebih jauh, mengenali pola data
mahasiswa tersebut. Misalnya
kecenderungan jika mahasiswa berasal dari negeri akan menapatkan indeks
prestasi tinggi di semester pertama atau
kecenderungan yang lain.
Kemudian kita
juga bisa melakukan pekerjaan prediksi atas apa yang akan terjadi pada seorang mahasiswa berasarkan data masa sebelumnya berkaitan
dengan indeks prestasi yang akan
dicapainya pada semester satu. Pekerjaan
– pekerjaan seperti ini dalam dunia
ilmiah sering disebut
dengan pattern recognition atau pengenalan pola. Pengenalan pola adalah bagian
dari data mining. Jadi pengenalan pola
adalah suatu disiplin ilmu yang
mempelajari bagaimana kita mengelompokkan obyek ke berbagai kelas dan bagaimana dari data bisa kita temukan kecenderungannya. Yang pertama mengacu pada kasus klasifikasi dan yang kedua mengacu pada regresi. Data mining juga
meliputi langkah – langkah menentukan
varibel atau fitur
yang penting untuk di pakai dalam klasifikasi dan regresi. Data mining memegang peran penting
dalam bidang industry, keuangan,
cuaca, ilmu dan teknologi. Data mining berkenaan dengan pengolahan data dalam skala besar. Berikut ini adalah contoh – contoh data
volume besar yang sekarang tersedia di
dunia.
•
Very Long Baseline Interferometry (VLBI)
milik Eropa mempunyai 16 teleskop,
dimana setiap satunya
menghasilkan data sebesar 1 Gigabit / detik data astronomi . Ini
membawa konsekuensi penyimpanan
anilisis
suatu problem skala besar.
• AT- T menangani milyaran panggilan telepon
per hari
• Berdasarkan survey Winter Corp .2003: france telecom mempunyai
decision – support DB , 30 TB
(tera bit) ; AT & T 26 TB
•
Google searches milyaran halaman,
mencapai ratusan TB
•
UC Berkeley 2003 mengestimasi 5 exabytes ( 5 juta terabytes) data baru
dihasilkan pada tahun 2002
Winter Corp melakukan survei mengenai ukuran
data paling besar dalam beberapa tahun terakhir.
Dalam dua tahun terakhir ukuran ini menjadi 3
kali lipat ( Piatetsky and Shapiro, 2006).
Banyak kasus dalam kehidupan sehari –
hari yang memakai teknik – teknik data mining
yang
dipelajari
dalam buku ini. Istilah ini mungkin belum begitu di kenal di kalangan mahasiswa
maupun
dosen atau kalangan umum termasuk
industry. Contoh – contoh berikut
ini memperlihatkan masalah –
masalah
dalam data mining :
1.
Memprediksi
harga suatu saham dalam beberapa bulan ke depan
berdasarkan performansi
perusahaan dan data – data
ekonomi.
2.
Memprediksi apakah seorang pasien yang diopname akan mendapatkan serangan jantung berikutnya
berdasarkan catatan kesehatan sebelumnya dan pola makananya.
3.
Memprediksi permintaan semen dalam beberapa tahun
mndatang berdasarkan data permintaan semen di tahun - tahun sebelumnya.
4.
Memprediksi
apakah akan terjadi tornado berdasarkan informasi dari sebuah radar tentang kondisi angin dan
atmosfir yang lain.
5.
Identifikasi apakah sudah trjadi penipuan terhadap
pengguna kartu kredit dengan melihat catatan transaksi yang tersimpan dalam database perusahaan kredit.
6.
Barang
apa yang biasanya dibeli oleh customer supermarket ketika dia membeli diaper
bayi? bagaimana manajemen supermarket
member respon stelah mengetahui pola
pembelian customer.
7.
Berapa
persen kira – kira customer yang akan
lari dari service atau produk kita?
Bagaimana mencegahnya?
8.
Dalam
hal orang meminta hutang ke suatu bank. Haruskah suatu bank menyetujui hutang
tersebut? Orang yang punya sejarah
paling bagus biasanya tidak perlu hutang, dan orang yang mempunyai sejarah
paling buruk biasanya tidak akan membayar hutang. Customer bank yang terbaik adalah yang ditengah –tengah.
9.
Dalam
e-commerce, misalkan seseorang membeli buku lewat Amazon.com. Kita bisa
menyarankan buku lain apa yang seharusnya dibeli oleh customer yang sama.
Amazon bisa melakukan klastering data buku – buku yang dibeli. Misalnya
customer yang membeli Data Mining : Teknik memanfaatkan data , juga membeli
Data Mining dengan Matlab.
10.
Diberikan data microarray untuk sejumlah sampel
(pasien), bisakah kita mendiagnosis secara akurat penyakit yang diderita? Prediksi
hasil dari suatu treatment terhadap pasien ? Rekomendasikan
treatment terbaik?
11.
Dalam
marketing : menemukan kelompok customer dan mempergunakan untuk target pemasaran dan
re-organization.
12.
Dalam
Astronomi: menemukan kelompok bintang yang mirip dan galaksi.
13.
Gemomics
: menemukan kelompok gen dengan tingkat ekspresi yang mirip.
Tentu
saja masih banyak lagi contoh – contoh dari berbagai bidang yang bisa
dimasukkan atau bisa diselesaikan dengan teknik – teknik data mining. Teknik – teknik belajar (learning) memegang peran kunci dalam masalah - masalah di atas. Masalah – masalah yang
sesuai untuk diselesaikan dengan teknik data mining bila dicirikan dengan
(Piatetsky and Shapiro, 2006)
• Memerlukan keputusan yang bersifat knowledge –
based
• Mempunyai
lingkungan yang berubah
• Metode yang ada sekarang bersifat sub –
optimal
• Tersedia data yang bisa diakses, cukup dan
relevan
• Memberikan keuntungan yang tinggi jika
keputusan yang diambil tepat
Buku ini memperkenalkan dan
membahas metode – metode yang sering dipaki dalam data mining. bahasan terutama
ditujukan untuk klastering,klasifikasi,regresi, seleksi variabel dan market basket analisis atau
aturan asosiasi. Dalam contoh di atas, harga aham masuk dalam variabel kuantitatif yang nilainya
kontinyu. Sedangkan output dari prediksi
kita terhadap tornado berupa variabel
diskrit atau kategori yaitu ada tornado
atau tidak. Untuk masalah harga saham kita menggunakan teknik prediksi
yang sering di sebut regresi. Dalam prediksi
tornado kita gunakan teknik klasifikasi.
Untuk ilustrasi lebih jauh, lihat sebagian data Iris Fisher (1936).
Sedangkan jenis bunga bisa dikelompokkan
alam Virginica, Setosa dan Versicolor . Jenis - jenis
bunga iris ini bisa diubah ke dalam nilai numeric, misalkan 1 untuk Virginica, 2 untuk Setosa dan 3 untuk Versicolor. Dalam hal ini, panjang panjang sepal, lebar
sepal, panjang petal dan lebar petal
kita sebut Sebagai atribut atau variabel. Nilai
dari variabel ini kita sebut input. Sedangkan jenis bunga kita namakan sebagai output.
Manajemen Informatika Politeknik Negeri Lampung