Data Mining : Klasifikasi Menggunakan Algoritma C4 - CORE

Transcription

View metadata, citation and similar papers at core.ac.ukbrought to you byCOREprovided by Ejournal STKIP PGRI Sumbar (UEJS - Sekolah Tinggi Keguruan Dan Ilmu Pendidikan.ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)Data Mining : Klasifikasi Menggunakan Algoritma C4.5Yuli MardiDosen Akademi Perekam dan Informasi Kesehatan (APIKES) Iris PadangJl. Gajah Mada No. 23 Padang, Sumatera Baratadimardi@yahoo.comABSTRAKData mining merupakan bagian dari tahapan proses Knowledge Discovery in Database (KDD).Dengan data mining, kita dapat melakukan pengklasifikasian, memprediksi, memperkirakan danmendapatkan informasi lain yang bermanfaat dari kumpulan data dalam jumlah yang besar.Klasifikasi dalam data mining dapat dilakukan dengan menggunakan algoritma C4.5. Denganalgoritma C4.5, akan didapatkan sebuah pohon keputusan yang mudah dipahami dan mudahdimengerti.Kata kunci : Data mining, Klasifikasi, Algoritma C4.5, Pohon keputusanPENDAHULUANDatabaseyang tersimpan dimediapenyimpanan jarang sekali dimanfaatkan olehsebagian besar penggunanya dan bahkan dalamjangka waktu tertentu data-data tersebut dihapuskarena dianggap sampah dan hanya memenuhimedia penyimpanan saja. Anggapan tersebut tidaksepenuhnya benar, karena sesungguhnya databasedalam ukuran yang besar dapat memberikaninformasi yang dibutuhkan untuk berbagaikepentingan, baik untuk kepentingan bisnis dalammengambil keputusan maupun untuk ilmupengetahuan dan penelitian.1.Data SelectionPemilihan (seleksi) data dari sekumpulan dataoperasional perlu dilakukan sebelum tahappenggalian informasi dalam KnowledgeDiscovery in Database(KDD) dimulai. Datahasil seleksi yang akan digunakan untukproses data mining, disimpan dalam suatuberkas terpisah dari basis data operasional.2.Pre-processing / CleaningSebelumprosesdataminingdapatdilaksanakan, perlu dilakukan proses cleaningpada data yang menjadi fokus KnowledgeDiscovery in Database (KDD). Prosescleaning mencakup antara lain membuangduplikasi data, memeriksa data yanginkonsisten, dan memperbaiki kesalahan padadata, seperti kesalahan cetak. Juga ” data yang sudah ada dengandata atau informasi lain yang relevan dandiperlukan untuk Knowledge Discovery inDatabase (KDD), seperti data atau informasieksternal lainnya yang diperlukan.3.TransformationCoding adalah proses transformasi pada datayang telah dipilih, sehingga data tersebutsesuai untuk proses data mining. Prosescoding dalam Knowledge Discovery inDatabase (KDD) merupakan proses kreatifdan sangat tergantung pada jenis atau polainformasi yang akan dicari dalam basis data.Knowledge Discovery In huan dari database yang ada. Dalamdatabase terdapat tabel - tabel yang salingberhubungan / berelasi. Hasil pengetahuan yangdiperoleh dalam proses tersebut dapat digunakansebagai basis pengetahuan (knowledge base) untukkeperluan pengambilan keputusan.Istilah Knowledge Discovery in Database(KDD) dan data mining seringkali digunakansecara bergantian untuk menjelaskan prosespenggalian informasi tersembunyi dalam suatubasis data yang besar. Sebenarnya kedua istilahtersebut memiliki konsep yang berbeda, tetapiberkaitan satu sama lain, dan salah satu tahapandalam keseluruhan proses KDD adalah datamining. Proses KDD secara garis besar dapatdijelaskan sebagai berikut[1]:213Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)4.5.Data MiningData mining adalah proses mencari pola atauinformasi menarik dalam data terpilih denganmenggunakan teknik atau metode tertentu.Teknik-teknik, metode-metode, atau algoritmadalam data mining sangat bervariasi.Pemilihan metode atau algoritma yang tepatsangat bergantung pada tujuan dan prosesKnowledge Discovery in Database (KDD)secara keseluruhan.Interpretation / EvaluationPola informasi yang dihasilkan dari prosesdata mining perlu ditampilkan dalam bentukyang mudah dimengerti oleh pihak yangberkepentingan. Tahap ini merupakan bagiandari proses Knowledge Diccovery in Database(KDD) yang disebut interpretation. Tahap inimencakup pemeriksaan apakah pola atauinformasi yang ditemukan bertentangandengan fakta atau hipotesis yang adasebelumnya.Sementara itu menurut[2], proses KnowledgeDiccovery in Database (KDD) dapat digambarkansebagai berikut :Data mining menurut David Hand, HeikkiMannila, dan Padhraic Smyth dari MIT adalahanalisa terhadap data (biasanya data yangberukuran besar) untuk menemukan hubunganyang jelas serta menyimpulkannya yang belumdiketahui sebelumnya dengan cara terkinidipahami dan berguna bagi pemilik datatersebut[4].Data mining adalah proses yang menggunakanteknik statistik, matematika, kecerdasan buatan,dan machine learning untuk mengekstraksi danmengidentifikasi informasi yang bermanfaat danpengetahuan yang terkait dari berbagai databasebesar. Data mining merupakan serangkaian prosesuntuk menggali nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidakdiketahui secara manual[1].Dari definisi-definisi yang telah disampaikan,hal penting yang terkait dengan dataminingmenurut[1]:1.2.3.Gambar 1 : Proses Knowledge Discovery inDatabaseDATA MININGData mining merupakan suatu proses otomatisterhadap data yang sudah ada.Data yang akan diproses merupakan data yangsangat besar.Tujuan data mining adalah mendapatkanhubungan atau pola yang mungkinmemberikan indikasi yang bermanfaat.Data mining bukanlah suatu bidang yang samasekali baru. Salah satu kesulitan untukmendefinisikan data mining adalah kenyataanbahwa data mining mewarisi banyak aspek danteknik dari bidang-bidang ilmu yang dulu sudahmapan terlebih dulu. Gambar 2 menunjukkanbahwa data mining memiliki akar yang panjangdari bidang ilmu yang berbeda seperti kecerdasanbuatan (artificial intelligent), machine learning,statistik, database, dan juga informationretrieval[1].Menurut Gartner Group,data mining adalahproses menemukan hubungan baru yangmempunyai arti, pola dan kebiasaan denganmemilah-milah sebagian besardata yang disimpandalam media penyimpanan dengan menggunakanteknologi pengenalan pola seperti teknik statistikdan matematika. Data mining merupakangabungan dari beberapa disiplin ilmu yangmenyatukan teknik dari pembelajaran mesin,pengenalan pola, statistik, database, dan visualisasiuntuk penanganan permasalahan pengambilaninformasi dari database yang besar[3].214Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)a.b.c.Prediksi harga beras dalam tiga bulanyang akan datang.Prediksi tingkat penganguran lima tahunakan datang.Predisksi persentase kanaikan kecelakaanlalu lintas tahun depan jika batas bawahkecepatan dinaikan.Beberapa metode dan teknik yang digunakandalam klasifikasi dan estimasi dapat puladigunakan (untuk keadaan yang tepat) untukprediksi.4.Gambar 2 : Bidang Ilmu Data MiningData mining dibagi menjadi beberapakelompok berdasarkan tugas yang dapat dilakukan,yaitu:1.Estimation (Estimasi)Estimasi hampir sama dengan klasifikasi, kecualivariabel target estimasi lebih ke arah numerikdaripada ke arah kategori. Model dibangunmenggunakan record lengkap yang menyediakannilai dari variabel target sebagai nilai prediksi.Selanjutnya, pada peninjauan berikutnya estimasinilai dari variabel target dibuat berdasarkan nilaivariabel prediksi. Sebagai contoh yaitu estimasinilai indeks prestasi kumulatif mahasiswa programpasca sarjana dengan melihat nilai indeks prestasimahasiswa tersebut pada saat mengikuti programsarjana.3.Dalam klasifikasi, terdapat target variabel kategori.Sebagai contoh, penggolongan pendapatan dapatdipisahkan dalam tiga kategori, yaitu pendapatantinggi, pendapatan sedang, dan pendapatanrendah.Contoh lain klasifikasi dalam bisnis danpenelitian adalah :a.Description (Deskripsi)Terkadang peneliti dan analis secara sederhanainginmencobamencaricarauntukmenggambarkan pola dan kecenderungan yangterdapat dalam data. Sebagai contoh, petugaspengumpulan suara mungkin tidak dapatmenemukan keterangan atau fakta bahwa siapayang tidak cukup profesional akan sedikitdidukung dalam pemilihan presiden. Deskripsi daripola dan kecenderungan sering memberikankemungkinan penjelasan untuk suatu pola ataukecenderungan.2.Classification (Klasifikasi)Prediction (Prediksi)Prediksi hampir sama dengan klasifikasi danestimasi, kecuali bahwa dalam prediksi nilai darihasil akan ada dimasa mendatang.Contoh prediksidalam bisnis dan penelitian adalah :215b.c.5.Menentukan apakah suatu transaksi kartukredit merupakan transaksi yang curangatau bukan.Memperkirakan apakah suatu pengajuanhipotek oleh nasabah merupakan suatukredit yang baik atau buruk.Mendiagnosis penyakit seorang pasienuntuk mendapatkan termasuk penyakitapa.Clustering (Pengklusteran)Pengklusteran merupakan pengelompokan record,pengamatan, atau memperhatikan dan membentukkelas objek-objek yang memiliki kemiripan.Kluster adalah kumpulan record yang memilikikemiripan satu dengan yang lainnya dan memilikiketidakmiripan dengan record-record dalam klusterlain.Pengklusteran berbeda dengan klasifikasi yaitutidak adanya variabel target dalam pengklusteran.Pengklusteran tidak mencoba untuk melakukanklasifikasi, mengestimasi, atau memprediksi nilaidari variabel target. Akan tetapi, an terhadap keseluruhan data menjadikelompok-kelompok yang memiliki kemiripan(homogen), yang mana kemiripan record dalamsatu kelompok akan bernilai maksimal, sedangkankemiripan dengan record dalam kelompok lainakan bernilai minimal.Contoh pengklusteran dalambisnis dan penelitian adalah :a.Mendapatkankelompok-kelompokkonsumen untuk target pemasaran dariDiterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)b.c.6.suatu produk bagi perusahaan yang tidakmemiliki dana pemasaran yang besar.Untuk tujuan audit akuntansi, yaitumelakukan pemisahan terhadap perilakufinansial dalam baik dan mencurigakanMelakukanpengklusteranterhadapekspresi dari gen, untuk mendapatkankemiripan perilaku dari gen dalam jumlahbesar1. POHON KEPUTUSANDiantara beberapa metode yang dapatdigunakan untuk klasifikasi adalah metode pohonkeputusan atau decission tree. Metode pohonkeputusan merupakan sebuah metode yang dapatmengubah fakta yang sangat besar menjadi sebuahpohon keputusan yang merepresentasikan aturan.Aturan dapat dengan mudah dipahami denganbahasa alami[1].Association (Asosiasi)Tugas asosiasi dalam data mining adalahmenemukan atribut yang muncul dalam satuwaktu. Dalam dunia bisnis lebih umum disebutanalisis keranjang belanja.Contoh asosiasi dalambisnis dan penelitian adalah :a.Menelitijumlahpelanggandariperusahaan telekomunikasi seluler yangdiharapkan untuk memberikan responspositif terhadap penawaran upgradelayanan yang diberikan.b. Menemukan barang dalam supermarketyang dibeli secara bersamaan dan barangyang tidak pernah dibeli secarabersamaan.KLASIFIKASISalah satu tugas yang dapat dilakukan dengandata mining adalah pengklasifikasian. Klasifikasipertama kali diterapkan pada bidang tanaman yangmengklasifikasi suatu spesies tertentu, seperti yangdilakukan oleh Carolus von Linne (atau dikenaldengan nama Carolus Linnaeus) yang pertama kalimengklasifikasi spesies berdasarkan karakteristikfisik. Selanjutnya dia dikenal sebagai bapakklasifikasi[4].Dalam klasifikasi terdapat target variabelkategori. Metode-metode / model-model yangtelahdikembangkanolehperisetuntukmenyelesaikan kasus klasifikasi antara lain[4]:a.b.c.d.e.f.g.h.i.j.216Pohon keputusanPengklasifikasi bayes/naive bayesJaringan saraf tiruanAnalisis statistikAlgoritma genetikRough setsPengklasifikasi k-nearest neighbourMetode berbasis aturanMemory based reasoningSupport vector machineSebuah pohon keputusan adalah sebuahstruktur yang dapat digunakan untuk membagikumpulan-kumpulan data yang besar menjadihimpunan-himpunan record yang lebih kecildengan menerapkan serangkaian aturan keputusan.Dengan masing-masing rangkaian pembagi,anggota himpunan hasil menjadi mirip satu denganyang lainnya. Data dalam pohon keputusanbiasanya dinyatakan dalam bentuk tabel denganatribut dan record. Atribut menyatakan suatuparameter yang dibuat sebagai kriteria dalampembentukan pohon. Misalkan untuk menentukanmain tenis, kriteria yang diperhatikan adalahcuaca, angin dan temperatur. Salah satu atributmerupakan atribut yang menyatakan data solusiper item data yang disebut target atribut. Atributmemiliki nilai-nilai yang dinamakan denganinstance. Misalkan atribut cuaca mempunyaiinstance berupa cerah, berawan dan hujan. Prosespada pohon keputusan adalah mengubah bentukdata (tabel) menjadi model pohon, mengubahmodel pohon menjadi rule, dan menyederhanakanrule[1].Banyak algortima yang bisa digunakan dalampembentukan pohon keputusan, antara lain ID3,CART, dan C4.5. Algoritma C4.5 merupakanpengembangan dari algoritma ID.ALGORITMA C4.5Salah satu algoritma yang dapat digunakanuntuk membuat pohon keputusan (decission tree)adalah algoritma C4.5. Algoritma C4.5 merupakanalgoritma yang sangat populer yang digunakanoleh banyak peneliti di dunia, hal ini dijelaskanoleh Xindong Wu dan Vipin Kumar dalambukunya yang berjudul The Top Ten Algorithms inData Mining. Algoritma C4.5 merupakanpengembangan dari algoritma ID3 yang diciptakan oleh J. Rose Quinlan.Secara umum algoritma C4.5 untuk membangunpohon keputusan adalah sebagai berikut[1]:Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)a.b.c.d.pilih atribut sebagai akarbuat cabang untuk tiap-tiap nilaibagi kasus dalam cabangulangi proses untuk setiap cabang sampaisemua kasus pada cabang memiliki kelasyang samaUntuk memilih atribut sebagai akar, didasarkanpada nilai gain tertinggi dari atribut-atribut yangada. Untuk menghitung gain digunakan persamaan1. , Keterangan :S himpunan kasusA atributn jumlah partisi atribut A Si jumlah kasus pada partisi ke-i S jumlah kasus dalam S(1)Sementara itu, perhitungan nilai entropy dapatdilihat pada persamaan 2 log(2)Keterangan :S himpunan kasusA fiturn jumlah partisi Spi proporsi dari Si terhadap SUntuk lebih jelasnya langkah-langkah dalampembuatan pohon keputusan, berikut kan algoritma C4.5. Dari Tabel 1, hitungapakah seorang nasabah bermasalah dalam kreditatau tidak.Data training pada Tabel 1 adalah untukmenentukan apakah seorang nasabah bermasalahatau tidak yang ditentukan oleh kolom predictorsimpanan, aset, dan pendapatan. Kolom resikokredit adalah kelas dari masing-masing record.Tabel 1. Tabel Data untuk Klasifikasi d7LowLow25Bad8MediumMedium75GoodAdapun langkah untuk membuat pohonkeputusan, yaitu :1. Untuk atribut pendapatan yang bernilai angka,dibuat dalam bentuk kategori, yaitupendapatan 25,pendapatan 25,pendapatan 50,pendapatan 50,pendapatan , 75, dan pendapatan 752. Hitung nilai entropy. Dari data trainingdiketahui jumlah kasus ada 8, yang beresikokredit good 5 record dan bad 3 recordsehingga didapat entropy :Entropy (S) 3/8*log2(3/8)) log(-5/8*log2(5/8)) (- 0,95443.Hitung nilai gain untuk tiap atribut, lalutentukan nilai gaintertinggi. Yang mempunyainilai gain tertinggi itulah yang akan dijadikanakar dari pohon. Misalkan untuk atributsimpanan dengan nilai low didapat nilai gain :Gain (S,A) Entropy(S)- 0,9544 – (2/8(1) 3/8(0) 3/8(0,9183) 0,3601217Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)0Hasil perhitungan gain untuk tiap atribut dapatterlihat pada Tabel 2, nilai gain tertinggi akanmenjadi akar dari pohon. 5033000,0924Tabel 2. Nilai Entropy dan Gain untukMenentukan Simpul AsetLow2020Medium4310,8113High2200Pendapatan0,1589 253120,9183 255410,7219 757430,9852 751100Terlihat dari Tabel 2 bahwa atribut asetmempunyai nilai low, medium, dan high. Nilai lowdan high masing-masing sudah menjadi satuklasifikasi karena pada data training, semua asetmenghasilkan keputusan yang sama yaitu baduntuk nilai low dan good untuk nilai high.Sedangkan untuk simpul dengan nilai mediumperlu dipartisi lagi.Gambar 3 adalah hasil pembentukan pohonkeputusan berdasarkan perhitungan yang terdapatpada Tabel 2. Dari hasil perhitungan didapat nilaigain tertinggi untuk atribut aset, maka aset menjadiakar pohon keputusan. Untuk menentukan akardari atribut medium, dilakukan lagi perhitungangain.Gambar 3 Pohon Keputusan C4.5 denganSimpul Akar AsetKESIMPULANSecara keseluruhan, proses data mininghingga menghasilkan sebuah pohon keputusanyang dapat memberikan informasi yangdiperlukan, dapat dilihat dari Gambar 4[5].0,3476 502185230,971Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

ISSN : 2407-0491E-ISSN: 2541-3716Jurnal Edik InformatikaPenelitian Bidang Komputer Sains dan Pendidikan InformatikaV2.i2(213-219)4.5.dilihat digambar 4, diantaranya adalahklasifikasiBeberapa model dapat digunakan untukmelakukanklasifikasidandalampembahasan ini kita menggunakan modelpohon keputusanAlgoritma yang dapat dilakukan untukmembuat pohon keutusan salah satunyadalah algoritma C4.5DAFTAR PUSTAKAGambar 4 Proses Klasifikasi menggunakanAlgoritma C4.5Bramer, Max (2007)Principles of Data Mining,Springer ScienceDari gambar 4 dapat di jelaskan proses datamining hingga menghasilkan sebuah pohonkeputusan adalah sebagai berikut :Kusrini dan Emha Taufiq Luthfi (2009) AlgoritmaData Mining, Andi Offset1.2.3.219Sumber data, merupakan database yangdidalamnya terdapat informasi yang bisadiambildandimanfaatkanuntukkepentingan bisnis dan penelitianProses KDD, merupakan proses yangdilakukan untuk mengambil informasiyang terdapat dalam database, di antaraproses tersebut terdapat proses dataminingData mining, data mining merupakanbagian dari proses kdd, apa yang dapatdilakukan dengan data mining dapatLarose, Daniel T (2005) Discovering Knowledgein Data Mining An Introduction to DataMining, Wiley InterscienceMardi, Yuli (2014) Analisa Data Rekam Medisuntuk Menentukan Penyakit TerbanyakBerdasarkan International ClassificationOf Disease (ICD) Menggunakan DecisionTree C4.5 (Studi Kasus : RSU. CBMCPadang). UPI YPTK PadangWidodo et al (2013) Penerapan Data Miningdengan Matlab, Rekayasa SainsDiterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

Data mining merupakan bagian dari tahapan proses Knowledge Discovery in Database (K DD). Dengan data mining, kita dapat melakukan pengklasifikasian, memprediksi, memperkirakan dan mendapatkan informasi lain yang bermanfaat dari kumpulan data dalam jumlah yang besar. Klasifikasi dalam data mining dapat dilakukan dengan menggunakan algoritma C4.5 .