Text Mining - Lecturer.ukdw.ac.id

Transcription

Text MiningBudi SusantoText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector DocumentText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Pengertian Text Mining Text mining merupakan penerapan konsep danteknik data mining untuk mencari pola dalam teks proses penganalisisan teks guna menyarikan informasiyang bermanfaat untuk tujuan tertentu.Proses data mining untuk data dokumen atau teksmemerlukan lebih banyak tahapan, mengingat datateks memiliki karakteristik yang lebih kompleksdaripada data biasa.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Karakteristik Dokumen Teks Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois,karakteristik dokumen teks: database teks yang berukuran besar, memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi, mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulankata satu dengan lain dapat memiliki arti yang berbeda,banyak mengandung kata ataupun arti yang bias (ambiguity),dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yangbaku, karena di dalamnya terkadang muncul istilah slank seperti ”r u there?”,”helllooo bosss, whatzzzzzzz up?”, dan sebagainya.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Proses Text Mining Berdasarkan ketidakteraturan struktur data teks,maka proses text mining memerlukan beberapatahap awal yang pada intinya adalahmempersiapkan agar teks dapat diubah menjadilebih terstruktur.Bentuk perubahan yang dilakukan adalah ke dalamspreadsheet, kolom menunjuk dokumen dan barismenunjuk kata, sedangkan selnya menunjukfrekuensi kata dalam dokumen.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Proses Text MiningText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Dokumen Plain text Format Elemen XML, HTML, RTF, ODT, email, dsb.Format Biner PDF, DOC, dsb.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Tokenisasi Tokenisasi secara garis besar memecah sekumpulan karakterdalam suatu teks ke dalam satuan kata. bagaimana membedakan karakter-karakter tertentu yang dapatdiperlakukan sebagai pemisah kata atau bukan.Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasidianggap sebagai pemisah kata.Namun untuk karakter petik tunggal ('), titik (.), semikolon (;),titk dua (:) atau lainnya, dapat memiliki peran yang cukupbanyak sebagai pemisah kata. Sebagai contoh antara “tahu, tempet dan sambal” dengan“100,56”.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Tokenisasi Dalam memperlakukan karakter-karakter dalamteks sangat tergantung sekali pada kontek aplikasiyang dikembangkan.Pekerjaan tokenisasi ini akan semakin sulit jika jugaharus memperhatikan struktur bahasa(grammatikal).Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Tokenisasi: Bagaimana dengan ini? Karakter Nonalphanumeric Sebuah titik (.) biasanya untuk tanda akhir kalimat, tapi dapat jugamuncul dalam singkatan, inisial orang, alamat internet contoh: Yahoo!, AT&T, dsb.Contoh: Sdr., S.Kom., 192.168.1.1, ukdw.ac.idTanda hypen (-) biasanya muncul untuk menggabungkan dua tokenyang berbeda untuk membentuk token tunggal. Tapi dapat puladitemukan untuk menyatakan rentang nilai, kata berulang, dsb. Contoh: x-ray, 32-120, lari-lari.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Tokenisasi: Bagaimana dengan ini? Karakter slash ( / ) sebagai pemisah fle atau direktoriatau url ataupun untuk menyatakan “dan atau” Contoh: /opt/rapidminer, www.google.com/search?num 100&q text mining, Ibu/Bapak. URL. Format nomor telepon. Emoticon Format angka FraseText dan Web MiningTeknik InformatikaUKDW Yogyakarta

TokenisasiText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Lemmatization Setelah deretan karakter telah disegmentasi ke dalamkata-kata (token), langkah berikut yang mungkindilakukan adalah mengubah setiap token ke bentukstandard. Proses ini disebut menerapkan stemming dan ataulemmatization.– Tujuan: untuk mendapatkan bentuk dasar umum dari suatu kata.Contoh:–Am, are, is be–Car, cars, car's, cars' carText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Lemmatization Stemming Proses heuristic yang memotong akhir kata, dan seringjuga membuang imbuhan.Lemmatization Serupa dengan stemming, hanya lebih baik hasilnya.–Memperhatikan kamus dan analisis morfologi.–Menghasilkan kata dasar (lemma)Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Porter Stemming Algoritma stemming Porter didasarkan pada ide bahwa akhiran dalam bahasaInggris sebagian besar terbentuk dari kombinasi akhiran yang lebih kecil dansederhana.Proses penanggalan dikerjakan pada serentetan langkah, yang mensimulasikanperubahan bentuk dan penurunan dari sebuah kata.Pada setiap langkah, sebuah akhiran tertentu dibuang berdasar aturan substitusi.Sebuah aturan substitusi diterapkan ketika sekumpulan kondisi/batasan untukaturan tersebut terpenuhi.Salah satu contoh kondisi adalah jumlah minimal dari hasil stem (disebut jugaukuran (measure)).Kondisi sederhana lain dapat berupa apakah akhir dari stem konsonan atau vokal.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Porter StemmingTerdapat banyak aturan lain. rter/stemmer.htmlText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Contoh Perbandingan Stemmerhttp://www.cs.waikato.ac.nz/ g/research/stemming/Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

ZIPF's LAW Kita menggunakan sedikit kata lebih sering dan jaranguntuk sebagian besar kata lain. Rata-rata 20% kata-kata berperan sebagai mayoritas katadalam suatu teks.Kita dapat memilih kata-kat sehingga kitamengkomunikasikan pesan dengan jumlah kata yanglebih sedikit.the product of the frequency of a word and its rank willbe approximately the same as the product of thefrequency and rank of another word.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Membangun Vektor untuk Prediksi Karakteristik ciri/sifatsebuah dokumendinyatakan oleh tokenatau kata-kata didalamnya.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Membangun Vektor untuk Prediksi Himpunan ciri-ciri yang terkumpul disebut sebagaikamus (dictionary).Token-token atau kata-kata dalam kamusmembentuk dasar untuk membuat sebuah matrikangka yang sangat berkaitan dengan kumpulandokumen yang di analisis.Sehingga, setiap sel berisi ukuran dari sebuahciri/sifat (kolom) untuk sebuah dokumen (baris).Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Membangun Vektor untuk Prediksi Dimensi kamus yang dihasilkan tentu saja akanberukuran sangat besar, sehingga perlu dilakukanproses transformasi untuk mengurangi ukurandimensinya.Beberapa proses transformasi yang dapatditerapkan antara lain: Stopwords, Frequent Words, dan pengurangan token (Stemming atau Sinonim).Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Mengubah Dokumen ke sebuah matrixText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Mengubah Dokumen ke sebuah matrix Untuk memberikan ketepatan prediksi, perludilakukan transformasi tambahan. Menghitung tingkat peran kata dalam corpus. tf-idf (term frequency-inverse document frequency).Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Pengukuran LainText dan Web MiningTeknik InformatikaUKDW Yogyakarta

ContohText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Matrik DokumenText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Matrik Dokumen TF-IDFText dan Web MiningTeknik InformatikaUKDW Yogyakarta

Feature Selection Teknik pemilihan sebuah subset feature yangrelevan untuk membentuk model yang baik.Text dan Web MiningTeknik InformatikaUKDW Yogyakarta

Text dan Web Mining Teknik Informatika UKDW Yogyakarta Tokenisasi Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata. bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata.