CLASSIFICATION STEPS (1)

Transcription

CLASSIFICATION STEPS ��มเดล(Classification ain data)แอทริบิวต์ 1แอทริบิวต์ 1แอทริบิวต์ ��Modelแอทริบิวต์ 1แอทริบิวต์ ��ดลและคาตอบจริง

CLASSIFICATION STEPS ��มเดล(Classification modelbuilding)แอทริบิวต์ 1แอทริบิวต์ 1แอทริบิวต์ ��บิวต์ 1แอทริบิวต์ 210โมเดลModelUnseen รเรียนรู้(Trainy data)แอทริบิวต์ 1แอทริบิวต์ ลาสA

EVALUATION MODEL :SELF CONSISTENCY TEST ��มูลเรียนรู้ training data �ทั้งหมดเพื่อ Evaluate โมเดล (Self Consistency �เท่ากับ 100 %Training data1 2 76384105 9Evaluation Data1 2 76384105 9

EVALUATION MODEL :CROSS VALIDATION �้ออกเป็น k ชุดเท่า ๆ กัน �หลือ (k ‟ 1 ชุด) �เดล �ไว้ 1 ชุด เพื่อทาการEvaluate �� Training data154ข้อมูลชุดที่ 127ข้อมูลชุดที่ 368ข้อมูลชุดที่ 53ข้อมูลชุดที่ 2910ข้อมูลชุดที่ 4

EVALUATION MODEL :CROSS VALIDATION(2) �ของโมเดลแบบ cross ‟ validation d cross-validation10-fold cross-validationLeave ‟ One ‟ Out cross-validation

EVALUATION MODEL :CROSS VALIDATION (3) 5 ‟ fold cross -validationAccuracy รอบที่ 1 80.74 %รอบที่ 1Training data43ข้อมูลชุดที่ 2910ข้อมูลชุดที่ 42Evaluate data7ข้อมูลชุดที่ 368ข้อมูลชุดที่ 515ข้อมูลชุดที่ 1

EVALUATION MODEL :CROSS VALIDATION (4) 5 ‟ fold cross -validationAccuracy รอบที่ 2 82.39 %รอบที่ 2Training data15ข้อมูลชุดที่ 1910ข้อมูลชุดที่ 42Evaluate data7ข้อมูลชุดที่ 368ข้อมูลชุดที่ 543ข้อมูลชุดที่ 2

EVALUATION MODEL :CROSS VALIDATION (5) 5 ‟ fold cross -validationAccuracy รอบที่ 3 80.69 %รอบที่ 3Training data15ข้อมูลชุดที่ 1910ข้อมูลชุดที่ 44Evaluate data3ข้อมูลชุดที่ 268ข้อมูลชุดที่ 527ข้อมูลชุดที่ 3

EVALUATION MODEL :CROSS VALIDATION (6) 5 ‟ fold cross -validationAccuracy รอบที่ 4 81.24 %รอบที่ 4Training data15ข้อมูลชุดที่ 127ข้อมูลชุดที่ 34Evaluate data3ข้อมูลชุดที่ 268ข้อมูลชุดที่ 5910ข้อมูลชุดที่ 4

EVALUATION MODEL :CROSS VALIDATION (7) 5 ‟ fold cross -validationAccuracy รอบที่ 5 80.72 %รอบที่ 5Training data15ข้อมูลชุดที่ 127ข้อมูลชุดที่ 34Evaluate data3ข้อมูลชุดที่ 2910ข้อมูลชุดที่ 468ข้อมูลชุดที่ 5

EVALUATION MODEL :CROSS VALIDATION (8) � Modelkoverall accuracy Average( Accuracy)ii 1

EVALUATION MODEL :CROSS VALIDATION (9) Leave-One-Out cross-validationรอบที่ 1Training data2 76384105 9Evaluate data1

EVALUATION MODEL :CROSS VALIDATION (10) Leave-One-Out cross-validationรอบที่ 2Training data14 35768109Evaluate data2

EVALUATION MODEL :CROSS VALIDATION (11) Leave-One-Out cross-validationรอบที่ 3Training data142 768105 9Evaluate data3

EVALUATION MODEL :CROSS VALIDATION (12) Leave-One-Out cross-validationรอบที่ N (N 10)Training data142 76385 9Evaluate data10

EVALUATION MODEL :SPLIT DATA วน � 2 ส่วน ส่วนที่ 1 ูลส่วนใหญ่ ประมาณ 2 ใน 3 หรือ 66 % �ส่วนที่ 1 �อล(testing) ��เรียนรู้ ประมาณ 1 ใน 3 หรือ 33 % ของข้อมูล เรียนรู้ Training data435692867 %Evaluate data110733 %

EVALUATE STEP2 �พโมเดล ค่าความถูกต้อง (Accuracy) �ท �ื่อน(Error) �ข (numeric)

EVALUATE STEP2 (3)ค่าความถูกต้อง (accuracy) % ิงและข้อมูลที่ ทานายได้ �น (error) �่าจริง ค่าที่คาดเดาได้ (predicted)- กต้อง (4/6)x100 �วม 15-16 17.1-17 20-19.8 1.3

CLASSIFICATION IN WEKAเปิด Weka เลือก Explorer กดปุ่ม Open file . เลือกไฟล์ data\weather.arff

CLASSIFICATION คลิกที่ tab Classify1234IN WEKA (CONT’)

1: CLASSIFIER เทคนิคในการทา classification แบบต่าง ๆ Bayes าง ��ณิตศาสตร์ �งสมการ Lazyต่างจากเทคนิค classification แบบอื่น ๆ �ลไว้ก่อน ม่ได้เลย

1: CLASSIFIER (CONT’) เทคนิคในการทา classification แบบต่าง ๆ Meta ��Classifications หลาย ๆ เทคนิค �ือคาดเดา (prediction) Trees �ม้ (tree) lassify) Rules �บของกฏ

1: CLASSIFIER (CONT’) ��าต่างให้กาหนดค่า พารามิเตอร์ต่าง ๆ More ��ง ๆ เตอร์ที่เซตไว้ �เซตไว้

1: CLASSIFIER (CONT’) �ช้ทดสอบUse training set าพ Supplied test set ใช้ข้อมูลใหม่ (unseen data) �เดลที่สร้างขึ้น Cross-validation ( default 10 folds ) �้ออกเป็น k ส่วนเท่า ๆ กัน ��สอบ ระบุจานวน k ในช่อง Folds Percentage split �้ออกเป็น x % �งโมเดล �็นข้อมูลทดสอบ กาหนดในช่อง % ิบิวต์สุดท้าย)

3: RESULT LIST �้งก่อน ๆ ��แสดง option เพิ่มเติม Load model �ยเก็บไว้ Save model �ในคราวต่อไป Visualize tree (มีเฉพาะเทคนิค J48)ใช้แสดงโมเดล (decision tree) ในรูปแบบต้นไม้

4: CLASSIFIEROUTPUT (2) �เภทข้อมูล (classify) Run information Classifier model (full training set) ��ดล เช่น tree ��ดSummary ค่าความถูกต้อง (Accuracy)„ �อมูลแบบประเภทNominal �น (error)„ �อมูลแบบตัวเลข(numeric)

4: CLASSIFIEROUTPUT �เภทข้อมูล (classify) Detailed accuracy By มื่อแยกตามคลาส TP Rate (True Positive) ค่าที่ทายถูก FP Rate (False Positive) ค่าที่ทายผิด Confusion Matrixคอลัมน์ : ค่าที่ทานายได้ แถว : ค่าจริง ข้อมูล 2 ��เลข !!!

4: CLASSIFIEROUTPUT (3)

CONFUSIONMATRIXPredicted{Actual ClassABA882B34True Positiveพิจารณาที่ class ATrue Positive (TP)คือจานวนที่ classifyถูกว่าเป็น class A

CONFUSIONMATRIX (2)Predicted{Actual ClassABA82B334False Positiveพิจารณาที่ class A True Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)

CONFUSIONMATRIX (3)Predicted{Actual ClassABA882B34True PositiveTP Rate TP/#data in class Xพิจารณาที่ class A True Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)TP Rate 8/10 0.8

CONFUSIONMATRIX (4)Predicted{Actual ClassABA82B334False PositiveTP Rate TP/#data in class XFP Rate TP/#data in class Xพิจารณาที่ class A True Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)TP Rate 8/10 0.8FP Rate 3/10 0.428

CONFUSIONMATRIX (5)Predicted{Actual ClassABA82B34TP Rate TP/#data in class XFP Rate FP/#data in class XPrecision TP/(TP FP)พิจารณาที่ class A True Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)TP Rate 8/10 0.8FP Rate 3/10 0.428Precision 8/(8 3) 0.727

CONFUSIONMATRIX (6)Predicted{Actual ClassABA82B34TP Rate TP/#data in class XFP Rate FP/#data in class Xพิจารณาที่ class A Precision TP/(TP FP)Recall TP RateTrue Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)TP Rate 8/10 0.8FP Rate 3/10 0.428Precision 8/(8 3) 0.727Recall 8/(8 2) 0.8 TP Rate

CONFUSIONMATRIX (7)Predicted{Actual ClassABA82B34TP Rate TP/#data in class XFP Rate FP/#data in class Xพิจารณาที่ class A Precision TP/(TP FP)Recall TP Rate True Positive (TP) คือจานวนที่classify ถูกว่าเป็น class AFalse Positive (FP) คือ จานวนที่classify ผิดว่าเป็น class A (ซึ่งจริง ๆแล้วเป็น class B)TP Rate 8/10 0.8FP Rate 3/10 0.428Precision 8/(8 3) 0.727Recall 8/(8 2) 0.8 TP RateAccuracy (8 4)/(8 2 3 4) 0.706 70.6 %Accuracy #correctly classified instances#instances

PRECISION & RECALLAAAAAXXYZA

PRECISION & RECALL(2)A 6 ฉบับAX 2 ฉบับY 1 ฉบับZ 1 ฉบับAXAAZ

PRECISION & RECALL(3)A 6 ฉบับAX 2 ฉบับY 1 ฉบับZ 1 ฉบับAAXZA Precision �ี่สืบค้นได้

PRECISION & RECALL(4)A 6 ฉบับAX 2 ฉบับY 1 ฉบับZ 1 ฉบับAAXZ Recall ��ธ์กับคาค้นได้A 3/6 0.5

4 : CLASSIFIER OUTPUT(3)

KAPPA STATISTIC - MEASURE OF AGREEMENT

KAPPA STATISTIC (2)สมาชิกบ้าน AF 12 คน Raters มี 2 คน คือ ครูเงาะ และครูเมย์ �เพื่อพิจารณาว่า AF ��าน Yes ควรอยู่ในบ้านต่อNo �ย์YesNoครูเงาะYesNo6123

KAPPA STATISTIC (3)ครูเมย์YesNoครูเงาะ Pr(a) observed percentage agreementYesNo6123Total84 (6 3)/12 0.75 Pr(e) obed percentage agreement (0.3889 0.1389) 0.5278 คานวณจากครูเมย์ vote “Yes” 8 , Vote “No” 4 ดั้งนั้น โอกาสตอบ Yes คิดเป็น 8/12 0.6667 ครูเงาะ vote “Yes” 7 , Vote “No” 5 ดั้งนั้น โอกาสตอบ Yes คิดเป็น 7/12 0.5833 �ง Vote “Yes” เหมือนกัน 0.6667 x 0.5833 0.3889 �ง Vote “No” เหมือนกัน (1 - 0.6667) x (1 - 0.5833) 0.1389

KAPPA STATISTIC (4)ครูเมย์YesNoครูเงาะ YesNo6123Total84K Pr(a)-Pr(e)1-Pr(e) ( 0.75 - 0.5278 ) / ( 1 ‟ 0.5278) 0.4706Note : Fleiss’s guidelines characterize kappas over .75 as excellent, .40 to .75 as fair to good, and below.40 as poor.

4:CLASSIFIER OUTPUT(4)

ROC CURVE Class ที่กาลังพิจารณา (Positive Class) คือ Class 0No190.48Yes100.79Yes

ROC CURVE Plot ค่า TP vs FP

ROC CURVE พื้นที่ใต้กราฟ ROC (AUC-Area Under Curve) แสดง performance � Model

DECISION TREE APPLICATIONS ��อมูล (classification) �ระกอบ ��ต่าง �ตุผลเพราะอะไร

EXAMPLE 2 : DECISION TREE ��ี่ต้องการคาดเดา (class)

EXAMPLE 2 : DECISION TREE (2) เปิด Weka เลือก Explorer กดปุ่ม Open file เลือกไฟล์ data\weather.arff

EXAMPLE 2 : DECISION TREE (3)คลิกที่ tab Classify กดปุ่ม Choose เลือก Classifiers เลือก trees เลือก J48 กดปุ่ม Start

EXAMPLE 2 : DECISION TREE (4) ผลที่ได้

EXAMPLE 2 : DECISION TREE �นช่อง Result list เลือก Visualize tree

EXAMPLE 2 : DECISION TREE (6) กฎการตัดสินใจจาก decision treeIF outlook sunny AND humidity 75Then playIF outlook sunny ANDhumidity 75 Then play IF outlook sunny AND humidity 75Then no play IF outlook overcast Then play IF outlook rainy AND windy TRUEThen play IF outlook rainy AND windy FALSEThen no play

EXAMPLE 2 : DECISION TREE (7) ��ือกSave model

EXAMPLE 2 : DECISION TREE (8)Testing file Weather-test.arff Play?

EXAMPLE 2 : DECISION TREE (9) �ไว้คลิกขวาเลือกLoad model

EXAMPLE 2 : DECISION TREE (11)เลือก Supplied test set กดปุ่ม Set เลือกไฟล์Weather-test.arff

EXAMPLE 2 : DECISION TREE (11)เลือก Supplied test set กดปุ่ม Set เลือกไฟล์Weather-test.arff กดปุ่ม More options เลือก outputpredictions

EXAMPLE 2 : DECISION TREE (12)เลือก Supplied test set กดปุ่ม Set เลือกไฟล์Weather-test.arff กดปุ่ม More options เลือก output predictions �ือก Reevaluate model on currenttest set

EXAMPLE 3 : CUSTOMERS �ยได้

EXAMPLE 3 : CUSTOMERS แก้ไขไฟล์ customer wmissing.arff ที่เคยสร้างไว้ใน Lab �อายุรายได้สินค้า Aสินค้า Bสินค้า �30020,000000D%costomers wmissing.arff@relation customers wmissing%The following is attributes@attribute member id real@attribute sex{male, female}@attribute age real@attribute Income numeric@attribute A0001 {0,1}@attribute A0002 {0,1}@attribute A0003 {0,1}@attribute level {A,D}%The following is ,1,0,A5,female,?,20000,0,0,0,D

EXAMPLE 3 : CUSTOMERS (2) เปิด Weka เลือก Explorer กดปุ่ม Open file เลือกไฟล์ customers wmissing.arff

EXAMPLE 3 : CUSTOMERS (3)กดปุ่ม Choose เลือก filters เลือก unsupervised เลือก attribute เลือกReplaceMissingValues กดปุ่ม Apply �ดยการกดปุ่ม Edit

EXAMPLE 3 : CUSTOMERS (4) �ารแก้ไขด้วย วิธีReplace missing value แล้วสร้างDecision treeRemove �จาเป็นเช่น member id ทิ้ง �่อแอตทริบิวต์ กดปุ่ม Remove

EXAMPLE 3 : CUSTOMERS (5)คลิกที่ tab Classify กดปุ่

TP Rate TP/#data in class X. CONFUSION MATRIX (5) Class A B A 8 2 Actual {B 3 4 Predicted พิจารณาที่ class A True Positive (TP) คือจ านวนที่ classify ถูกว่าเป็น class A False Positive (FP) คือ จ านวนที่ classify ผิดว่าเป็น class A (ซึ่งจริง ๆ แล้วเป็น .