Chi-Square Test เป็นการทดสอบทางสถิติซึ่งใช้กับข้อมูลประเภท Qualitative (เป็นกลุ่ม เป็นประเภท) โดยมีอยู่ 2 ลักษณะ คือ

  1. Chi-Square Test of Independence (Association) เอาไว้หาว่าตัวแปรหลายๆตัวจากข้อมูลกล่มเดียวกันมีความเกี่ยวข้องกันหรือไม่ (ที่ว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะครับ)
  2. Chi-Square Test of Similarity/Homogenity เอาไว้ใช้เปรียบเทียบ Distribution ของข้อมูลหลายๆ กลุ่มว่าเหมือนกันหรือไม่

ผมจะขอพูดเรื่องเดียวคือการวิเคราะห์ Chi-Square Test of Independence นะครับ

ขั้นตอนการวิเคราะห์ Chi-Square Test of Independence

1. สร้างตารางแสดงค่าระว่างสองตัวแปรที่สำรวจมา
(Observed Frequencies ในรูปแบบ O r,c  เช่น  O1,3 แปลว่า ผลการสำรวจในแถวที่ 1 หลักที่ 3 )

ค่าระว่างสองตัวแปร 1  และ ตัวแปร 2 ที่สำรวจมา
(r=row, c=column)
c รวม
c1 c2 c3
r1 O1,1 O1,2 O1,3 nr=1
r2 O2,1 O2,2 O2,3 nr=2
r รวม nc=1 nc=2 nc=3 n

2. ตั้งสมมติฐาน

Ho:  ตัวแปร 1 และ  ตัวแปร 2 ไม่เกี่ยวข้องต่อกัน (ไม่สามารถคาดการณ์ตัวแปรนึงจากอีกตัวได้)
Ha:  ตัวแปร 1 และ  ตัวแปร 2 มีความเกี่ยวข้องต่อกัน (นั่นคือ ถ้ารู้ว่าตัวนึงมาก เราสามารถรู้ได้ว่าอีกตัวนึงจะมากหรือจะน้อย)

** อย่าลืมว่า คำว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะ ครับ

3. ตั้งหลักเกณฑ์การวิเคราะห์ เช่น ระดับนัยสำคัญที่จะใช้

เช่น ตั้งระดับนัยสำคัญที่ ที่ α = 0.05 และจะใช้วิธี Chi-Square Test of Independence ในการคิด

4. ทำการวิเคราะห์ Sample

เราต้องหาค่าดังต่อไปนี้ เพื่อจะค่า p-value

– Degree of Freedom (DF) = (r – 1) * (c – 1)

โดยที่ r = จำนวนประเภทของตัวแปรที่หนึ่ง, c คือจำนวนประเภทของตัวแปรที่ 2

– Expected Frequencies = คือจำนวนนับที่น่าจะเป็น (ในกรณีที H0 เป็นจริง)

จากสูตร Er,c = (nr * nc) / n

โดยที่

  • Er,c = Expected Frequencies ของแถว r หลัก c (ซึ่งเมื่อคำนวณแล้วไม่ควรได้ค่าน้อยกว่า 5)
  • nr = ผลรวมของแถว r
  • nc = ผลรวมของหลัก c

จะได้ว่า (Expected Frequencies ในรูปแบบ E r,c  เช่น  E1,3 แปลว่า จำนวนที่คาดหวังในแถวที่ 1 หลักที่ 3 )

ค่าระว่างสองตัวแปร 1 และ ตัวแปร 2 ที่คาดหวัง
(r=row, c=column)
c รวม
c1 c2 c3
r1 E1,1 = (nr=1 * nc=1) / n E1,2 = (nr=1 * nc=2) / n E1,3 = (nr=1 * nc=3) / n nr=1
r2 E2,1 = (nr=2 * nc=1) / n E2,2 = (nr=2 * nc=2) / n E2,3 = (nr=2 * nc=3) / n nr=2
r รวม nc=1 nc=2 nc=3 n

– ทำการคำนวณค่า Chi-Square จากสูตร

χ2 = Σ [ (Or,c – Er,c)2 / Er,c ]

– คำนวณหาค่า p-value จากค่า χ2 และ df ที่ได้ จากสูตร excel  = CHIDIST(χ2,df )
แล้วนำไปเปรียบเทียบกับค่า α แล้วดูว่าจะ Accept H0 ( p-value >α)  หรือ Reject H0 ( p-value <α)

เมื่อรู้หลักการแล้วเรามาดูตัวอย่างกันครับ

ตัวอย่าง

เราต้องการหาว่า เพศที่ต่างกันนั้นมีความชอบรสไอศครีมที่ต่างกันอย่างมีนับสำคัญหรือไม่?

จากผลโหวตของคนจำนวน 1000 คนที่เราสุ่มมา มีข้อมูลดังต่อไปนี้

ผลโหวตความชอบไอศครีม รวม
วนิลา ช็อกโกแลต สตรอเบอรี่
ชาย 200 150 50 400
หญิง 250 300 50 600
รวม 450 450 100 1000

ตัวแปรของปัญหานี้ก็คือ เพศ และ ความชอบรสของไอศครีมนั่นเองครับ

  • โดยที่ เพศ มีอยู่ 2 แบบ คือ ชาย, หญฺิง นั้่นคือ r=2
  • และ ความชอบรสของไอศครีม มีอยู่ 3 แบบ คือ วนิลา, ช็อกโกแลต,สตรอเบอรี่ นั่นคือ c=3

เราต้องตั้งสมมติฐานว่า

Ho:  เพศ และ  ความชอบรสชาติไอศครีม ไม่เกี่ยวข้องต่อกัน
Ha:  เพศ และ  ความชอบรสชาติไอศครีม มีความเกี่ยวข้องต่อกัน

กำหนด α = 0.05

ค่า Degree of Freedom (DF) = (r – 1) * (c – 1) = (2-1) * (3-1) =  2

หาค่า Er,c = (nr * nc) / n ให้ครบทุกช่อง จะได้ว่า

E1,1 = (400 * 450) / 1000 = 180000/1000 = 180
E1,2 = (400 * 450) / 1000 = 180000/1000 = 180
E1,3 = (400 * 100) / 1000 = 40000/1000 = 40
E2,1 = (600 * 450) / 1000 = 270000/1000 = 270
E2,2 = (600 * 450) / 1000 = 270000/1000 = 270
E2,3 = (600 * 100) / 1000 = 60000/1000 = 60

ผลโหวตความชอบไอศครีมคาดหวัง รวม
วนิลา ช็อกโกแลต สตรอเบอรี่
ชาย 180 180 40 400
หญิง 270 270 60 600
รวม 450 450 100 1000

จะเห็นว่า สูตร Er,c = (nr * nc) / n นั้นจะทำให้จำนวนของผู้ชายและผู้หญิงชอบไอศครีมเท่าเทียมกัน (เมื่อเทียบกับสัดส่วนจำนวนชายหญิงรวม) เช่น จากการสำรวจ ถ้ามีผู้ชายอยู่ 40% ก็ควรจะมีผู้ชายชอบไอศครีมรสต่างๆเป็นจำนวน 40% ของการชอบไอศครีมรสนั้นๆด้วย

หาค่า χ2 = Σ [ (Or,c – Er,c)2 / Er,c ] จะได้ว่า

χ2 = (200 – 180)2/180 + (150 – 180)2/180 + (50 – 40)2/40 + (250 – 270)2/270 + (300 – 270)2/270 + (50 – 60)2/40
χ2 = 400/180 + 900/180 + 100/40 + 400/270 + 900/270 + 100/60
χ2 = 2.22 + 5.00 + 2.50 + 1.48 + 3.33 + 1.67
χ2 = 16.2

ซึ่งจาก chi-square distribution ที่มี df=2 และมีค่า χ2 = 16.2 นำไปหาค่า p-value ได้ 0.0003
จากสูตร excel ที่ว่า =CHIDIST(16.2,2) นั่นเอง

ค่า 0.0003 นั้น < α = 0.05 ดังนั้นเราจะ reject H0

เราจึงสรุปได้ว่า เพศ และ ความชอบรสชาติของไอศครีมมีความเกี่ยวข้องกันอย่างมีนัยสำคัญที่ระดับ α = 0.05

0.000304
Tagged on:         

Comments

  1. Notto Kung says:

    ขอบคุณคับที่แบ่งปันความรุ้ให้