Hypothesis Testing การทดสอบสมมติฐาน
Hypothesis Testing หรือการทดสอบสมมติฐาน คือกระบวนการที่เราใช้ข้อมูลจาก Sample มาตัดสินเกี่ยวกับ Population โดยจะตัดสินเลือกสมมติฐานที่มีข้อมูลสนับสนุน
เราจะตั้งสมมติฐาน 2 อัน คือ
- Null Hypothesis, H0 : เป็นแนวความคิดเดิมที่มีปัจจุบัน (มักจะมีเครื่องหมาย = อยู่)
- Alternative Hypothesis, Ha: แนวความคิดใหม่ที่เราต้องการทดสอบ (มักจะมีเครื่องหมาย <, >, หรือ ≠ ซึ่งจะต้องตรงข้ามกับ H0)
ตัวอย่างเช่น บริษัทแห่งหนึ่งผลิตน้ำส้มซึ่งในขวดควรจะมีปริมาตร 250 cc ทางผู้จัดการเกิดความสงสัยว่าน้ำส้มในขวดอาจมีการใส่น้อยกว่าความเป็นจริง จึงมีสมมติฐานดังนี้ (เราจะตั้งให้ไม่มีส่วนที่ซ้ำกัน)
- H0 : µ >= 250 cc (ที่เป็นอยู่เดิม)
- Ha: µ < 250 cc (ที่กำลังอยากจะทดสอบ)
ที่นี้เราจะรู้ได้ยังไงว่าสมมติฐานอันไหนที่เป็นความจริง?
หลักการคิดก็คือ
- ให้เราคิดไว้ก่อนว่า Null Hypothesis (H0) นั้นถูกต้อง
- ถ้าหากข้อมูลที่สุ่มออกมาเป็นสิ่งที่ไม่น่าจะเกิดขึ้น แสดงว่า H0 ไม่จริง ดังนั้นเราก็จะหันมาสนับสนุน Ha แทน
แล้วเราจะดูยังไงว่าข้อมูลนั้นเป็นสิ่งที่ไม่น่าจะเกิดขึ้น?
วิธีคิดคือ ถ้าสมมติว่า H0 เป็นจริง ความน่าจะเป็นที่จะพบข้อมูลที่สำรวจได้ในปัจจุบันหรือข้อมูลที่ไปในทิศทางเดียวกับ Ha จะเป็นเท่าไหร่? ซึ่งเราจะเรียกความน่าจะเป็นนี้ว่า p-value ( แปลว่า เป็นไปได้แค่ไหน ถ้าหากว่า H0 จริง แล้วจะเกิดเหตุการณ์แบบที่เรากำลังเจออยู่ขึ้น)
ค่า p-value ที่น้อย แปลว่า โอกาสที่จะเกิดเหตุการณ์แบบที่กำลังพบอยู่นั้นน้อยมากๆ ดังนั้นเราก็จะมีหลักฐานไปแย้ง Null Hypothesis ได้
อย่างไรก็ตาม เราอาจจะสรุปผิดได้ เช่น เราดันไปแย้ง H0 ทั้งๆ ที่จริงแล้ว H0 มันถูกต้องอยู่แล้ว ซึ่งความคิดพลาดนี้เราจะเรียกว่า Type I error หรือค่า α ตามตางรางข้างล่าง

หลักการคร่าวๆ คือ
- p value > .10 → ความแตกต่าง (ของข้อมูลจาก sample กับ H0) ที่พบ นั้น “ไม่มีนัยสำคัญ”
- p value ≤ .10 → ความแตกต่างที่พบนั้น “ค่อนข้างมีนัยสำคัญ”
- p value ≤ .05 → ความแตกต่างที่พบนั้น “มีนัยสำคัญ” (ปกติ จะใช้ค่านี้)
- p value ≤ .01 → ความแตกต่างที่พบนั้น “มีนัยสำคัญอย่างมาก”
* มีนัยสำคัญในที่นี้หมายถึงว่า ความแตกต่างที่พบนั้นไม่ใช่เป็นเพราะเหตุบังเอิญ นั่นคือ H0 เป็นเท็จนั่นเอง
จริงๆ แล้วระดับนัยสำคัญนั้นมีอยู่หลายระดับ เราจึงควรกำหนดเอาไว้ก่อนว่า เราจะคิดที่ระดับเท่าไหร่ดี เพราะการที่เราจะยอมรับหรือปฏิเสธ H0 นั้นขึ้นอยู่กับค่า p-value และ ระดับนัยสำคัญ significant level (α)
หาก p-value < α เราก็จะทำการปฏิเสธ H0 และยอมรับ Ha ครับ
** ปกติแล้วเรามักจะใช้ significant level (α) ที่ 0.05 ครับ
เรามาดูตัวอย่างกันครับจะได้เห็นภาพ
จากผลสถิติปี 1990 ที่สำรวจประชากรทุกคน ( cencus) พบว่า ค่าเฉลี่ยของคนในการดูทีวีในหนึ่งวันอยู่ที่ 5 ชม. โดยมี standard deviation 2 ชม. นักวิจัยต้องการทดสอบว่าจริงๆแล้ว ค่าเฉลี่ยของการดูทีวีนั้นมากกว่า 5 ชม. เค้าจึงทำการสุ่มตัวอย่างออกมา 100 คน แล้วพบว่า ค่าเฉลี่ยของการดูทีสีอยู่ที่ 5.5 ชม.
เราไม่แน่ใจว่า 5.5 ชม. ที่ได้ซึ่งมากกว่า 5 ชม. ที่เคยได้สำรวจไว้นั้น มันมากกว่าจริงๆ หรือแค่บังเอิญกันแน่?? วิธีการทดสอบก็คือ เราต้องตั้งสมมติฐาน 2 อันคือ
- H0 : µ <= 5
- Ha: µ > 5
หากเราสมมติว่า H0 จริง เราจะได้ว่า µ = 5, σ=2, x บาร์ = 5.5
ดังนั้น p-value = โอกาสที่จะเกิดค่าเท่ากับ x บาร์ หรือไปในทิศทางของ Ha นั่นคือ "มากกว่า" เราสามารถหาได้โดยใช้ทฤษฎี CLT ครับ
นั่นตือเราหา ความน่าจะเป็นที่ xบาร์ ≥ 5.5 เป็นเท่าไหร่ นั่นเอง
เมื่อเราใช้ CLT เราจะรู้ว่า sample 100 อันที่สุ่มมานั้น จะมีการแจกแจงดังนี้
- = xบาร์ ~ N (µ, σ / √ n ) [ ในที่นี้เรารู้ σ จึงใช้ normal ได้ ถ้าหากไม่รู้ σ ควรใช้ t-distribution ที่ df=n-1 แทนครับ]
- = xบาร์ ~ N (5, 2 / √ 100 )
- = xบาร์ ~ N (5, 0.2 )
เราสามารถหาความน่าจะเป็นที่ x บาร์ ≥ 5.5 ได้จาก excel ได้เลยครับ
จากสูตร = NORMDIST(x,mean,standard_dev,TRUE)
ซึ่งจะให้ค่าความน่าจะเป็นที่น้อยกว่าหรือเท่ากับค่า x จาก normal distribution ที่มีค่า mean และ standard deviation ที่กำหนดครับแทนค่า = NORMDIST(5.5 , 5 , 0.2 ,TRUE)
จะได้ค่า = 0.993790335 ซึ่งเราจะยังใช้ไม่ได้ครับ เพราะที่ออกมานั้น เป็นความน่าจะเป็นที่ x < 5.5 ต่างหาก
ดังนั้นความน่าจะเป็นที่ ≥ 5.5 = 1-0.9938 =0.0062 ครับ
แต่ถ้าไม่สามารถใช้ Excel ได้ เราก็ต้องเปลี่ยนจากค่า x ให้เป็นค่า z แล้วเปิดตารางเอาครับ
- xบาร์ ~ N (5, 0.2 )เปลี่ยน xบาร์เป็น z แล้วเปิดตารางเทียบ
- z = (xบาร์ - µ) / (σ / √ n) ~ N (0,1)
- z = (5.5 - 5) /0.2
- z = 2.5
ดังนั้น โอกาสที่ xบาร์ ≥ 5.5 หรือ z ≥ 2.5 = 0.0062
ซึ่งคำนวนได้จากสูตร Excel - ซึ่งเราจะเห็นว่าโอกาสที่ xบาร์ ≥ 5.5 นั้นมีค่า = 0.0062 ซึ่งน้อยมาก (p-value น้อยมาก)
- แปลว่า p-value = 0.0062 นั้น <0.05 แปลว่า เราจะปฏิเสธ H0 แล้วยอมรับ Ha
- นั่นคือ เรายอมรับว่า µ > 5 จริงๆครับ ( อย่างไรก็ตาม โอกาสที่จะเกิดความผิดพลาดในการสรุป หรือ Type I Error อยู่ที่ 5% ครับ เนื่องจากเราใช้ค่า 0.05 เป็นตัวเทียบกับ p-value)
หวังว่าพอจะเห็นภาพกันมากขึ้นนะครับผม
| 0.99379 |
Related posts:
- การสุ่มตัวอย่างทางสถิติ Sampling in Statistics
- Statistics for Business Overview ภาพรวมสถิติสำหรับธุรกิจ
- Chi-Square Test of Independence
- สรุปวิธีการเลือกใช้เครื่องมือทางสถิติ
- Descriptive Statistics สถิติเชิงพรรณนา



