มีการปรับเนื้อหาเรื่อง Discrete Distribution เล็กน้อยนะครับ
ผมมีการปรับเนื้อหาเรื่อง Discrete Distribution เล็กน้อยนะครับ อันเดิมผมใส่เนื้อหาน้อยไป ทำให้สับสน อันใหม่นี้น่าจะเข้าใจมากขึ้น
http://www.siraekabut.com/2010/01/probability-in-statistics/
TED Talks ในดวงใจ
ป้ายกำกับ : business, idea, presentation, talk, TED, video
ในแต่ละปี นักคิดและนักปฏิบัติระดับโลกจะรวมตัวกันในงานประชุมแห่งหนึ่ง มันเป็นงานสัมมนาซึ่งไม่มีงานไหนในโลกที่เสมอเหมือน งานนั้นเรียกว่า TED...
TED คืออะไร
TED คือองค์กรไม่แสวงหาผลกำไรซึ่งมีภารกิจคือ "การเผยแพร่ไอเดีย" ดัง Slogan ที่ว่า Ideas Worth Spreading
มันได้เริ่มต้นขึ้นในปี 1984 ในรูปแบบของงานประชุมที่รวบรวมคนมาจาก 3 โลก นั่นคือ โลก Technology, Entertainment, Design และจากนั้นเป็นต้นมา ขอบเขตของมันก็กว้างขึ้นไปอีกมากมายนัก
ซึ่งในเว็บไซต์ TED.com ก็ได้มีการรวบรวมการบรรยายและการแสดงเจ๋งๆ เอาไว้ให้คนทั้งโลกดูได้ฟรีๆ พูดไปก็คงไม่เห็นภาพ มาดูตัวอย่างกันเลยดีกว่าครับ
TED Talks ในดวงใจ
วันนี้ผมจะขอรวบรวมเอาบรรยายเจ๋งๆ ที่ผมชื่นชอบมาลองให้ดูกันครับ (ไว้จะมาเพิ่มเรื่อยๆ ส่วนใหญ่จะอยู่ในนี้ )
บางอันอาจจะดูเพี้ยนๆ แต่ผมว่าแนวความคิดของทุกคนนั้นน่าทึ่งมากๆ ครับ
Tips : ใน Video หลายๆ อัน เราสามารถเลือก Subtitle ได้นะครับ (บางอันอาจมี Sub Thai, แต่ผมเชื่อว่า Sub English ก็พอเพียงแล้วครับ)
Sir Ken Robinson: Bring on the learning revolution!
ปัจจุบันนอกจากจะมีวิกฤติการณ์โลกร้อนแล้ว ยังมีวิกฤติเรื่องการใช้พรสวรรค์ของทรัพยากรมนุษย์อีกด้วย !! คนคนนี้คิดเช่นเดียวกับที่ผมคิดเลย (ถ้าจะให้ถูก ผมคิดเหมือนเค้าเลย)
David Gallo shows underwater astonishments
น่าทึ่งจริงๆ กับโลกใต้ทะเลลึกที่น้อยคนจะได้เห็น
Stephen Wolfram: Computing a theory of everything
ใครได้ดู Video อันนี้คงรู้สึกได้ในความเชื่อมั่นที่มีต่อการคำนวณของเขา ซึ่งเชื่อแม้กระทั่งว่า จะพยายามหาวิธีคำนวณความเป็นไปของจักรวาลให้ได้!!
Denis Dutton: A Darwinian theory of beauty
ความสวยงามนั้นขึ้นอยู่กับผู้มองจริงหรือ? คนคนนี้คิดว่าไม่ เพราะเขาเชื่อว่ามันเชื่อมโยงกับทฤษฎีของ Charles Darwin ต่างหาก
Hans Rosling shows the best stats you've ever seen
การอธิบายเรื่องของสถิติในระดับโลกที่ซับซ้อนนั่นเป็นเรื่องที่ยากมาก แต่เขาคนนี้ใช้วิธีอธิบายได้น่าสนใจมากๆ
Arthur Benjamin does "Mathemagic"
พูดได้คำเดียวว่า "ทึ่งสุดๆ" กับ เลขมายากล
นอกจาก Video นี้แล้ว ยังมีอีกอันนึงที่ Arthur Benjamin แนะนำว่า การศึกษาด้านคณิตศาสตร์ในปัจจุบันที่มุ่งเนั้นจุดสูงสุดไปที่ Calculus นั้นไม่เหมาะสม เพราะสิ่งที่มีประโยชน์มากกว่าก็คือ การมุ่งเนั้นไปที่ Probability และ Statistics ครับ http://www.ted.com/talks/arthur_benjamin_s_formula_for_changing_math_education.html
Jane McGonigal: Gaming can make a better world
จะดีแค่ไหน ถ้า Gamer ใช้ความมุ่งมั่นและทัศนคติอันแสนพิเศษอย่างที่เค้าใช้เวลาเล่นเกมส์ มาใช้แก้ปัญหากับโลกแห่งความจริงได้
Conrad Wolfram: Teaching kids real math with computers
Math ≠ Calculation แล้วทำไมวิชาเลข เราถึงถูกสอนแต่เรื่อง Calculation ทั้งๆ ที่คอมพิวเตอร์ทำเก่งกว่าเราเยอะ?? เราสอนเลขกันแบบผิดๆ มาตลอด มาดูกันว่าใน Video นี้เค้าจะว่ายังไงบ้างครับ
Pattie Maes and Pranav Mistry demo SixthSense
สุดยอดเทคโนโลยี เหมือนในหนังบางเรื่องเลยล่ะ!!
สรุปทฤษฎีความน่าจะเป็น Probability Theory
ป้ายกำกับ : bayes, combination, complement, counting, independent, intersection, mutually exclusive, permutation, probability, stats, union
หลังจากที่ผมเคย Post บทความเรื่องที่เกี่ยวข้องกับความน่าจะเป็นไปหลายเรื่องพอสมควร โดยเฉพาะวิชาสถิติ ผมพบว่ามีความจำเป็นอย่างยิ่งที่จะต้องปูพื้นฐานเรื่องความน่าจะเป็นให้มากขึ้น ดังนั้น วันนี้ผมจะขอพูดเรื่องความน่าจะเป็นล้วนๆ เลยครับ ซึ่งเนื้อหาส่วนใหญ่ในนี้ ผมสรุปมาจากหนังสือ Statistics in a Nutshell: A Desktop Quick Reference In a Nutshell ของค่าย O'Reilly ครับ
นิยามของคำที่เกี่ยวข้อง
- Trial = การทดลอง หรือ การสังเกตการณ์ ซึ่งมักจะเป็นเหตุการณ์ที่เราไม่รู้แน่ชัดถึงผลลัพธ์ เช่น Trial คือการโยนเหรียญ การทอยลูกเต๋า การการดึงไพ่ เป็นต้น ซึ่งความน่าจะเป็นนั้นจะให้ความสนใจถึงผลลัพธ์ของ Trial นั้นๆ
- Sample Space (S) = ผลลัพธ์ทั้งหมดที่เป็นไปได้ของ Trail เช่น ถ้า Trial เป็นการโยนเหรียญ 1 ครั้ง S ={h,t} นั่นคือหน้าของเหรียญที่เป็นไปได้ 2 แบบ h=หัว, t= ก้อย หรือถ้า Trail เป็นการโยนเหรียญ 2 ครั้ง S = {(h, h), (h, t), (t, h), (t, t)} ซึ่งจะมีทั้งหมด 4 แบบ
- Events (E) = เหตุการณ์ใน Sample Space ที่เราสนใจ เช่น เหตุการณ์ที่เหรียญออกหัวอย่างน้อย 1 ครั้ง ในการโยนเหรียญ 2 ครั้ง คือ E={(h, h), (h, t), (t, h)} ซึ่งเป็นไปได้ 3 แบบ
- Union = การรวมเหตุการณ์หลายๆ อันเข้าด้วยกัน เช่น E U F คือ เหตุการณ์ E หรือ F หรือ ทั้ง 2 อย่างเกิดขึ้น

- Intersection = เหตุการณ์ที่ซ้ำกัน E ∩ F คือ เหตุการณ์ที่ต้องเกิดทั้งเหตการณ์ E และ F

- Complement = ~E คือ เหตการณ์ที่ไม่ใช่เหตการณ์ E

- Mutually Exclusive หมายถึง เหตุการณ์ ทั้งสองไม่มีทางเกิดพร้อมกัน
- Independence คือ ผลลัพธ์ของเหตุการณ์หนึ่งไม่มีความเกี่ยวข้องกับอีกเหตุการณ์หนึ่ง (ไม่สามารถทำนายผลลัพธ์ของเหตุการณ์หนึ่งจากอีกอันหนึ่งได้)
- Counting Theory กฎการนับ การที่จะคำนวณความน่าจะเป็นได้ เราจะต้องนับ Event และ Sample Space ให้ถูกต้องเสียก่อน ซึ่งมีวิธีช่วยในการนับดังนี้ครับ
- กฏพื้นฐาน คือ ถ้าทำงานอย่างหนึ่งให้เสร็จ ประกอบด้วย k ขั้นตอน
- ขั้นตอนที่ 1 มีวิธีเลือก n1 วิธี
- ขั้นตอนที่ 2 มีวิธีเลือก n2 วิธี
- . . .
- ขั้นตอนที่ k มีวิธีเลือก nk วิธี
- จะได้ว่า จำนวนวิธีทั้งหมดที่เลือกทำงานนี้ เท่ากับ n1 x n2 x n3 . . .x nk วิธี
เช่น ถ้ามีเสื้อ 4 แบบ กางเกง 2 แบบ จะแต่งตัวได้กี่แบบ = ใส่เสื้อ ได้ 4 แบบ x ใส่กางเกงได้ 2 แบบ = 8 วิธี
- Permutation คือ วิธีทั้งหมดในการจัดเรียงสมาชิกในเซ็ต โดยที่ลำดับมีความสำคัญ เช่น ในเซ็ตมี (a, b, c) เราสามารถจับมาเรียงได้ทั้งหมดโดยไม่ซ้ำกันได้ดังนี้ (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a) = 6 แบบซึ่งเราจะใช้ Factorial ในการคำนวนโดยที่ n! อ่านว่า "n แฟคตอเรียล" หมายถึง เอาตัวมันเองคูณด้วยตัวมันเองลบ 1 ไปเรื่อยๆ จนถึง 1 เช่น 3! = 3 x 2 x 1 = 6 แบบ เป็นต้นการที่มีของอยู่ n สิ่ง แต่เลือกมาจักเรียงแค่ k สิ่ง เราจะได้ว่า มี Permutation ทั้งหมด = nPk = n! / (n-k)! แบบเช่น มีของกิน 5 อย่าง เลือกกิน 2 อย่าง จะเลือกได้กี่แบบ โดยที่ลำดับมีความสำคัญ
จะได้ว่า 5P2 = 5!/(5-2)! = 5!/3! = 5x4 = 20 แบบถ้ามองด้วยกฎการนับ ตอนแรกมีของ 5 อย่างให้เลือก คือ 5วิธี เมื่อเลือกไปแล้ว 1 อย่าง ทำให้เหลือให้เลือกในขั้นตอนต่อไปเพียง 4 วิธี ทำให้เป็น 5 x 4 = 20 แบบ นั่นเอง
- Combination นั้นจะเหมือนกับ Permutation แต่ว่าการเรียงลำดับไม่มีความหมาย ดังนั้น จำนวนวิธีในการจัดเรียงจึงต้องน้อยกว่า Permutation แน่นอน ทำให้ต้องหาร Permutation ทั้งด้วย k! จึงได้ว่า nCk = nPk / k! = n! / (n-k)!k! นั่นเองเช่น ถ้าในตัวอย่างที่แล้วลำดับไม่สำคัญ เราจะได้ว่า 5C2 = 5!/(5-2)!2! = 10 แบบ
- กฏพื้นฐาน คือ ถ้าทำงานอย่างหนึ่งให้เสร็จ ประกอบด้วย k ขั้นตอน
- Probability คือ ความน่าจะเป็นที่สิ่งที่เราสนใจจะเกิดขึ้น คำนวนได้จาก
ความน่าจะเป็นของเหตุการณ์ E ซึ่งเขียนได้ว่า P(E) = จำนวน Event E / จำนวน Sample Space = E/S
มีค่าตั้งแต่ 0 (ไม่มีทางเกิดขึ้น) ถึง 1 (เกิดขึ้นแน่นอน) หรือจะเป็น 0% - 100% ก็ได้ (เพราะ % คือหาร 100)- P(E) = 0.4 แปลว่า ความน่าจะเป็นของเหตุการณ์ E คือ 40%
- P(E) + P(~E) = P(S) = 1 เสมอ
- Conditional Probability บ่อยครั้งที่เราต้องการจะรู้ความน่าจะเป็นของเหตุการณ์หนึ่ง เมื่ออีกเหตุการณ์หนึ่งได้เกิดขึ้น เราจะเขียนว่า P(E|F) อ่านว่า "Probability of E given F" คือ ความน่าจะเป็นของเหตุการณ์ E เมื่อเหตุการณ์ F ได้เกิดขึ้นแล้วแต่ว่า ถ้าหาก E และ F มีความไม่ขึ้นต่อกัน ( independent ) เราจะได้ว่า P(E|F) = P(E) ซึ่งตีความได้ว่า ไม่ว่า F จะเกิดขึ้น ความน่าจะเป็นของ P(E) ก็ยังเหมือนเดิมนั่นเอง
การคำนวน Union ของ 2 เหตุการณ์
- กรณี Mutually Exclusive : P (E U F) = P(E) + P(F)
- กรณี Not Mutually Exclusive : P (E U F) = P(E) + P(F) - P(E ∩ F)
เพราะ E และ F มีส่วนซ้ำกัน ทำให้เรานับเบิ้ล น้องเอาส่วนที่ซ้ำกันออกไป 1 ที นั่นเอง
ซึ่งจะเห็นว่า ถ้าเป็น Mutually Exclusive แล้ว P(E ∩ F) จะเท่ากับ 0 ทำให้ได้สูตรข้างบนนั่นเอง
การคำนวน Intersection ของ 2 เหตุการณ์
- กรณี Independent : P(E ∩ F) = P(E) × P(F)
- เช่น หาความน่าจะเป็นของการโยนเหรียญ 2 ครั้งแล้วออกหัวทั้ง 2 ครั้ง จะได้ว่า
P(E) = ความน่าจะเป็นของการโยนเหรียญครั้งแรกแล้วออกหัว = 0.5
P(F) = ความน่าจะเป็นของการโยนเหรียญครั้งสองแล้วออกหัว = 0.5
P(E ∩ F) = ความจ่าจะเป็นที่ครั้งแรกและครั้งที่สองออกหัว = P(E) × P(F) = 0.5 x 0.5 = 0.25
- เช่น หาความน่าจะเป็นของการโยนเหรียญ 2 ครั้งแล้วออกหัวทั้ง 2 ครั้ง จะได้ว่า
- กรณี Nonindependent : P(E ∩ F) = P(E) × P(F|E) หรือ = P(F ∩ E) = P(F) × P(E|F) เพราะสลับที่กันได้
- เช่น หาความน่าจะเป็นที่จะจั่วไพ่ได้สีดำ 2 ครั้งติดกัน ถ้าไม่ได้ใส่ไพ่คืน (การจั่วครั้งแรกมีผลต่อครั้งที่สองแน่นอน) จะได้ว่า
P(E) = ความน่าจะเป็นของการจั่วไพ่ครั้งแรกได้สีดำ = 26/52 =0.5 (มีไพ่ดำ 26 ใบ จากไพ่ 52 ใบ)
P(F|E) = ความน่าจะเป็นของการจั่วไพ่ครั้งสองได้สีดำ หลังจากจั่วไพ่ครั้งแรกได้สีดำ = 25/51 =0.49 (เหลือไพ่ดำ 25 ใบ จากไพ่ 51 ใบ เพราะดึงไพ่ดำไปแล้วใบนึง)
P(E ∩ F) = ความน่าจะเป็นที่จะจั่วไพ่ได้สีดำ 2 ครั้งติดกัน = P(E) × P(F) = 0.5 x 0.49 = 0.245
- เช่น หาความน่าจะเป็นที่จะจั่วไพ่ได้สีดำ 2 ครั้งติดกัน ถ้าไม่ได้ใส่ไพ่คืน (การจั่วครั้งแรกมีผลต่อครั้งที่สองแน่นอน) จะได้ว่า
Bayes's Theorem
เป็นทฤษฎีที่ใช้คำนวณหา Conditional Probability โดยที่
P(A | B) = P (A ∩ B) / P(B)
ซึ่ง P (A ∩ B) = P(A) * P(B|A)
และ P(B) = P(A∩B) +P(~A∩B) = P(A)*P(B|A) + P(~A)*P(B|~A)
ลองพิจารณาจาก Venn Diagrams จะเข้าใจง่ายมาก ว่าทำไม P(A | B) = P (A ∩ B) / P(B)

ซึ่งจะทำให้รู้ได้อีกว่า P (A ∩ B) = P(A | B) * P(B) และเมื่อ P (A ∩ B) = P (B ∩ A)
ทำให้ได้ว่า P(A | B) * P(B) = P(B | A) * P(A) ไปด้วยนั่นเองครับ
นั่นคือ P(A | B) = P(B | A) * P(A) / P(B)
ตัวอย่างเรื่องความน่าจะเป็น
ในตัวอย่างหลายๆ อันในนี้จะมีการพูดถึงไพ่ โดยไพ่มาตรฐานจะมีลักษณะดังนี้ (คนที่เป็นเซียนไพ่คงรู้อยู่แล้ว )
- ไพ่ 1 สำรับมี 52 ใบ
- ประกอบด้วย 4 ชุด คือ ข้าวหลามตัด (diamonds), โพธิ์แดง (hearts), ดอกจิก (clubs) ,โพธิ์ดำ (spades) โดยที่ 2 ชุดแรกสีแดง, 2 ชุดหลังสีดำ
- แต่ละชุดมีไพ่ 13 ใบ คือ เลข 2-10, และอีก 3 หน้า แจค (jack), แหม่ม (queen), คิง (king)
การคำนวนเรื่องความน่าจะเป็นมีขั้นตอนดังนี้
- กำหนด trail/experiment
- นิยาม sample space
- นิยาม event
- หาความน่าจะเป็น
คำถาม 1 :
ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ จงหาโอกาสที่จะได้ไพ่ที่เป็นหน้า J Q K และมีสีดำ?
- trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
- sample space = ไพ่ 52 ใบ ที่มีความน่าจะเป็นที่จะได้แต่ละใบเท่าๆ กัน
- event = ไพ่ J, Q, K ที่มีสีดำ (ดอกจิก ไม่ก็โพธิ์ดำ) จึงมีที่ตรงตามต้องการแค่ 6 ใบ
- probability = 6/52 = 0.115
หรือจะคำนวนอีกวิธีได้ว่า
เนื่องจากทั้งสองอัน independent กัน P(JQK ∩ ดำ) = P(JQK) x P(ดำ) = 12/52 x 26/52 = 0.115
คำถาม 2 :
ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ จงหาโอกาสที่จะได้ไพ่ที่เป็นหน้า J Q K หรือไพ่สีดำ?
- trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
- sample space = ไพ่ 52 ใบ ที่มีความน่าจะเป็นที่จะได้แต่ละใบเท่าๆ กัน
- event = ไพ่ J, Q, K 12 ใบ หรือ ไพ่ที่มีสีดำ 26 ใบ ก็ตรงตามต้องการ เนื่องจากทั้ง 2 การไม่ใช่ Mutually Exclusive ทำให้มีไพ่ 6 ใบที่ตรงกับทั้งคู่ คือ JQK ที่มีสีดำ ทำให้ต้องหักออก ทำให้เหลือไพ่ที่ตรงความต้องการ = 12+26-6 = 32 ใบ
- probability = 32/52 = 0.615
หรือจะคำนวนอีกวิธีได้ว่า
กัน P(JQK U | ดำ) = P(JQK) + P(ดำ) - P(JQK ∩ ดำ) = 12/52 + 26/52 - 6/52 = 0.615
คำถาม 3 :
ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ แล้วเป็นสีดำ จงหาโอกาสที่มันจะเป็นไพ่ดอกจิก
- trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
- sample space = ไพ่สีดำ 26 ใบ
- event = ได้ไพ่ดอกจิก
- probability = 13/26 = 0.5
หรือจะคำนวนอีกวิธีได้ว่า
P(ดอกจิก | ไพ่ดำ) = P(ดอกจิก และ ไพ่ดำ) / P(ไพ่ดำ) = P(ดอกจิก) / P(ไพ่ดำ) = 0.25 / 0.5 = 0.5
คำถาม 4 :
ถ้าลำดับไม่สำคัญ จะมีวิธีในการเลือกนักเรียน 5 คนจากนักเรียน 20 คนกี่แบบ
ถ้าลำดับไม่สำคัญ มันก็คือ Combination = 20C5 = 20! / (20-5)!5! = 15504 วิธี
คำถาม 5 :
ถ้ามีนักเรียนในห้อง 100 คน เป็นชาย 40 คน หญิง 60 คน ชาย 20 คน ติด Facebook เช่นเดียวกับหญิง 45 คน ถ้าเราสุ่มคนมาหนึ่งคนปรากฏว่าคนนั้นติด Facebook จงหาความน่าจะเป็นที่คนนั้นจะเป็นผู้หญิง
- P(ชาย) =P(~หญิง) = 40/100 = 0.4
- P(หญิง) = 60/100 = 0.6
- P(ติด Facebook | ชาย ) = P(ติด Facebook | ~หญิง ) = 20/40 = 0.5
- P(ติด Facebook | หญิง ) = 45/60 = 0.75
P(หญิง|ติด Facebook ) = P(หญิง ∩ ติด Facebook) / P (ติด Facebook)
ซึ่ง P(หญิง ∩ ติด Facebook) = P(หญิง) * P(ติด Facebook | หญิง )= 0.6 x 0.75 = 0.45
และ P(ติด Facebook ) = P(หญิง)*P(ติด Facebook | หญิง ) + P(~หญิง)*P(ติด Facebook | ~หญิง )
= 0.45 + (0.4*0.5) = 0.65
ดังนั้น P(หญิง|ติด Facebook ) = 0.45/0.65 = 0.69 นั่นเอง
หวังว่าเพื่อนๆ คงจะพอเห็นภาพรวมมากขึ้นนะครับ
แนะนำเว็บ Khan Academy เว็บสอนหนังสือด้วย online video ที่เจ๋งมากๆ
ป้ายกำกับ : academy, biology, khan, math, physics, Tutorial, video, website, youtube
วันนี้นั่งดู youtube แล้วไปเจอ video สอนเรื่อง probability อันนึงสอนได้ละเอียดดี เลยจิ้มไปดูรายละเอียด...

พบว่าเป็น video ที่ทำโดย Salman Khan (Sal) แห่ง Khan Academy ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่มี mission เจ๋งๆ นั่นคือ
การให้ความรู้ที่มีคุณภาพสูงแก่ทุกคนไม่ว่าจะอยู่ที่ใดบนโลก
อันนี้เป็น video แนะนำสถาบันครับ เจ๋งมาก เค้าเริ่มตั้งแต่สอน 1+1=2 ยันไปถึงความรู้ระดับมหาลัย !!
เนื้อหาที่เค้าสอนมีหลากหลายหัวข้อ ตั้งแต่คณิตศาสตร์ ฟิสิกส์ ไปจนถึงชีววิทยาเลยทีเดียว (แต่เป็นภาษาอังกฤษนะครับ แต่ฟังไปดูไปง่ายครับ)
จะเข้าไปดู video ที่เค้าสอนได้ยังไง?
คุณสามารถเข้าถึง video ของเค้าได้ 2 ทางคือ ทาง website และทาง youtube channel ซึ่ง Kal เค้าแนะนำว่า ใน website จะจัดระเบียบ video ไว้เข้าถึงง่ายกว่า แต่อาจจะ update ช้ากว่าของ youtube นิดหน่อยครับ
- Website : http://www.khanacademy.org/
- Youtube Channel : http://www.youtube.com/user/khanacademy
คนทำเรื่องดีๆ อย่างนี้ต้องสนับสนุน!! อย่าลืมส่งต่อให้เพื่อนๆ ได้รู้แหล่งเรียนรู้ดีๆ ด้วยนะครับ
สรุปวิธีการเลือกใช้เครื่องมือทางสถิติ
หลังจากที่เรียนจบมานาน ก็อาจจะเกิดอาการลืมเลือนไปแล้วว่า ถ้าเกิดเราต้องการวิเคราะห์ข้อมูลที่เรามีอยู่ซักชุดนึงเนี่ย เราควรวิเคราะห์ด้วยวิธีไหนดี บทความนี้จะช่วยสรุปกรอบความคิดหลักๆ ไว้ให้เผื่ออ่านทบทวนครับ
ก่อนอื่นเราต้องรู้จักประเภทของข้อมูลเสียก่อน เราสามารถแบ่งข้องมูลออกเป็น 4 ประเภท ใหญ่ๆ นั่นคือ
- Nominal (Categorical) = เป็นข้อมูลที่มีลักษณะเป็น ประเภท ที่ไม่มีความหมายเรื่องของการเรียงลำดับหรือการคำนวณใดๆ ทั้งสิ้น เช่น สี, ชื่อกลุ่ม, yes-no เป็นต้น
- Ordinal = เป็นข้อมูลประเภทที่มีผลด้านการเรียงลำดับ แต่ไม่มีผลด้านการคำนวณ เช่น การจัดลำดับ หรือ การให้ Rating ความพึงพอใจ 1-5 ผลต่างระหว่าง Rating 5 กับ 3 และ 3 กับ 1 นั้นอาจจะไม่เท่ากันก็ได้ เราบอกได้แค่อะไรมากกว่าอะไรเท่านั้น
- Interval = คือตัวแปรที่เกิดจากการวัดค่า เราเปรียบเทียบผลต่างของค่าได้ แต่เปรียบเทียบอัตราส่วนไม่ได้ เช่น ค่า pH 3 ไม่ได้มีกรดเป็น 2 เท่าของ pH6 และ ค่า 0 ของมันเป็นแค่จุดๆ หนึ่งใน Scale ซึ่ง 0 ไม่ได้แปลว่าไม่มีสิ่งนั้นอยู่ เช่น 0 องศา C ไม่ได้แปลว่าไม่มีอุณหภูมิ
- Ratio = คือตัวแปรที่เกิดจากการวัดค่า โดยที่ผลต่างระหว่างค่า 2 อันมีค่าเท่ากัน และอัตราส่วนของมันยังมีความหมายด้วย และที่สำคัญคือ ค่า 0 ของมันมีความหมายแปลว่าไม่มีสิ่งนั้นอยู่ เช่น จำนวนคนในห้อง, น้ำหนัก และ องศา K ( 0 องศา K คือ absolute zero ไม่มีอุณหภูมิจริงๆ ) และน้ำหนัก 8 กิโล หนักเป็น 2 เท่าของ 4 กิโลจริง ในทางกลับกัน
| สามารถคำนวณสิ่งต่อไปนี้ได้หรือไม่... | Nominal | Ordinal | Interval | Ratio |
| frequency distribution (การแจกแจงความถี่) |
Yes | Yes | Yes | Yes |
| median and percentiles |
No | Yes | Yes | Yes |
| add or subtract (บวก ลบ) | No | No | Yes | Yes |
| mean, standard deviation, standard error of the mean (ค่าเฉลี่ย, เบี่ยงเบนมาตรฐาน) |
No | No | Yes | Yes |
| ratio, or coefficient of variation (การหาอัตราส่วน, สัมประสิทธิ์ความแปรปรวน) |
No | No | No | Yes |
หมายเหตุ บางทีเราก็จะจัดกลุ่ม Interval กับ Ratio ให้อยู่ด้วยกันแล้วเรียกรวมๆว่า Measurement ไม่ก็ Interval ก็มีครับ
พอเรารู้จักประเภทข้อมูลแล้ว เราก็มาดูเครื่องมือที่ให้เราเลือกใช้กันต่อไปครับ
(ตัวสีส้มคือสิ่งที่เรียนใน MBA ครับ)
|
Goal |
Measurement (Interval/Ratio) จาก Normal Population) |
Rank, Score, or Measurement |
Binomial |
|
Describe one group |
Mean, SD |
Median Interquartile range (IQR) |
Proportion |
|
Compare one group to a hypothetical value (Hypothesis testing) |
One-sample t test |
Wilcoxon test |
Chi-square Binomial test ** |
|
Compare two unpaired groups |
Unpaired t test (student's t-test) |
Mann-Whitney test |
Fisher's Exact test Chi-square (for large samples) |
|
Compare two paired groups (Hypothesis testing) |
Paired t test |
Wilcoxon test |
McNemar's test |
|
Compare three or more unmatched groups |
One-way ANOVA (F-test) |
Kruskal-Wallis test |
Chi-square test |
|
Compare three or more matched groups |
Repeated-measures ANOVA |
Friedman test |
Cochrane Q** |
|
Quantify association between two variables |
Pearson correlation |
Spearman correlation |
Contingency coefficients** |
|
Predict value from another measured variable
|
Simple linear regression |
Nonparametric regression** |
Simple logistic regression* |
|
Predict value from several measured or binomial variables |
Multiple linear regression* |
Multiple logistic regression* |
ดัดแปลงมาจาก http://www.graphpad.com/www/Book/Choose.htm
นอกจากตารางนี้ ยังมีเว็บที่น่าสนใจอีกหลายอันที่บอกวิธีเลือกครับ เช่น
- http://bama.ua.edu/~jleeper/627/choosestat.html
- http://www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm
- http://www.microsiris.com/Statistical%20Decision%20Tree/
การใช้เครื่องมือทดสอบ Hypothesis...
Chi-Square Test of Independence
Chi-Square Test เป็นการทดสอบทางสถิติซึ่งใช้กับข้อมูลประเภท Qualitative (เป็นกลุ่ม เป็นประเภท) โดยมีอยู่ 2 ลักษณะ คือ
- Chi-Square Test of Independence (Association) เอาไว้หาว่าตัวแปรหลายๆตัวจากข้อมูลกล่มเดียวกันมีความเกี่ยวข้องกันหรือไม่ (ที่ว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะครับ)
- Chi-Square Test of Similarity/Homogenity เอาไว้ใช้เปรียบเทียบ Distribution ของข้อมูลหลายๆ กลุ่มว่าเหมือนกันหรือไม่
ผมจะขอพูดเรื่องเดียวคือการวิเคราะห์ Chi-Square Test of Independence นะครับ
ขั้นตอนการวิเคราะห์ Chi-Square Test of Independence
1. สร้างตารางแสดงค่าระว่างสองตัวแปรที่สำรวจมา
(Observed Frequencies ในรูปแบบ O r,c เช่น O1,3 แปลว่า ผลการสำรวจในแถวที่ 1 หลักที่ 3 )
| ค่าระว่างสองตัวแปร 1 และ ตัวแปร 2 ที่สำรวจมา (r=row, c=column) |
c รวม | |||
|---|---|---|---|---|
| c1 | c2 | c3 | ||
| r1 | O1,1 | O1,2 | O1,3 | nr=1 |
| r2 | O2,1 | O2,2 | O2,3 | nr=2 |
| r รวม | nc=1 | nc=2 | nc=3 | n |
2. ตั้งสมมติฐาน
Ho: ตัวแปร 1 และ ตัวแปร 2 ไม่เกี่ยวข้องต่อกัน (ไม่สามารถคาดการณ์ตัวแปรนึงจากอีกตัวได้)
Ha: ตัวแปร 1 และ ตัวแปร 2 มีความเกี่ยวข้องต่อกัน (นั่นคือ ถ้ารู้ว่าตัวนึงมาก เราสามารถรู้ได้ว่าอีกตัวนึงจะมากหรือจะน้อย)
** อย่าลืมว่า คำว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะ ครับ
3. ตั้งหลักเกณฑ์การวิเคราะห์ เช่น ระดับนัยสำคัญที่จะใช้
เช่น ตั้งระดับนัยสำคัญที่ ที่ α = 0.05 และจะใช้วิธี Chi-Square Test of Independence ในการคิด
4. ทำการวิเคราะห์ Sample
เราต้องหาค่าดังต่อไปนี้ เพื่อจะค่า p-value
- Degree of Freedom (DF) = (r - 1) * (c - 1)
โดยที่ r = จำนวนประเภทของตัวแปรที่หนึ่ง, c คือจำนวนประเภทของตัวแปรที่ 2
- Expected Frequencies = คือจำนวนนับที่น่าจะเป็น (ในกรณีที H0 เป็นจริง)
จากสูตร Er,c = (nr * nc) / n
โดยที่
- Er,c = Expected Frequencies ของแถว r หลัก c (ซึ่งเมื่อคำนวณแล้วไม่ควรได้ค่าน้อยกว่า 5)
- nr = ผลรวมของแถว r
- nc = ผลรวมของหลัก c
จะได้ว่า (Expected Frequencies ในรูปแบบ E r,c เช่น E1,3 แปลว่า จำนวนที่คาดหวังในแถวที่ 1 หลักที่ 3 )
| ค่าระว่างสองตัวแปร 1 และ ตัวแปร 2 ที่คาดหวัง (r=row, c=column) |
c รวม | |||
|---|---|---|---|---|
| c1 | c2 | c3 | ||
| r1 | E1,1 = (nr=1 * nc=1) / n | E1,2 = (nr=1 * nc=2) / n | E1,3 = (nr=1 * nc=3) / n | nr=1 |
| r2 | E2,1 = (nr=2 * nc=1) / n | E2,2 = (nr=2 * nc=2) / n | E2,3 = (nr=2 * nc=3) / n | nr=2 |
| r รวม | nc=1 | nc=2 | nc=3 | n |
- ทำการคำนวณค่า Chi-Square จากสูตร
χ2 = Σ [ (Or,c - Er,c)2 / Er,c ]
- คำนวณหาค่า p-value จากค่า χ2 และ df ที่ได้ จากสูตร excel = CHIDIST(χ2,df )
แล้วนำไปเปรียบเทียบกับค่า α แล้วดูว่าจะ Accept H0 ( p-value >α) หรือ Reject H0 ( p-value <α)
เมื่อรู้หลักการแล้วเรามาดูตัวอย่างกันครับ
Hypothesis Testing การทดสอบสมมติฐาน
Hypothesis Testing หรือการทดสอบสมมติฐาน คือกระบวนการที่เราใช้ข้อมูลจาก Sample มาตัดสินเกี่ยวกับ Population โดยจะตัดสินเลือกสมมติฐานที่มีข้อมูลสนับสนุน
เราจะตั้งสมมติฐาน 2 อัน คือ
- Null Hypothesis, H0 : เป็นแนวความคิดเดิมที่มีปัจจุบัน (มักจะมีเครื่องหมาย = อยู่)
- Alternative Hypothesis, Ha: แนวความคิดใหม่ที่เราต้องการทดสอบ (มักจะมีเครื่องหมาย <, >, หรือ ≠ ซึ่งจะต้องตรงข้ามกับ H0)
ตัวอย่างเช่น บริษัทแห่งหนึ่งผลิตน้ำส้มซึ่งในขวดควรจะมีปริมาตร 250 cc ทางผู้จัดการเกิดความสงสัยว่าน้ำส้มในขวดอาจมีการใส่น้อยกว่าความเป็นจริง จึงมีสมมติฐานดังนี้ (เราจะตั้งให้ไม่มีส่วนที่ซ้ำกัน)
- H0 : µ >= 250 cc (ที่เป็นอยู่เดิม)
- Ha: µ < 250 cc (ที่กำลังอยากจะทดสอบ)
ที่นี้เราจะรู้ได้ยังไงว่าสมมติฐานอันไหนที่เป็นความจริง?
หลักการคิดก็คือ
- ให้เราคิดไว้ก่อนว่า Null Hypothesis (H0) นั้นถูกต้อง
- ถ้าหากข้อมูลที่สุ่มออกมาเป็นสิ่งที่ไม่น่าจะเกิดขึ้น แสดงว่า H0 ไม่จริง ดังนั้นเราก็จะหันมาสนับสนุน Ha แทน
แล้วเราจะดูยังไงว่าข้อมูลนั้นเป็นสิ่งที่ไม่น่าจะเกิดขึ้น?
วิธีคิดคือ ถ้าสมมติว่า H0 เป็นจริง ความน่าจะเป็นที่จะพบข้อมูลที่สำรวจได้ในปัจจุบันหรือข้อมูลที่ไปในทิศทางเดียวกับ Ha จะเป็นเท่าไหร่? ซึ่งเราจะเรียกความน่าจะเป็นนี้ว่า p-value ( แปลว่า เป็นไปได้แค่ไหน ถ้าหากว่า H0 จริง แล้วจะเกิดเหตุการณ์แบบที่เรากำลังเจออยู่ขึ้น)
ค่า p-value ที่น้อย แปลว่า โอกาสที่จะเกิดเหตุการณ์แบบที่กำลังพบอยู่นั้นน้อยมากๆ ดังนั้นเราก็จะมีหลักฐานไปแย้ง Null Hypothesis ได้
อย่างไรก็ตาม เราอาจจะสรุปผิดได้ เช่น เราดันไปแย้ง H0 ทั้งๆ ที่จริงแล้ว H0 มันถูกต้องอยู่แล้ว ซึ่งความคิดพลาดนี้เราจะเรียกว่า Type I error หรือค่า α ตามตางรางข้างล่าง





