Knowledge Sharing by Sira Ekabut ทบทวน MBA / ความคิดสร้างสรรค์ / ค้นหาตัวเอง

18Dec/110

มีการปรับเนื้อหาเรื่อง Discrete Distribution เล็กน้อยนะครับ

หัวข้อ         : Statistics
ป้ายกำกับ   : , ,

ผมมีการปรับเนื้อหาเรื่อง Discrete Distribution เล็กน้อยนะครับ อันเดิมผมใส่เนื้อหาน้อยไป ทำให้สับสน อันใหม่นี้น่าจะเข้าใจมากขึ้น

http://www.siraekabut.com/2010/01/probability-in-statistics/

21Nov/100

TED Talks ในดวงใจ

หัวข้อ         : Idea / Creativity, Math, Others, Statistics, หลักธรรมมะ
ป้ายกำกับ   : , , , , ,

ในแต่ละปี นักคิดและนักปฏิบัติระดับโลกจะรวมตัวกันในงานประชุมแห่งหนึ่ง มันเป็นงานสัมมนาซึ่งไม่มีงานไหนในโลกที่เสมอเหมือน งานนั้นเรียกว่า TED...

TED คืออะไร

TED คือองค์กรไม่แสวงหาผลกำไรซึ่งมีภารกิจคือ "การเผยแพร่ไอเดีย" ดัง Slogan ที่ว่า Ideas Worth Spreading

มันได้เริ่มต้นขึ้นในปี 1984 ในรูปแบบของงานประชุมที่รวบรวมคนมาจาก 3 โลก นั่นคือ โลก Technology, Entertainment, Design และจากนั้นเป็นต้นมา ขอบเขตของมันก็กว้างขึ้นไปอีกมากมายนัก

ซึ่งในเว็บไซต์ TED.com ก็ได้มีการรวบรวมการบรรยายและการแสดงเจ๋งๆ เอาไว้ให้คนทั้งโลกดูได้ฟรีๆ พูดไปก็คงไม่เห็นภาพ มาดูตัวอย่างกันเลยดีกว่าครับ

TED Talks ในดวงใจ

วันนี้ผมจะขอรวบรวมเอาบรรยายเจ๋งๆ ที่ผมชื่นชอบมาลองให้ดูกันครับ (ไว้จะมาเพิ่มเรื่อยๆ ส่วนใหญ่จะอยู่ในนี้ )

บางอันอาจจะดูเพี้ยนๆ แต่ผมว่าแนวความคิดของทุกคนนั้นน่าทึ่งมากๆ ครับ

Tips : ใน Video หลายๆ อัน เราสามารถเลือก Subtitle ได้นะครับ (บางอันอาจมี Sub Thai, แต่ผมเชื่อว่า Sub English ก็พอเพียงแล้วครับ)

Sir Ken Robinson: Bring on the learning revolution!

ปัจจุบันนอกจากจะมีวิกฤติการณ์โลกร้อนแล้ว ยังมีวิกฤติเรื่องการใช้พรสวรรค์ของทรัพยากรมนุษย์อีกด้วย !! คนคนนี้คิดเช่นเดียวกับที่ผมคิดเลย (ถ้าจะให้ถูก ผมคิดเหมือนเค้าเลย)

David Gallo shows underwater astonishments

น่าทึ่งจริงๆ กับโลกใต้ทะเลลึกที่น้อยคนจะได้เห็น

Stephen Wolfram: Computing a theory of everything

ใครได้ดู Video อันนี้คงรู้สึกได้ในความเชื่อมั่นที่มีต่อการคำนวณของเขา ซึ่งเชื่อแม้กระทั่งว่า จะพยายามหาวิธีคำนวณความเป็นไปของจักรวาลให้ได้!!

Denis Dutton: A Darwinian theory of beauty

ความสวยงามนั้นขึ้นอยู่กับผู้มองจริงหรือ? คนคนนี้คิดว่าไม่ เพราะเขาเชื่อว่ามันเชื่อมโยงกับทฤษฎีของ Charles Darwin ต่างหาก

Hans Rosling shows the best stats you've ever seen

การอธิบายเรื่องของสถิติในระดับโลกที่ซับซ้อนนั่นเป็นเรื่องที่ยากมาก แต่เขาคนนี้ใช้วิธีอธิบายได้น่าสนใจมากๆ

Arthur Benjamin does "Mathemagic"

พูดได้คำเดียวว่า "ทึ่งสุดๆ" กับ เลขมายากล

นอกจาก Video นี้แล้ว ยังมีอีกอันนึงที่ Arthur Benjamin แนะนำว่า การศึกษาด้านคณิตศาสตร์ในปัจจุบันที่มุ่งเนั้นจุดสูงสุดไปที่ Calculus นั้นไม่เหมาะสม เพราะสิ่งที่มีประโยชน์มากกว่าก็คือ การมุ่งเนั้นไปที่ Probability และ Statistics ครับ http://www.ted.com/talks/arthur_benjamin_s_formula_for_changing_math_education.html

Jane McGonigal: Gaming can make a better world

จะดีแค่ไหน ถ้า Gamer ใช้ความมุ่งมั่นและทัศนคติอันแสนพิเศษอย่างที่เค้าใช้เวลาเล่นเกมส์ มาใช้แก้ปัญหากับโลกแห่งความจริงได้

Conrad Wolfram: Teaching kids real math with computers

Math ≠ Calculation แล้วทำไมวิชาเลข เราถึงถูกสอนแต่เรื่อง Calculation ทั้งๆ ที่คอมพิวเตอร์ทำเก่งกว่าเราเยอะ?? เราสอนเลขกันแบบผิดๆ มาตลอด มาดูกันว่าใน Video นี้เค้าจะว่ายังไงบ้างครับ

Pattie Maes and Pranav Mistry demo SixthSense

สุดยอดเทคโนโลยี เหมือนในหนังบางเรื่องเลยล่ะ!!

3Oct/105

สรุปทฤษฎีความน่าจะเป็น Probability Theory

หัวข้อ         : Math, Statistics
ป้ายกำกับ   : , , , , , , , , , ,

หลังจากที่ผมเคย Post บทความเรื่องที่เกี่ยวข้องกับความน่าจะเป็นไปหลายเรื่องพอสมควร โดยเฉพาะวิชาสถิติ ผมพบว่ามีความจำเป็นอย่างยิ่งที่จะต้องปูพื้นฐานเรื่องความน่าจะเป็นให้มากขึ้น ดังนั้น วันนี้ผมจะขอพูดเรื่องความน่าจะเป็นล้วนๆ เลยครับ ซึ่งเนื้อหาส่วนใหญ่ในนี้ ผมสรุปมาจากหนังสือ Statistics in a Nutshell: A Desktop Quick Reference In a Nutshell ของค่าย O'Reilly ครับ

นิยามของคำที่เกี่ยวข้อง

  • Trial = การทดลอง หรือ การสังเกตการณ์ ซึ่งมักจะเป็นเหตุการณ์ที่เราไม่รู้แน่ชัดถึงผลลัพธ์  เช่น Trial คือการโยนเหรียญ การทอยลูกเต๋า การการดึงไพ่ เป็นต้น ซึ่งความน่าจะเป็นนั้นจะให้ความสนใจถึงผลลัพธ์ของ Trial นั้นๆ
  • Sample Space (S) = ผลลัพธ์ทั้งหมดที่เป็นไปได้ของ Trail เช่น ถ้า Trial เป็นการโยนเหรียญ 1 ครั้ง S ={h,t} นั่นคือหน้าของเหรียญที่เป็นไปได้ 2 แบบ h=หัว, t= ก้อย  หรือถ้า Trail เป็นการโยนเหรียญ 2 ครั้ง S = {(h, h), (h, t), (t, h), (t, t)} ซึ่งจะมีทั้งหมด 4 แบบ
  • Events (E) = เหตุการณ์ใน Sample Space ที่เราสนใจ เช่น เหตุการณ์ที่เหรียญออกหัวอย่างน้อย 1 ครั้ง ในการโยนเหรียญ 2 ครั้ง คือ E={(h, h), (h, t), (t, h)} ซึ่งเป็นไปได้ 3 แบบ
  • Union = การรวมเหตุการณ์หลายๆ อันเข้าด้วยกัน เช่น E U F คือ เหตุการณ์ E หรือ F หรือ ทั้ง 2 อย่างเกิดขึ้น
  • Intersection = เหตุการณ์ที่ซ้ำกัน E ∩ F คือ เหตุการณ์ที่ต้องเกิดทั้งเหตการณ์ E และ F
  • Complement = ~E  คือ เหตการณ์ที่ไม่ใช่เหตการณ์ E
  • Mutually Exclusive หมายถึง เหตุการณ์ ทั้งสองไม่มีทางเกิดพร้อมกัน
  • Independence คือ ผลลัพธ์ของเหตุการณ์หนึ่งไม่มีความเกี่ยวข้องกับอีกเหตุการณ์หนึ่ง (ไม่สามารถทำนายผลลัพธ์ของเหตุการณ์หนึ่งจากอีกอันหนึ่งได้)
  • Counting Theory กฎการนับ การที่จะคำนวณความน่าจะเป็นได้ เราจะต้องนับ Event และ Sample Space ให้ถูกต้องเสียก่อน ซึ่งมีวิธีช่วยในการนับดังนี้ครับ
    • กฏพื้นฐาน คือ ถ้าทำงานอย่างหนึ่งให้เสร็จ ประกอบด้วย k ขั้นตอน
      ขั้นตอนที่ 1 มีวิธีเลือก n1 วิธี
      ขั้นตอนที่ 2 มีวิธีเลือก n2 วิธี
      . . .
      ขั้นตอนที่ k มีวิธีเลือก nk วิธี
      จะได้ว่า จำนวนวิธีทั้งหมดที่เลือกทำงานนี้ เท่ากับ n1 x n2 x n3 . . .x nk วิธี

      เช่น ถ้ามีเสื้อ 4 แบบ กางเกง 2 แบบ จะแต่งตัวได้กี่แบบ = ใส่เสื้อ ได้ 4 แบบ x ใส่กางเกงได้ 2 แบบ = 8 วิธี

    • Permutation คือ วิธีทั้งหมดในการจัดเรียงสมาชิกในเซ็ต โดยที่ลำดับมีความสำคัญ เช่น ในเซ็ตมี (a, b, c) เราสามารถจับมาเรียงได้ทั้งหมดโดยไม่ซ้ำกันได้ดังนี้ (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a) = 6 แบบซึ่งเราจะใช้ Factorial ในการคำนวนโดยที่ n! อ่านว่า "n แฟคตอเรียล" หมายถึง เอาตัวมันเองคูณด้วยตัวมันเองลบ 1 ไปเรื่อยๆ จนถึง 1   เช่น 3! = 3 x 2 x 1 = 6 แบบ เป็นต้นการที่มีของอยู่ n สิ่ง แต่เลือกมาจักเรียงแค่ k สิ่ง เราจะได้ว่า มี Permutation ทั้งหมด = nPk = n! / (n-k)! แบบเช่น มีของกิน 5 อย่าง เลือกกิน 2 อย่าง จะเลือกได้กี่แบบ โดยที่ลำดับมีความสำคัญ
      จะได้ว่า 5P2 = 5!/(5-2)! = 5!/3! = 5x4 = 20 แบบ

      ถ้ามองด้วยกฎการนับ ตอนแรกมีของ 5 อย่างให้เลือก คือ 5วิธี เมื่อเลือกไปแล้ว 1 อย่าง ทำให้เหลือให้เลือกในขั้นตอนต่อไปเพียง 4 วิธี ทำให้เป็น 5 x 4 = 20 แบบ นั่นเอง

    • Combination นั้นจะเหมือนกับ Permutation แต่ว่าการเรียงลำดับไม่มีความหมาย ดังนั้น จำนวนวิธีในการจัดเรียงจึงต้องน้อยกว่า Permutation แน่นอน ทำให้ต้องหาร Permutation ทั้งด้วย k! จึงได้ว่า  nCk = nPk / k! = n! / (n-k)!k!  นั่นเองเช่น ถ้าในตัวอย่างที่แล้วลำดับไม่สำคัญ เราจะได้ว่า 5C2 = 5!/(5-2)!2! = 10 แบบ
  • Probability คือ ความน่าจะเป็นที่สิ่งที่เราสนใจจะเกิดขึ้น คำนวนได้จาก

    ความน่าจะเป็นของเหตุการณ์ E ซึ่งเขียนได้ว่า  P(E) = จำนวน Event E / จำนวน Sample Space = E/S
    มีค่าตั้งแต่ 0 (ไม่มีทางเกิดขึ้น) ถึง 1 (เกิดขึ้นแน่นอน) หรือจะเป็น 0% - 100% ก็ได้ (เพราะ % คือหาร 100)

    • P(E) = 0.4 แปลว่า ความน่าจะเป็นของเหตุการณ์ E คือ 40%
    • P(E) + P(~E) = P(S) = 1 เสมอ
  • Conditional Probability บ่อยครั้งที่เราต้องการจะรู้ความน่าจะเป็นของเหตุการณ์หนึ่ง เมื่ออีกเหตุการณ์หนึ่งได้เกิดขึ้น เราจะเขียนว่า P(E|F) อ่านว่า "Probability of E given F" คือ ความน่าจะเป็นของเหตุการณ์ E เมื่อเหตุการณ์ F ได้เกิดขึ้นแล้วแต่ว่า ถ้าหาก E และ F มีความไม่ขึ้นต่อกัน ( independent ) เราจะได้ว่า P(E|F) = P(E) ซึ่งตีความได้ว่า ไม่ว่า F จะเกิดขึ้น ความน่าจะเป็นของ P(E) ก็ยังเหมือนเดิมนั่นเอง

การคำนวน Union ของ 2 เหตุการณ์

  • กรณี Mutually Exclusive : P (E U F) = P(E) + P(F)
  • กรณี Not Mutually Exclusive : P (E U F) = P(E) + P(F) - P(E ∩ F)
    เพราะ E และ F มีส่วนซ้ำกัน ทำให้เรานับเบิ้ล น้องเอาส่วนที่ซ้ำกันออกไป 1 ที นั่นเอง
    ซึ่งจะเห็นว่า ถ้าเป็น Mutually Exclusive แล้ว   P(E ∩ F) จะเท่ากับ 0 ทำให้ได้สูตรข้างบนนั่นเอง

การคำนวน Intersection ของ 2 เหตุการณ์

  • กรณี Independent : P(E ∩ F) = P(E) × P(F)
    • เช่น หาความน่าจะเป็นของการโยนเหรียญ 2 ครั้งแล้วออกหัวทั้ง 2 ครั้ง จะได้ว่า
      P(E) = ความน่าจะเป็นของการโยนเหรียญครั้งแรกแล้วออกหัว = 0.5
      P(F) = ความน่าจะเป็นของการโยนเหรียญครั้งสองแล้วออกหัว = 0.5
      P(E ∩ F) = ความจ่าจะเป็นที่ครั้งแรกและครั้งที่สองออกหัว = P(E) × P(F) = 0.5 x 0.5 = 0.25
  • กรณี Nonindependent : P(E ∩ F) = P(E) × P(F|E) หรือ = P(F ∩ E) = P(F) × P(E|F) เพราะสลับที่กันได้
    • เช่น หาความน่าจะเป็นที่จะจั่วไพ่ได้สีดำ 2 ครั้งติดกัน ถ้าไม่ได้ใส่ไพ่คืน (การจั่วครั้งแรกมีผลต่อครั้งที่สองแน่นอน) จะได้ว่า
      P(E) = ความน่าจะเป็นของการจั่วไพ่ครั้งแรกได้สีดำ = 26/52 =0.5 (มีไพ่ดำ 26 ใบ จากไพ่ 52 ใบ)
      P(F|E) = ความน่าจะเป็นของการจั่วไพ่ครั้งสองได้สีดำ หลังจากจั่วไพ่ครั้งแรกได้สีดำ = 25/51 =0.49 (เหลือไพ่ดำ 25 ใบ จากไพ่ 51 ใบ เพราะดึงไพ่ดำไปแล้วใบนึง)
      P(E ∩ F) = ความน่าจะเป็นที่จะจั่วไพ่ได้สีดำ 2 ครั้งติดกัน = P(E) × P(F) = 0.5 x 0.49 = 0.245

Bayes's Theorem

เป็นทฤษฎีที่ใช้คำนวณหา Conditional Probability โดยที่

P(A | B) = P (A ∩ B) / P(B)

ซึ่ง P (A ∩ B) =  P(A) * P(B|A)
และ P(B) = P(A∩B) +P(~A∩B) = P(A)*P(B|A) + P(~A)*P(B|~A)

ลองพิจารณาจาก Venn Diagrams จะเข้าใจง่ายมาก ว่าทำไม P(A | B) = P (A ∩ B) / P(B)

ซึ่งจะทำให้รู้ได้อีกว่า P (A ∩ B) = P(A | B) * P(B) และเมื่อ P (A ∩ B) = P (B ∩ A)
ทำให้ได้ว่า P(A | B) * P(B) = P(B | A) * P(A) ไปด้วยนั่นเองครับ

นั่นคือ P(A | B) = P(B | A) * P(A) / P(B)

ตัวอย่างเรื่องความน่าจะเป็น

ในตัวอย่างหลายๆ อันในนี้จะมีการพูดถึงไพ่ โดยไพ่มาตรฐานจะมีลักษณะดังนี้ (คนที่เป็นเซียนไพ่คงรู้อยู่แล้ว )

  • ไพ่ 1 สำรับมี 52 ใบ
  • ประกอบด้วย 4 ชุด คือ ข้าวหลามตัด (diamonds), โพธิ์แดง (hearts), ดอกจิก (clubs) ,โพธิ์ดำ (spades) โดยที่ 2 ชุดแรกสีแดง, 2 ชุดหลังสีดำ
  • แต่ละชุดมีไพ่ 13 ใบ คือ เลข 2-10, และอีก 3 หน้า แจค (jack), แหม่ม (queen), คิง (king)

การคำนวนเรื่องความน่าจะเป็นมีขั้นตอนดังนี้

  1. กำหนด trail/experiment
  2. นิยาม sample space
  3. นิยาม event
  4. หาความน่าจะเป็น

คำถาม 1 :

ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ จงหาโอกาสที่จะได้ไพ่ที่เป็นหน้า J Q K และมีสีดำ?

  1. trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
  2. sample space = ไพ่ 52 ใบ ที่มีความน่าจะเป็นที่จะได้แต่ละใบเท่าๆ กัน
  3. event = ไพ่ J, Q, K ที่มีสีดำ (ดอกจิก ไม่ก็โพธิ์ดำ) จึงมีที่ตรงตามต้องการแค่ 6 ใบ
  4. probability = 6/52 = 0.115

หรือจะคำนวนอีกวิธีได้ว่า

เนื่องจากทั้งสองอัน independent กัน P(JQK ∩ ดำ) = P(JQK) x P(ดำ) = 12/52  x 26/52  = 0.115

คำถาม 2 :

ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ จงหาโอกาสที่จะได้ไพ่ที่เป็นหน้า J Q K หรือไพ่สีดำ?

  1. trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
  2. sample space = ไพ่ 52 ใบ ที่มีความน่าจะเป็นที่จะได้แต่ละใบเท่าๆ กัน
  3. event = ไพ่ J, Q, K 12 ใบ หรือ ไพ่ที่มีสีดำ 26 ใบ ก็ตรงตามต้องการ เนื่องจากทั้ง 2 การไม่ใช่ Mutually Exclusive ทำให้มีไพ่ 6 ใบที่ตรงกับทั้งคู่ คือ JQK ที่มีสีดำ ทำให้ต้องหักออก ทำให้เหลือไพ่ที่ตรงความต้องการ = 12+26-6 = 32 ใบ
  4. probability = 32/52 = 0.615

หรือจะคำนวนอีกวิธีได้ว่า

กัน P(JQK U | ดำ) = P(JQK) + P(ดำ) - P(JQK ∩ ดำ) = 12/52  +   26/52  -  6/52  = 0.615

คำถาม 3 :

ถ้าจั่วไพ่ออกมา 1 ใบจากสำรับ 52 ใบ แล้วเป็นสีดำ จงหาโอกาสที่มันจะเป็นไพ่ดอกจิก

  1. trial = การจั่วไพ่ 1 ใบจากสำรับ 52 ใบ
  2. sample space = ไพ่สีดำ 26 ใบ
  3. event = ได้ไพ่ดอกจิก
  4. probability = 13/26 = 0.5

หรือจะคำนวนอีกวิธีได้ว่า

P(ดอกจิก | ไพ่ดำ) = P(ดอกจิก และ ไพ่ดำ) / P(ไพ่ดำ) = P(ดอกจิก) / P(ไพ่ดำ) = 0.25 / 0.5 = 0.5

คำถาม 4 :

ถ้าลำดับไม่สำคัญ จะมีวิธีในการเลือกนักเรียน 5 คนจากนักเรียน 20 คนกี่แบบ

ถ้าลำดับไม่สำคัญ มันก็คือ Combination = 20C5  = 20! / (20-5)!5! = 15504 วิธี

คำถาม 5 :

ถ้ามีนักเรียนในห้อง 100 คน เป็นชาย 40 คน หญิง 60 คน  ชาย 20 คน ติด Facebook เช่นเดียวกับหญิง 45 คน ถ้าเราสุ่มคนมาหนึ่งคนปรากฏว่าคนนั้นติด Facebook จงหาความน่าจะเป็นที่คนนั้นจะเป็นผู้หญิง

  • P(ชาย) =P(~หญิง) = 40/100 = 0.4
  • P(หญิง) = 60/100 = 0.6
  • P(ติด Facebook | ชาย ) = P(ติด Facebook | ~หญิง ) = 20/40 = 0.5
  • P(ติด Facebook | หญิง ) = 45/60 = 0.75

P(หญิง|ติด Facebook ) = P(หญิง ∩ ติด Facebook) / P (ติด Facebook)

ซึ่ง P(หญิง ∩ ติด Facebook) = P(หญิง) * P(ติด Facebook | หญิง )=  0.6 x 0.75 = 0.45

และ P(ติด Facebook ) = P(หญิง)*P(ติด Facebook | หญิง ) +  P(~หญิง)*P(ติด Facebook | ~หญิง )
= 0.45 + (0.4*0.5) = 0.65

ดังนั้น P(หญิง|ติด Facebook ) = 0.45/0.65 = 0.69 นั่นเอง

หวังว่าเพื่อนๆ คงจะพอเห็นภาพรวมมากขึ้นนะครับ

12Jul/100

แนะนำเว็บ Khan Academy เว็บสอนหนังสือด้วย online video ที่เจ๋งมากๆ

หัวข้อ         : Economics, Math, Statistics, Website
ป้ายกำกับ   : , , , , , , , ,

วันนี้นั่งดู youtube แล้วไปเจอ video สอนเรื่อง probability อันนึงสอนได้ละเอียดดี เลยจิ้มไปดูรายละเอียด...

พบว่าเป็น video ที่ทำโดย Salman Khan (Sal) แห่ง Khan Academy ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่มี mission เจ๋งๆ นั่นคือ

การให้ความรู้ที่มีคุณภาพสูงแก่ทุกคนไม่ว่าจะอยู่ที่ใดบนโลก

อันนี้เป็น video แนะนำสถาบันครับ เจ๋งมาก เค้าเริ่มตั้งแต่สอน 1+1=2 ยันไปถึงความรู้ระดับมหาลัย !!

เนื้อหาที่เค้าสอนมีหลากหลายหัวข้อ ตั้งแต่คณิตศาสตร์ ฟิสิกส์ ไปจนถึงชีววิทยาเลยทีเดียว (แต่เป็นภาษาอังกฤษนะครับ แต่ฟังไปดูไปง่ายครับ)

จะเข้าไปดู video ที่เค้าสอนได้ยังไง?

คุณสามารถเข้าถึง video ของเค้าได้ 2 ทางคือ ทาง website และทาง youtube channel ซึ่ง Kal เค้าแนะนำว่า ใน website จะจัดระเบียบ video ไว้เข้าถึงง่ายกว่า แต่อาจจะ update ช้ากว่าของ youtube นิดหน่อยครับ

คนทำเรื่องดีๆ อย่างนี้ต้องสนับสนุน!! อย่าลืมส่งต่อให้เพื่อนๆ ได้รู้แหล่งเรียนรู้ดีๆ ด้วยนะครับ

12Jul/100

สรุปวิธีการเลือกใช้เครื่องมือทางสถิติ

หัวข้อ         : Statistics
ป้ายกำกับ   : , , , , , ,

หลังจากที่เรียนจบมานาน ก็อาจจะเกิดอาการลืมเลือนไปแล้วว่า ถ้าเกิดเราต้องการวิเคราะห์ข้อมูลที่เรามีอยู่ซักชุดนึงเนี่ย เราควรวิเคราะห์ด้วยวิธีไหนดี บทความนี้จะช่วยสรุปกรอบความคิดหลักๆ ไว้ให้เผื่ออ่านทบทวนครับ

ก่อนอื่นเราต้องรู้จักประเภทของข้อมูลเสียก่อน เราสามารถแบ่งข้องมูลออกเป็น 4 ประเภท ใหญ่ๆ นั่นคือ

  • Nominal (Categorical) = เป็นข้อมูลที่มีลักษณะเป็น ประเภท ที่ไม่มีความหมายเรื่องของการเรียงลำดับหรือการคำนวณใดๆ ทั้งสิ้น เช่น สี, ชื่อกลุ่ม, yes-no เป็นต้น
  • Ordinal = เป็นข้อมูลประเภทที่มีผลด้านการเรียงลำดับ แต่ไม่มีผลด้านการคำนวณ เช่น การจัดลำดับ หรือ การให้ Rating ความพึงพอใจ 1-5  ผลต่างระหว่าง Rating 5 กับ 3 และ 3 กับ 1 นั้นอาจจะไม่เท่ากันก็ได้ เราบอกได้แค่อะไรมากกว่าอะไรเท่านั้น
  • Interval = คือตัวแปรที่เกิดจากการวัดค่า เราเปรียบเทียบผลต่างของค่าได้ แต่เปรียบเทียบอัตราส่วนไม่ได้ เช่น ค่า pH 3 ไม่ได้มีกรดเป็น 2 เท่าของ pH6 และ ค่า 0 ของมันเป็นแค่จุดๆ หนึ่งใน Scale ซึ่ง 0 ไม่ได้แปลว่าไม่มีสิ่งนั้นอยู่ เช่น 0 องศา C ไม่ได้แปลว่าไม่มีอุณหภูมิ
  • Ratio = คือตัวแปรที่เกิดจากการวัดค่า โดยที่ผลต่างระหว่างค่า 2 อันมีค่าเท่ากัน และอัตราส่วนของมันยังมีความหมายด้วย และที่สำคัญคือ ค่า 0 ของมันมีความหมายแปลว่าไม่มีสิ่งนั้นอยู่ เช่น จำนวนคนในห้อง, น้ำหนัก และ องศา K ( 0 องศา K คือ absolute zero ไม่มีอุณหภูมิจริงๆ ) และน้ำหนัก 8 กิโล หนักเป็น 2 เท่าของ 4 กิโลจริง ในทางกลับกัน
สามารถคำนวณสิ่งต่อไปนี้ได้หรือไม่... Nominal Ordinal Interval Ratio
frequency distribution (การแจกแจงความถี่)
Yes Yes Yes Yes
median and percentiles
No Yes Yes Yes
add or subtract (บวก ลบ) No No Yes Yes
mean, standard deviation, standard error of the mean (ค่าเฉลี่ย, เบี่ยงเบนมาตรฐาน)
No No Yes Yes
ratio, or coefficient of variation (การหาอัตราส่วน, สัมประสิทธิ์ความแปรปรวน)
No No No Yes
เอามาจาก http://www.graphpad.com/faq/viewfaq.cfm?faq=1089

หมายเหตุ บางทีเราก็จะจัดกลุ่ม Interval กับ Ratio ให้อยู่ด้วยกันแล้วเรียกรวมๆว่า Measurement ไม่ก็ Interval ก็มีครับ

พอเรารู้จักประเภทข้อมูลแล้ว เราก็มาดูเครื่องมือที่ให้เราเลือกใช้กันต่อไปครับ

(ตัวสีส้มคือสิ่งที่เรียนใน MBA ครับ)

Goal

Measurement (Interval/Ratio) จาก Normal Population)

Rank, Score, or Measurement
(จาก Non- Normal Population)

Binomial
(ผลลัพท์เป็นไปได้ 2 อย่าง เช่น การวัด Proportion)

Describe one group

บรรยายข้อมูล
1 กลุ่ม

Mean, SD

Median

Interquartile range (IQR)

Proportion

Compare one group to a hypothetical value

(Hypothesis testing)
เปรียบเทียบข้อมูล 1 กลุ่มกับค่าสมมติฐาน

One-sample t test

Wilcoxon test

Chi-square

Binomial test **

Compare two unpaired groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่ม2กลุ่มที่ข้อมูลไม่มีการจับคู่กัน
(
Independent กัน)

Unpaired t test (student's t-test)

Mann-Whitney test

Fisher's Exact test

Chi-square (for large samples)

Compare two paired groups

(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่ม2กลุ่มที่ข้อมูลมีการจับคู่กัน

Paired t test

Wilcoxon test

McNemar's test

Compare three or more unmatched groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่มหลายกลุ่มที่ข้อมูลไม่มีการจับคู่กัน (Independent กัน)

One-way ANOVA (F-test)

Kruskal-Wallis test

Chi-square test

Compare three or more matched groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่มหลายกลุ่มที่ข้อมูลมีการจับคู่กัน

Repeated-measures ANOVA

Friedman test

Cochrane Q**

Quantify association between two variables

วัดระดับของความเกี่ยวข้องกันของตัวแปร
2 ตัว

Pearson correlation

Spearman correlation

Contingency coefficients**

Predict value from another measured variable


คาดคะเนค่าหนึ่งจากอีกตัวแปรหนึ่ง

Simple linear regression

or

Nonlinear regression

Nonparametric regression**

Simple logistic regression*

Predict value from several measured or binomial variables

คาดคะเนค่าหนึ่งจากตัวแปรหลายๆ ตัว

Multiple linear regression*

or

Multiple nonlinear regression**

Multiple logistic regression*

ดัดแปลงมาจาก http://www.graphpad.com/www/Book/Choose.htm

นอกจากตารางนี้ ยังมีเว็บที่น่าสนใจอีกหลายอันที่บอกวิธีเลือกครับ เช่น

  • http://bama.ua.edu/~jleeper/627/choosestat.html
  • http://www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm
  • http://www.microsiris.com/Statistical%20Decision%20Tree/

การใช้เครื่องมือทดสอบ Hypothesis...

10Feb/101

Chi-Square Test of Independence

หัวข้อ         : Statistics
ป้ายกำกับ   : , ,

Chi-Square Test เป็นการทดสอบทางสถิติซึ่งใช้กับข้อมูลประเภท Qualitative (เป็นกลุ่ม เป็นประเภท) โดยมีอยู่ 2 ลักษณะ คือ

  1. Chi-Square Test of Independence (Association) เอาไว้หาว่าตัวแปรหลายๆตัวจากข้อมูลกล่มเดียวกันมีความเกี่ยวข้องกันหรือไม่ (ที่ว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะครับ)
  2. Chi-Square Test of Similarity/Homogenity เอาไว้ใช้เปรียบเทียบ Distribution ของข้อมูลหลายๆ กลุ่มว่าเหมือนกันหรือไม่

ผมจะขอพูดเรื่องเดียวคือการวิเคราะห์ Chi-Square Test of Independence นะครับ

ขั้นตอนการวิเคราะห์ Chi-Square Test of Independence

1. สร้างตารางแสดงค่าระว่างสองตัวแปรที่สำรวจมา
(Observed Frequencies ในรูปแบบ O r,c  เช่น  O1,3 แปลว่า ผลการสำรวจในแถวที่ 1 หลักที่ 3 )

ค่าระว่างสองตัวแปร 1  และ ตัวแปร 2 ที่สำรวจมา
(r=row, c=column)
c รวม
c1 c2 c3
r1 O1,1 O1,2 O1,3 nr=1
r2 O2,1 O2,2 O2,3 nr=2
r รวม nc=1 nc=2 nc=3 n

2. ตั้งสมมติฐาน

Ho:  ตัวแปร 1 และ  ตัวแปร 2 ไม่เกี่ยวข้องต่อกัน (ไม่สามารถคาดการณ์ตัวแปรนึงจากอีกตัวได้)
Ha:  ตัวแปร 1 และ  ตัวแปร 2 มีความเกี่ยวข้องต่อกัน (นั่นคือ ถ้ารู้ว่าตัวนึงมาก เราสามารถรู้ได้ว่าอีกตัวนึงจะมากหรือจะน้อย)

** อย่าลืมว่า คำว่าเกี่ยวข้องนี้ไม่ได้หมายความว่าตัวแปรนึงเป็นสาเหตุให้เกิดอีกอันนึงนะ ครับ

3. ตั้งหลักเกณฑ์การวิเคราะห์ เช่น ระดับนัยสำคัญที่จะใช้

เช่น ตั้งระดับนัยสำคัญที่ ที่ α = 0.05 และจะใช้วิธี Chi-Square Test of Independence ในการคิด

4. ทำการวิเคราะห์ Sample

เราต้องหาค่าดังต่อไปนี้ เพื่อจะค่า p-value

- Degree of Freedom (DF) = (r - 1) * (c - 1)

โดยที่ r = จำนวนประเภทของตัวแปรที่หนึ่ง, c คือจำนวนประเภทของตัวแปรที่ 2

- Expected Frequencies = คือจำนวนนับที่น่าจะเป็น (ในกรณีที H0 เป็นจริง)

จากสูตร Er,c = (nr * nc) / n

โดยที่

  • Er,c = Expected Frequencies ของแถว r หลัก c (ซึ่งเมื่อคำนวณแล้วไม่ควรได้ค่าน้อยกว่า 5)
  • nr = ผลรวมของแถว r
  • nc = ผลรวมของหลัก c

จะได้ว่า (Expected Frequencies ในรูปแบบ E r,c  เช่น  E1,3 แปลว่า จำนวนที่คาดหวังในแถวที่ 1 หลักที่ 3 )

ค่าระว่างสองตัวแปร 1 และ ตัวแปร 2 ที่คาดหวัง
(r=row, c=column)
c รวม
c1 c2 c3
r1 E1,1 = (nr=1 * nc=1) / n E1,2 = (nr=1 * nc=2) / n E1,3 = (nr=1 * nc=3) / n nr=1
r2 E2,1 = (nr=2 * nc=1) / n E2,2 = (nr=2 * nc=2) / n E2,3 = (nr=2 * nc=3) / n nr=2
r รวม nc=1 nc=2 nc=3 n

- ทำการคำนวณค่า Chi-Square จากสูตร

χ2 = Σ [ (Or,c - Er,c)2 / Er,c ]

- คำนวณหาค่า p-value จากค่า χ2 และ df ที่ได้ จากสูตร excel  = CHIDIST(χ2,df )
แล้วนำไปเปรียบเทียบกับค่า α แล้วดูว่าจะ Accept H0 ( p-value >α)  หรือ Reject H0 ( p-value <α)

เมื่อรู้หลักการแล้วเรามาดูตัวอย่างกันครับ

4Feb/100

Hypothesis Testing การทดสอบสมมติฐาน

หัวข้อ         : Statistics
ป้ายกำกับ   : , ,

Hypothesis Testing หรือการทดสอบสมมติฐาน คือกระบวนการที่เราใช้ข้อมูลจาก Sample มาตัดสินเกี่ยวกับ Population โดยจะตัดสินเลือกสมมติฐานที่มีข้อมูลสนับสนุน

เราจะตั้งสมมติฐาน 2 อัน คือ

  • Null Hypothesis, H0 : เป็นแนวความคิดเดิมที่มีปัจจุบัน (มักจะมีเครื่องหมาย = อยู่)
  • Alternative Hypothesis, Ha: แนวความคิดใหม่ที่เราต้องการทดสอบ (มักจะมีเครื่องหมาย <, >, หรือ ≠ ซึ่งจะต้องตรงข้ามกับ H0)

ตัวอย่างเช่น บริษัทแห่งหนึ่งผลิตน้ำส้มซึ่งในขวดควรจะมีปริมาตร 250 cc ทางผู้จัดการเกิดความสงสัยว่าน้ำส้มในขวดอาจมีการใส่น้อยกว่าความเป็นจริง จึงมีสมมติฐานดังนี้ (เราจะตั้งให้ไม่มีส่วนที่ซ้ำกัน)

  • H0 : µ >= 250 cc (ที่เป็นอยู่เดิม)
  • Ha: µ < 250 cc (ที่กำลังอยากจะทดสอบ)

ที่นี้เราจะรู้ได้ยังไงว่าสมมติฐานอันไหนที่เป็นความจริง?

หลักการคิดก็คือ

  1. ให้เราคิดไว้ก่อนว่า Null Hypothesis (H0) นั้นถูกต้อง
  2. ถ้าหากข้อมูลที่สุ่มออกมาเป็นสิ่งที่ไม่น่าจะเกิดขึ้น แสดงว่า H0 ไม่จริง ดังนั้นเราก็จะหันมาสนับสนุน Ha แทน

แล้วเราจะดูยังไงว่าข้อมูลนั้นเป็นสิ่งที่ไม่น่าจะเกิดขึ้น?

วิธีคิดคือ ถ้าสมมติว่า H0 เป็นจริง ความน่าจะเป็นที่จะพบข้อมูลที่สำรวจได้ในปัจจุบันหรือข้อมูลที่ไปในทิศทางเดียวกับ Ha จะเป็นเท่าไหร่? ซึ่งเราจะเรียกความน่าจะเป็นนี้ว่า p-value ( แปลว่า เป็นไปได้แค่ไหน ถ้าหากว่า H0 จริง แล้วจะเกิดเหตุการณ์แบบที่เรากำลังเจออยู่ขึ้น)

ค่า p-value ที่น้อย แปลว่า โอกาสที่จะเกิดเหตุการณ์แบบที่กำลังพบอยู่นั้นน้อยมากๆ ดังนั้นเราก็จะมีหลักฐานไปแย้ง Null Hypothesis ได้

อย่างไรก็ตาม เราอาจจะสรุปผิดได้ เช่น เราดันไปแย้ง H0 ทั้งๆ ที่จริงแล้ว H0 มันถูกต้องอยู่แล้ว ซึ่งความคิดพลาดนี้เราจะเรียกว่า Type I error หรือค่า α ตามตางรางข้างล่าง

Page 1 of 212