ในการเรียนเรื่องการสุ่มตัวอย่างนั้น เราควรทำความรู้จักศัพท์เหล่านี้ก่อนครับ

  • Population = ประชากรทั้งหมดที่เราสนใจ ==> สุ่มตัวอย่างออกมา เราเรียกว่า Sample
  • Parameter = ค่าทางสถิติของประชากร  (เช่น µ, σ)   vs   Statistic = ค่าทางสถิติของ Sample (เช่น xบาร์, s)

ตัวอย่างเช่น ถ้าผมต้องการทำการสำรวจส่วนสูงของเพื่อนของผมในคณะเดียวกัน แต่ผมเลือกสุ่มมาจำนวน 100 คนแล้วหาค่าเฉลี่ยของส่วนสูง ได้ 165 cm

  • Population คือ เพื่อนของผมในคณะเดียวกันทั้งหมด
  • Sample คือ เพื่อนที่ผมสุ่มมา 100 คน
  • Parameter = เช่น ค่าเฉลี่ยของส่วนสูงของเพื่อนของผมในคณะเดียวกันทั้งหมด ( µ = ไม่รู้)
  • Statistic = เช่น ค่าเฉลี่ยของส่วนสูงของเพื่อนที่ผมสุ่มมา 100 คน = xบาร์ = ได้ 165 cm

คำถามคือแล้วไอ้ 165cm ที่ผมได้นั้นมันจะใกล้เคียงกับค่า µ แค่ไหน?? และถ้าสุ่มมา 100 คนอีกที จะเฉลี่ยได้เท่าเดิมหรือไม่?? (แน่นอนว่าไม่) และไอ้เจ้า Mean (xบาร์) ของตัวอย่างที่สุ่มมาก็ดูจะไม่ค่อยมีความแน่นอนด้วย แล้วเราจะคิดยังไงต่อไปดีล่ะ?

โชคดีที่มันมีทฤษฎีที่ช่วยเราตอบได้ครับ ทฤษฎีนี้ชื่อว่า Central Limit Theorem (CLT)

ทฤษฎีนี้บอกว่า ถ้าเราสุ่มตัวอย่างจาก Population (ที่มี distribution แบบไหนก็ได้) ที่มีค่า Mean = µ และมีค่า Standard deviation = σ แล้วล่ะก็

เมื่อมีการสุ่มตัวอย่าง sample size ที่ใหญ่มากพอ (จะให้ดี n ต้อง ≥ 30) การแจกแจงความน่าจะเป็นของ xบาร์ของตัวอย่าง (ไม่ใช่การแจกแจงของตัวอย่างนะครับ) ที่สุ่มมาจะเข้าใกล้ Normal Distribution ที่มี Mean = µ และ Standard deviation = σ / √ n  อย่างไรก็ตามถ้า Population มี Distribution แบบ Normal อยู่แล้ว เราจะสุ่ม Sample น้อยๆก็ยังจะได้ออกมาเป็น Normal อยู่ดีครับ

นั่นคือ

xบาร์ ~ N (µ, σ / √ n )
โดยที่ค่า Standard deviation ของ sample  (σ / √ n) เราเรียกอีกชื่อว่า Standard Error of Estimates หรือ  SE (estimate)

ถ้าแปลงเป็น standard normal จะได้ว่า

z = (xบาร์ – µ) / (σ / √ n) ~ N (0,1)

 

แต่ถ้าหากเรายังไม่รู้ standard deviation ของ population อีกจะทำยังไงดี?

คำตอบก็คือ ให้เราสามารถแทน σ ด้วย s (standard deviation ของ sample) ได้เลย เพียงแต่มันจะเปลี่ยน distribution เป็น t-distribution ที่มี degree of freedom = n-1 แทน (จำนวน sample size -1)

นั่นคือ จาก (xบาร์ – µ) / (σ / √ n) ~ N (0,1)  จะกลายเป็น

(xบาร์ – µ) / (s / √ n) ~ t (df=n-1)

ดังนั้น SE (estimate) ของ t-distribution จะเป็น s / √ n แทน

ลักษณะของ t distribution นั้น ก็จะมีลักษณะสมมาตร ที่ mean =0 เช่นกัน

การใช้ t-distribution นั้นมีประโยชน์ตรงที่เราไม่จำเป็นต้องรู้ standard deviation ของ population ก็ได้ และยังสามารถใช้กับ sample size น้อยๆได้ด้วย เพียงแต่ว่า หาก sample มาจาก population ที่ไม่ได้เป็น normal ก็ควรจะมี sample size ≥ 30 จึงจะแม่นยำ

ที่นี้เรามาทำความรู้จักกับคำศัพท์คำสุดท้ายประจำเรื่องนี้กันครับ มันชื่อว่า Confidence Interval นั่นเอง

เนื่องจากเวลาเราสุ่ม sample ออกมาแล้วหาค่าทางสถิติ มันอาจจะไม่ตรงกับ Parameter จริงๆของ population ก็ได้ มันจึงควรมีการบอกว่า ค่าประมาณการของ Parameter จริงๆน่าจะเป็นเท่าไหร่ โดยจะต้องบอกด้วยว่ามีความแม่นยำแค่ไหน

โดยเราจะบอกว่า ด้วยระดับความมั่นใจ (Confidence Level) เท่านี้เปอร์เซ็นต์ ค่า Parameter จริงๆ ของ population น่าจะตกอยู่ในช่วงไหนถึงไหน (Confidence Interval)

สูตรทั่วๆไปของ Confidence Interval คือ

CI = estimate ± multiplier x SE (estimate)

  • ซึ่งค่า estimate ก็คือค่า mean ของ sample นั่นเอง
  • multiplier จะขึ้นอยู่กับ Confidence Level (ระดับความมั่นใจ) ยิ่งระดับมั่นใจมาก multiplier ก็จะยิ่งมาก (ทำให้กินช่วงกว้างขึ้น)
  • SE (estimate) ก็คือค่า (σ / √ n) ถ้ารู้ σ หรือ (s / √ n) ถ้าไม่รู้ σ

นั่นคือ CI สำหรับ µ = xบาร์  ±  t*   s/√ n

เพิ่มเติม

ที่พูดมาทั้งหมดจะเป็นกรณีการหาค่าที่เป็นค่าเฉลี่ยของข้อมูล นั่นคือจะเป็นค่า µ และ x บาร์

แต่ถ้าเรามีการเก็บข้อมูลที่มีลักษณะเป็นสัดส่วน (proportion – P) ซึ่งใช้กับข้อมูลเชิงคุณภาพ (Qualitative) เช่นการแบ่งกลุ่ม  เราก็ยังสามารถใช้ CLT มาประยุกต์ได้ครับ (ซึ่งข้อมูลที่เป็น Proportion นั้นมี Distribution ดั้งเดิม คือ Binomial Distribution ซึ่งมีค่าได้ 2 อย่างคือ Yes กับ No )

ตัวอย่างเช่น ถ้าผมต้องการทำการสำรวจสัดส่วนของผู้ชายของเพื่อนของผมในคณะเดียวกัน แต่ผมเลือกสุ่มมาจำนวน 100 คนแล้วหาได้ว่าเป็นชาย 45 คน

  • Population คือ เพื่อนของผมในคณะเดียวกันทั้งหมด
  • Sample คือ เพื่อนที่ผมสุ่มมา 100 คน
  • Parameter = เช่น สัดส่วนที่เป็นผู้ชายของเพื่อนของผมในคณะเดียวกันทั้งหมด ( P = ไม่รู้)
  • Statistic = เช่น สัดส่วนที่เป็นผู้ชายของเพื่อนที่ผมสุ่มมา 100 คน =เรียกว่า p = ได้ 45/100 = 0.45

จากเดิมบอกว่า CLT จะให้ดี sample size  n ต้อง ≥ 30 พอมาเป็น proportion แล้ว จะได้ว่า

np ต้อง ≥ 10 และ n(1-p) ก็ต้อง ≥ 10 ด้วย

จาก xบาร์ ~ N (µ, σ / √ n ) พอมาเป็น proportion จะได้ว่า

p ~ N (P, sqrt[ p * ( 1 – p ) / n ])   ได้ว่า  SEp จะเท่ากับ sqrt[ p * ( 1 – p ) / n ]
(สาเหตุเป็นเพราะ σ ของ Binomial Distribution คือ √ [p*(1-p)] นั่นเองครับ พอ σ/√ n เลยได้ sqrt[ p * ( 1 – p ) / n ] )

จาก  CI สำหรับ µ = xบาร์  ±  t*   s/√ n  พอมาเป็น proportion จะได้ว่า

CI สำหรับ P = p  ±  z*  sqrt[ p * ( 1 – p ) / n ]

ค่า z* ก็ขึ้นอยู่กับระดับความมั่นใจ เช่น ที่ความมั่นใจ 95% จะได้ค่า z = 1.96 ซึ่งสามารถหามาได้จากการเปิดตาราง Z โดยพื้นที่ทางด้านขวาของค่าเฉลี่ยจะเท่ากับครึ่งหนึ่งของทั้งหมด (95% /2) เท่ากับ 47.5% หรือ 0.475 ค่า Z หรือ ขอบทางด้านขวาของพื้นที่ 47.5% คือ 1.96 นั่นเอง

Tagged on:                 

Comments

  1. jane says:

    ขอบคุณมากค่ะ สำหรับข้อมูลดีๆ เกี่ยวกับการสุ่มตัวอย่างทางสถิติ มีประโยชน์มากค่ะ
    ถ้าจะให้ดี ขอข้อมูลเกี่ยวกับ Path Analysis ด้วยอ่ะค่ะ ขอบคุณอีกครั้งค่ะ

  2. Sira Ekabut says:

    พอดีผมไม่เคยศึกษาเรื่อง Path Analysis มาก่อนเลยครับ

    ไว้ถ้าผมอ่านแล้วจะลองมา post สรุปให้นะครับ ขอโทษด้วยนะครับ

  3. Tanawan says:

    ขอบคุณมากค่ะ นำไปใช้กับงานได้ดีเลย

  4. b says:

    ทำไม np กะ n(1-p) >=10 คะ
    ความจริงมัน >= 5 รึเปล่า??
    ไม่แน่ใจคะ

  5. Sira Ekabut says:

    จริงๆ แล้วแต่ตกลงครับ โดยเลขยิ่งมาก ข้อมูลจะยิ่งมีความน่าเชื่อถือ นั่นคือมีตัวอย่างเพียงพอที่จะนำค่า probability มาใช้ได้ ที่ผมผมเคยอ่านเค้าแนะนำว่าให้ >=10 ขึ้นไปจะดีกว่าอ่ะครับ