หลังจากที่เรียนจบมานาน ก็อาจจะเกิดอาการลืมเลือนไปแล้วว่า ถ้าเกิดเราต้องการวิเคราะห์ข้อมูลที่เรามีอยู่ซักชุดนึงเนี่ย เราควรวิเคราะห์ด้วยวิธีไหนดี บทความนี้จะช่วยสรุปกรอบความคิดหลักๆ ไว้ให้เผื่ออ่านทบทวนครับ

ก่อนอื่นเราต้องรู้จักประเภทของข้อมูลเสียก่อน เราสามารถแบ่งข้องมูลออกเป็น 4 ประเภท ใหญ่ๆ นั่นคือ

  • Nominal (Categorical) = เป็นข้อมูลที่มีลักษณะเป็น ประเภท ที่ไม่มีความหมายเรื่องของการเรียงลำดับหรือการคำนวณใดๆ ทั้งสิ้น เช่น สี, ชื่อกลุ่ม, yes-no เป็นต้น
  • Ordinal = เป็นข้อมูลประเภทที่มีผลด้านการเรียงลำดับ แต่ไม่มีผลด้านการคำนวณ เช่น การจัดลำดับ หรือ การให้ Rating ความพึงพอใจ 1-5  ผลต่างระหว่าง Rating 5 กับ 3 และ 3 กับ 1 นั้นอาจจะไม่เท่ากันก็ได้ เราบอกได้แค่อะไรมากกว่าอะไรเท่านั้น
  • Interval = คือตัวแปรที่เกิดจากการวัดค่า เราเปรียบเทียบผลต่างของค่าได้ แต่เปรียบเทียบอัตราส่วนไม่ได้ เช่น ค่า pH 3 ไม่ได้มีกรดเป็น 2 เท่าของ pH6 และ ค่า 0 ของมันเป็นแค่จุดๆ หนึ่งใน Scale ซึ่ง 0 ไม่ได้แปลว่าไม่มีสิ่งนั้นอยู่ เช่น 0 องศา C ไม่ได้แปลว่าไม่มีอุณหภูมิ
  • Ratio = คือตัวแปรที่เกิดจากการวัดค่า โดยที่ผลต่างระหว่างค่า 2 อันมีค่าเท่ากัน และอัตราส่วนของมันยังมีความหมายด้วย และที่สำคัญคือ ค่า 0 ของมันมีความหมายแปลว่าไม่มีสิ่งนั้นอยู่ เช่น จำนวนคนในห้อง, น้ำหนัก และ องศา K ( 0 องศา K คือ absolute zero ไม่มีอุณหภูมิจริงๆ ) และน้ำหนัก 8 กิโล หนักเป็น 2 เท่าของ 4 กิโลจริง ในทางกลับกัน
สามารถคำนวณสิ่งต่อไปนี้ได้หรือไม่… Nominal Ordinal Interval Ratio
frequency distribution (การแจกแจงความถี่)
Yes Yes Yes Yes
median and percentiles
No Yes Yes Yes
add or subtract (บวก ลบ) No No Yes Yes
mean, standard deviation, standard error of the mean (ค่าเฉลี่ย, เบี่ยงเบนมาตรฐาน)
No No Yes Yes
ratio, or coefficient of variation (การหาอัตราส่วน, สัมประสิทธิ์ความแปรปรวน)
No No No Yes
เอามาจาก http://www.graphpad.com/faq/viewfaq.cfm?faq=1089

หมายเหตุ บางทีเราก็จะจัดกลุ่ม Interval กับ Ratio ให้อยู่ด้วยกันแล้วเรียกรวมๆว่า Measurement ไม่ก็ Interval ก็มีครับ

พอเรารู้จักประเภทข้อมูลแล้ว เราก็มาดูเครื่องมือที่ให้เราเลือกใช้กันต่อไปครับ

(ตัวสีส้มคือสิ่งที่เรียนใน MBA ครับ)

Goal

Measurement (Interval/Ratio) จาก Normal Population)

Rank, Score, or Measurement
(จาก Non- Normal Population)

Binomial
(ผลลัพท์เป็นไปได้ 2 อย่าง เช่น การวัด Proportion)

Describe one group

บรรยายข้อมูล
1 กลุ่ม

Mean, SD

Median

Interquartile range (IQR)

Proportion

Compare one group to a hypothetical value

(Hypothesis testing)
เปรียบเทียบข้อมูล 1 กลุ่มกับค่าสมมติฐาน

One-sample t test

Wilcoxon test

Chi-square

Binomial test **

Compare two unpaired groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่ม2กลุ่มที่ข้อมูลไม่มีการจับคู่กัน
(
Independent กัน)

Unpaired t test (student’s t-test)

Mann-Whitney test

Fisher’s Exact test

Chi-square (for large samples)

Compare two paired groups

(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่ม2กลุ่มที่ข้อมูลมีการจับคู่กัน

Paired t test

Wilcoxon test

McNemar’s test

Compare three or more unmatched groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่มหลายกลุ่มที่ข้อมูลไม่มีการจับคู่กัน (Independent กัน)

One-way ANOVA (F-test)

Kruskal-Wallis test

Chi-square test

Compare three or more matched groups
(Hypothesis testing)
เปรียบเทียบข้อมูลจากกลุ่มหลายกลุ่มที่ข้อมูลมีการจับคู่กัน

Repeated-measures ANOVA

Friedman test

Cochrane Q**

Quantify association between two variables

วัดระดับของความเกี่ยวข้องกันของตัวแปร
2 ตัว

Pearson correlation

Spearman correlation

Contingency coefficients**

Predict value from another measured variable


คาดคะเนค่าหนึ่งจากอีกตัวแปรหนึ่ง

Simple linear regression

or

Nonlinear regression

Nonparametric regression**

Simple logistic regression*

Predict value from several measured or binomial variables

คาดคะเนค่าหนึ่งจากตัวแปรหลายๆ ตัว

Multiple linear regression*

or

Multiple nonlinear regression**

Multiple logistic regression*

ดัดแปลงมาจาก http://www.graphpad.com/www/Book/Choose.htm

นอกจากตารางนี้ ยังมีเว็บที่น่าสนใจอีกหลายอันที่บอกวิธีเลือกครับ เช่น

  • http://bama.ua.edu/~jleeper/627/choosestat.html
  • http://www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm
  • http://www.microsiris.com/Statistical%20Decision%20Tree/

การใช้เครื่องมือทดสอบ Hypothesis…

  • ใช้ทดสอบ Population Means
    • One Sample t-test = ใช้เปรียบเทียบ mean ของ normal population (μ) กับ ค่าสมมติฐาน (μ0) ถ้า pop ไม่ normal sample size ต้อง > 30
      • H0 : μ = μo
      • Ha : μ < μo หรือ μ > μo หรือ μ ≠ μo
      • Test statistic : t obs = (xบาร์ – μo )  /(  s/√n)
      • ใช้ t-distribution ที่ df = n-1
      • P-value : ถ้า
        Ha : μ < μo =P-value คือพื้นที่น้อยกว่า t obs
        Ha: μ > μo = P-value คือพื้นที่มากกว่า t obs
        Ha: μ ≠ μo = P-value คือผลรวมของพื้นที่ที่มากกว่า |t obs| และน้อยกว่า – |t obs|
    • Two Sample t-test = ใช้เปรียบเทียบ mean ของ independent normal population 2 อัน คือ μ1 และ μ2 โดย assume ว่า population ทั้งสองมี Variance เท่ากัน
      • H0 : μ1 = μ2
      • Ha : μ1 < μ2 หรือ μ1 > μ2 หรือ μ1 ≠ μ2
      • Test statistic : t obs = (xบาร์1 – xบาร์2 )  /sp * √(  1/n1 + 1/n2)
      • ใช้ t-distribution ที่ df = n1 + n2 – 2
      • P-value : ถ้า
        Ha :μ1 < μ2 =P-value คือพื้นที่น้อยกว่า t obs
        Ha: μ1 > μ2 = P-value คือพื้นที่มากกว่า t obs
        Ha: μ1 ≠ μ2 = P-value คือผลรวมของพื้นที่ที่มากกว่า |t obs| และน้อยกว่า – |t obs|
    • ANOVA (F-test) = ใช้เปรียบเทียบ mean ของ independent normal population 2 อัน หรือมากกว่า โดย assume ว่า population ทั้งหมดมี Variance เท่ากัน
      • H0 : μ1 = μ2 =  … = μk
      • Ha : μ ไม่ได้เท่ากันทุกตัว
      • Test statistic : F obs = MSG / MSE  (นั่นคือ Mean Square Between Group / Mean Square Within Group)
      • ใช้ F-distribution ที่ df = (k-1, N-k) k = จำนวนของ group, N = ผลรวมของ sample size
      • P-value : คือพื้นที่ที่มากกว่า F obs
  • ใช้ทดสอบ Population Proportions
    • Large sample z-test : One proportion
      sample size n ต้องมากพอที่จะทำให้เป็น normal นั่นคือ n*p0 >=10 และ n (1-p0) >= 10

      • H0 : p = po
      • Ha : p < po หรือ p > po หรือ p ≠ po
      • Test statistic : z obs = (p hat – p0) / √ [ (p0(1-p))/n]
      • ใช้ z-distribution
      • P-value : ถ้า
        Ha : p < po =P-value คือพื้นที่น้อยกว่า z obs
        Ha: p > po = P-value คือพื้นที่มากกว่า z obs
        Ha: p ≠ po = P-value คือผลรวมของพื้นที่ที่มากกว่า |z obs| และน้อยกว่า – |z obs|
    • Large sample z-test : Two proportions
      sample size n ต้องมากพอที่จะทำให้เป็น normal นั่นคือ n1*p1, n1 (1-p1),n2*p2, n2 (1-p2) >= 5 หรือ 10 ทั้งหมดถ้าเป็นไปได้

      • H0 : p1 = p2
      • Ha : p1 < p2 หรือ p1 > p2 หรือ p1 ≠ p2
      • Test statistic : z obs = (p1 hat – p2 hat) / √ [p hat (1- p hat) ( 1/n1 + 1/n2 )]
        โดยที่ p hat = (n1*p1 hat + n2*p2 hat) / n1+n2
      • ใช้ z-distribution
      • P-value : ถ้า
        Ha : p1 < p2 =P-value คือพื้นที่น้อยกว่า z obs
        Ha: p1 > p2 = P-value คือพื้นที่มากกว่า z obs
        Ha: p1 ≠ p2 = P-value คือผลรวมของพื้นที่ที่มากกว่า |z obs| และน้อยกว่า – |z obs|
Number of
Dependent
Variables
Nature of
Independent
Variables
Nature of Dependent
Variable(s)
Test(s)
1 0 IVs
(1 population)
interval & normal one-sample t-test SAS Stata SPSS
ordinal or interval one-sample median SAS Stata SPSS
categorical
(2 categories)
binomial test SAS Stata SPSS
categorical Chi-square goodness-of-fit SAS Stata SPSS
1 IV with 2 levels
(independent groups)
interval & normal 2 independent sample t-test SAS Stata SPSS
ordinal or interval
Wilcoxon-Mann Whitney test SAS Stata SPSS
categorical Chi- square test SAS Stata SPSS
Fisher’s exact test SAS Stata SPSS
1 IV with 2 or more levels (independent groups) interval & normal one-way ANOVA SAS Stata SPSS
ordinal or interval Kruskal Wallis SAS Stata SPSS
categorical Chi- square test SAS Stata SPSS
1 IV with 2 levels
(dependent/matched groups)
interval & normal paired t-test SAS Stata SPSS
ordinal or interval Wilcoxon signed ranks test SAS Stata SPSS
categorical McNemar SAS Stata SPSS
1 IV with 2 or more levels
(dependent/matched groups)
interval & normal one-way repeated measures ANOVA SAS Stata SPSS
ordinal or interval Friedman test SAS Stata SPSS
categorical repeated measures logistic regression SAS Stata SPSS
2 or more IVs
(independent groups)
interval & normal factorial ANOVA
ordinal or interval ??? ??? ??? ???
categorical factorial
logistic regression
1 interval IV interval & normal correlation SAS Stata SPSS
simple linear regression SAS Stata SPSS
ordinal or interval non-parametric correlation SAS Stata SPSS
categorical simple logistic regression SAS Stata SPSS
1 or more interval IVs and/or
1 or more categorical IVs
interval & normal multiple regression SAS Stata SPSS
analysis of covariance SAS Stata SPSS
categorical multiple logistic regression SAS Stata SPSS
discriminant analysis SAS Stata SPSS
2 or more 1 IV with 2 or more levels
(independent groups)
interval & normal one-way MANOVA SAS Stata SPSS
2 or more 2 or more interval & normal multivariate multiple linear regression SAS Stata SPSS
2 sets of
2 or more
0 interval & normal canonical correlation SAS Stata SPSS
2 or more 0 interval & normal factor analysis SAS Stata SPSS
Number of
Dependent
Variables
Nature of
Independent
Variables
Nature of Dependent
Variable(s)
Test(s) How to
SAS
How to
Stata
How to
SPSS
Tagged on:                         

Comments

  1. ben says:

    พี่ค่ะ หนูอยากรู้เรื่องเศรษฐมิติด้วยอ่ะค่ะ พี่สรุปสถิติได้เข้าใจง่ายดี