Statistics

ทำไมต้องใช้ n-1 ในการหาค่าความแปรปรวน?

ถ้าคุณเคยเรียนสถิติ คุณอาจจะเคยสงสัยว่าทำไมสูตรหาความแปรปรวน (Variance) ต้องหารด้วย n-1 แทนที่จะเป็นแค่ n ทั้งๆ ที่เราเก็บข้อมูลมา n ตัว มาดูกันว่าทำไม

เรื่องนี้เข้าใจง่ายๆ แบบนี้

เวลาเราหาค่าเฉลี่ยของข้อมูลชุดหนึ่ง เราคงไม่รู้ค่าเฉลี่ยที่แท้จริงของประชากรทั้งหมด เราแค่ประมาณการจากตัวอย่างที่เรามี

ปัญหาคือ เมื่อเราใช้ค่าเฉลี่ยจากตัวอย่างแทนค่าเฉลี่ยประชากร ค่าความแปรปรวนที่เราคำนวณได้จะน้อยกว่าความเป็นจริง นั่นคือเราจะประเมินค่าความแปรปรวนต่ำไป

ตัวอย่างให้เข้าใจง่ายๆ:

สมมติว่าคุณมีคะแนนสอบของนักเรียน 5 คน: 70, 80, 85, 90, 95

  • ค่าเฉลี่ย = 84
  • ถ้าหาค่าความแปรปรวนโดยหารด้วย n (5):
    • จะได้ค่าความแปรปรวนที่ต่ำกว่าความเป็นจริง
  • ถ้าหาค่าความแปรปรวนโดยหารด้วย n-1 (4):
    • จะได้ค่าความแปรปรวนที่ใกล้เคียงความเป็นจริงมากขึ้น

ทำไมต้อง n-1?

เหตุผลทางคณิตศาสตร์คือเรื่องของ “องศาอิสระ” (Degrees of Freedom)

เมื่อเราคำนวณผลต่างระหว่างข้อมูลแต่ละตัวกับค่าเฉลี่ย จริงๆ แล้วมีข้อมูลแค่ n-1 ตัวที่เป็นอิสระจากกัน เพราะ:

  • ถ้าเรารู้ค่าเฉลี่ยแล้ว และรู้ค่าของข้อมูล n-1 ตัวแรก
  • เราสามารถคำนวณค่าของข้อมูลตัวที่ n ได้แน่นอน
  • เพราะผลรวมของผลต่างทั้งหมดต้องเท่ากับศูนย์เสมอ

เช่น ถ้ามีข้อมูล 10 ตัว (n=10) จากกลุ่มตัวอย่าง ค่า df = 9 เพราะเมื่อคุณรู้ค่าเฉลี่ยและรู้ข้อมูล 9 ตัวแรกแล้ว ตัวที่ 10 ถูกกำหนดโดยอัตโนมัติ

ในกรณีอื่นๆ

ค่า df จะขึ้นอยู่กับจำนวนตัวแปรในสูตรคำนวณด้วย เช่น:

  • สูตรสหสัมพันธ์ที่หาจาก 2 ตัวแปร: df = n-2
  • เพราะเรื่องของตัวแปรและสหสัมพันธ์มีข้อจำกัดเพิ่มอีก 1 องศา

สรุปแบบเข้าใจง่ายๆ

การใช้ n-1 แทน n เป็นการ “ปรับแก้” ให้ค่าความแปรปรวนที่เราคำนวณจากตัวอย่างใกล้เคียงกับค่าความแปรปรวนจริงของประชากรทั้งหมดมากที่สุด เพราะเมื่อเราใช้ค่าเฉลี่ยของตัวอย่างแทนค่าเฉลี่ยประชากร เราจะได้ค่าความแปรปรวนที่ต่ำกว่าความเป็นจริงเสมอ

การหาร n-1 จึงเป็นวิธีชดเชยความคลาดเคลื่อนนี้ และเป็นสูตรมาตรฐานที่นักสถิติใช้กันทั่วโลก


Discover more from KruJakkrapong 's Blog

Subscribe to get the latest posts sent to your email.

Leave a Reply