ถ้าคุณเคยเรียนสถิติ คุณอาจจะเคยสงสัยว่าทำไมสูตรหาความแปรปรวน (Variance) ต้องหารด้วย n-1 แทนที่จะเป็นแค่ n ทั้งๆ ที่เราเก็บข้อมูลมา n ตัว มาดูกันว่าทำไม
เรื่องนี้เข้าใจง่ายๆ แบบนี้
เวลาเราหาค่าเฉลี่ยของข้อมูลชุดหนึ่ง เราคงไม่รู้ค่าเฉลี่ยที่แท้จริงของประชากรทั้งหมด เราแค่ประมาณการจากตัวอย่างที่เรามี
ปัญหาคือ เมื่อเราใช้ค่าเฉลี่ยจากตัวอย่างแทนค่าเฉลี่ยประชากร ค่าความแปรปรวนที่เราคำนวณได้จะน้อยกว่าความเป็นจริง นั่นคือเราจะประเมินค่าความแปรปรวนต่ำไป
ตัวอย่างให้เข้าใจง่ายๆ:
สมมติว่าคุณมีคะแนนสอบของนักเรียน 5 คน: 70, 80, 85, 90, 95
- ค่าเฉลี่ย = 84
- ถ้าหาค่าความแปรปรวนโดยหารด้วย n (5):
- จะได้ค่าความแปรปรวนที่ต่ำกว่าความเป็นจริง
- ถ้าหาค่าความแปรปรวนโดยหารด้วย n-1 (4):
- จะได้ค่าความแปรปรวนที่ใกล้เคียงความเป็นจริงมากขึ้น
ทำไมต้อง n-1?
เหตุผลทางคณิตศาสตร์คือเรื่องของ “องศาอิสระ” (Degrees of Freedom)
เมื่อเราคำนวณผลต่างระหว่างข้อมูลแต่ละตัวกับค่าเฉลี่ย จริงๆ แล้วมีข้อมูลแค่ n-1 ตัวที่เป็นอิสระจากกัน เพราะ:
- ถ้าเรารู้ค่าเฉลี่ยแล้ว และรู้ค่าของข้อมูล n-1 ตัวแรก
- เราสามารถคำนวณค่าของข้อมูลตัวที่ n ได้แน่นอน
- เพราะผลรวมของผลต่างทั้งหมดต้องเท่ากับศูนย์เสมอ
เช่น ถ้ามีข้อมูล 10 ตัว (n=10) จากกลุ่มตัวอย่าง ค่า df = 9 เพราะเมื่อคุณรู้ค่าเฉลี่ยและรู้ข้อมูล 9 ตัวแรกแล้ว ตัวที่ 10 ถูกกำหนดโดยอัตโนมัติ
ในกรณีอื่นๆ
ค่า df จะขึ้นอยู่กับจำนวนตัวแปรในสูตรคำนวณด้วย เช่น:
- สูตรสหสัมพันธ์ที่หาจาก 2 ตัวแปร: df = n-2
- เพราะเรื่องของตัวแปรและสหสัมพันธ์มีข้อจำกัดเพิ่มอีก 1 องศา
สรุปแบบเข้าใจง่ายๆ
การใช้ n-1 แทน n เป็นการ “ปรับแก้” ให้ค่าความแปรปรวนที่เราคำนวณจากตัวอย่างใกล้เคียงกับค่าความแปรปรวนจริงของประชากรทั้งหมดมากที่สุด เพราะเมื่อเราใช้ค่าเฉลี่ยของตัวอย่างแทนค่าเฉลี่ยประชากร เราจะได้ค่าความแปรปรวนที่ต่ำกว่าความเป็นจริงเสมอ
การหาร n-1 จึงเป็นวิธีชดเชยความคลาดเคลื่อนนี้ และเป็นสูตรมาตรฐานที่นักสถิติใช้กันทั่วโลก
Discover more from KruJakkrapong 's Blog
Subscribe to get the latest posts sent to your email.