NộI Dung
Trong thống kê, phân phối Gaussian hoặc bình thường được sử dụng để mô tả các hệ thống phức tạp với nhiều yếu tố. Như được mô tả trong cuốn Lịch sử thống kê của Stephen Stigler, Abraham De Moivre đã phát minh ra bản phân phối mang tên Karl Fredrick Gauss. Đóng góp của Gauss xông nằm trong ứng dụng phân phối của mình cho phương pháp bình phương nhỏ nhất để giảm thiểu lỗi trong việc khớp dữ liệu với một dòng phù hợp nhất. Do đó, ông làm cho nó phân phối lỗi quan trọng nhất trong thống kê.
Động lực
Sự phân phối của một mẫu dữ liệu là gì? Điều gì sẽ xảy ra nếu bạn không biết dữ liệu phân phối cơ bản về dữ liệu? Có cách nào để kiểm tra các giả thuyết về dữ liệu mà không biết phân phối cơ bản không? Nhờ Định lý giới hạn trung tâm, câu trả lời là có.
Phát biểu của định lý
Nó nói rằng một mẫu có nghĩa là từ một quần thể vô hạn là xấp xỉ bình thường, hoặc Gaussian, có nghĩa là giống với dân số cơ bản và phương sai bằng với phương sai dân số chia cho kích thước mẫu. Sự gần đúng được cải thiện khi kích thước mẫu trở nên lớn.
Tuyên bố gần đúng đôi khi bị sai lệch như một kết luận về sự hội tụ đến một phân phối bình thường. Do phân phối chuẩn xấp xỉ thay đổi khi kích thước mẫu tăng, nên một tuyên bố như vậy là sai lệch.
Định lý được phát triển bởi Pierre Simon Laplace.
Tại sao nó ở mọi nơi
Phân phối bình thường có mặt khắp nơi. Lý do xuất phát từ Định lý giới hạn trung tâm. Thông thường, khi một giá trị được đo, đó là hiệu ứng tổng của nhiều biến độc lập. Do đó, giá trị được đo chính nó có chất lượng trung bình mẫu đối với nó. Ví dụ, một bản phân phối các màn trình diễn của vận động viên có thể có hình chuông, là kết quả của sự khác biệt trong chế độ ăn uống, đào tạo, di truyền, huấn luyện và tâm lý học. Ngay cả chiều cao nam giới có phân phối bình thường, là một chức năng của nhiều yếu tố sinh học.
Công thức Gaussian
Cái được gọi là chức năng copula của người dùng có chức năng phân phối Gaussian trong bản tin năm 2009 vì nó được sử dụng để đánh giá rủi ro đầu tư vào trái phiếu thế chấp. Việc lạm dụng chức năng này là công cụ trong cuộc khủng hoảng tài chính 2008-2009. Mặc dù có nhiều nguyên nhân của cuộc khủng hoảng, nhưng trong các bản phân phối Gaussian có khả năng không nên được sử dụng. Một hàm có đuôi dày hơn sẽ gán xác suất lớn hơn cho các sự kiện bất lợi.
Đạo hàm
Định lý giới hạn trung tâm có thể được chứng minh bằng nhiều dòng bằng cách phân tích hàm tạo mô men (mgf) của (trung bình mẫu - trung bình dân số) /? (Phương sai dân số / cỡ mẫu) là một hàm của mgf của dân số cơ bản. Phần gần đúng của định lý được giới thiệu bằng cách mở rộng dân số cơ bản, mg mgf thành một chuỗi lũy thừa, sau đó hiển thị hầu hết các thuật ngữ là không đáng kể khi kích thước mẫu trở nên lớn.
Nó có thể được chứng minh trong các dòng ít hơn nhiều bằng cách sử dụng khai triển Taylor trên phương trình đặc trưng của cùng hàm và làm cho kích thước mẫu lớn.
Tiện lợi tính toán
Một số mô hình thống kê giả định các lỗi là Gaussian. Điều này cho phép phân phối các chức năng của các biến thông thường, như phân phối chi bình phương và F, được sử dụng trong kiểm tra giả thuyết. Cụ thể, trong thử nghiệm F, thống kê F bao gồm tỷ lệ phân phối chi bình phương, bản thân chúng là các hàm của một tham số phương sai bình thường. Tỷ lệ của hai nguyên nhân khiến phương sai bị loại bỏ, cho phép kiểm tra giả thuyết mà không có kiến thức về phương sai ngoài tính quy tắc và hằng số của chúng.