Phân phối Gaussian là gì?

Tháng MườI MộT 2024

Tác Giả: Louise Ward

Ngày Sáng TạO: 11 Tháng 2 2021

CậP NhậT Ngày Tháng: 19 Tháng MườI MộT 2024

NộI Dung

Động lực
Phát biểu của định lý
Tại sao nó ở mọi nơi
Công thức Gaussian
Đạo hàm
Tiện lợi tính toán

Trong thống kê, phân phối Gaussian hoặc bình thường được sử dụng để mô tả các hệ thống phức tạp với nhiều yếu tố. Như được mô tả trong cuốn Lịch sử thống kê của Stephen Stigler, Abraham De Moivre đã phát minh ra bản phân phối mang tên Karl Fredrick Gauss. Đóng góp của Gauss xông nằm trong ứng dụng phân phối của mình cho phương pháp bình phương nhỏ nhất để giảm thiểu lỗi trong việc khớp dữ liệu với một dòng phù hợp nhất. Do đó, ông làm cho nó phân phối lỗi quan trọng nhất trong thống kê.

Động lực

Sự phân phối của một mẫu dữ liệu là gì? Điều gì sẽ xảy ra nếu bạn không biết dữ liệu phân phối cơ bản về dữ liệu? Có cách nào để kiểm tra các giả thuyết về dữ liệu mà không biết phân phối cơ bản không? Nhờ Định lý giới hạn trung tâm, câu trả lời là có.

Phát biểu của định lý

Nó nói rằng một mẫu có nghĩa là từ một quần thể vô hạn là xấp xỉ bình thường, hoặc Gaussian, có nghĩa là giống với dân số cơ bản và phương sai bằng với phương sai dân số chia cho kích thước mẫu. Sự gần đúng được cải thiện khi kích thước mẫu trở nên lớn.

Tuyên bố gần đúng đôi khi bị sai lệch như một kết luận về sự hội tụ đến một phân phối bình thường. Do phân phối chuẩn xấp xỉ thay đổi khi kích thước mẫu tăng, nên một tuyên bố như vậy là sai lệch.

Định lý được phát triển bởi Pierre Simon Laplace.

Tại sao nó ở mọi nơi

Phân phối bình thường có mặt khắp nơi. Lý do xuất phát từ Định lý giới hạn trung tâm. Thông thường, khi một giá trị được đo, đó là hiệu ứng tổng của nhiều biến độc lập. Do đó, giá trị được đo chính nó có chất lượng trung bình mẫu đối với nó. Ví dụ, một bản phân phối các màn trình diễn của vận động viên có thể có hình chuông, là kết quả của sự khác biệt trong chế độ ăn uống, đào tạo, di truyền, huấn luyện và tâm lý học. Ngay cả chiều cao nam giới có phân phối bình thường, là một chức năng của nhiều yếu tố sinh học.

Công thức Gaussian

Cái được gọi là chức năng copula của người dùng có chức năng phân phối Gaussian trong bản tin năm 2009 vì nó được sử dụng để đánh giá rủi ro đầu tư vào trái phiếu thế chấp. Việc lạm dụng chức năng này là công cụ trong cuộc khủng hoảng tài chính 2008-2009. Mặc dù có nhiều nguyên nhân của cuộc khủng hoảng, nhưng trong các bản phân phối Gaussian có khả năng không nên được sử dụng. Một hàm có đuôi dày hơn sẽ gán xác suất lớn hơn cho các sự kiện bất lợi.

Đạo hàm

Định lý giới hạn trung tâm có thể được chứng minh bằng nhiều dòng bằng cách phân tích hàm tạo mô men (mgf) của (trung bình mẫu - trung bình dân số) /? (Phương sai dân số / cỡ mẫu) là một hàm của mgf của dân số cơ bản. Phần gần đúng của định lý được giới thiệu bằng cách mở rộng dân số cơ bản, mg mgf thành một chuỗi lũy thừa, sau đó hiển thị hầu hết các thuật ngữ là không đáng kể khi kích thước mẫu trở nên lớn.

Nó có thể được chứng minh trong các dòng ít hơn nhiều bằng cách sử dụng khai triển Taylor trên phương trình đặc trưng của cùng hàm và làm cho kích thước mẫu lớn.

Tiện lợi tính toán

Một số mô hình thống kê giả định các lỗi là Gaussian. Điều này cho phép phân phối các chức năng của các biến thông thường, như phân phối chi bình phương và F, được sử dụng trong kiểm tra giả thuyết. Cụ thể, trong thử nghiệm F, thống kê F bao gồm tỷ lệ phân phối chi bình phương, bản thân chúng là các hàm của một tham số phương sai bình thường. Tỷ lệ của hai nguyên nhân khiến phương sai bị loại bỏ, cho phép kiểm tra giả thuyết mà không có kiến thức về phương sai ngoài tính quy tắc và hằng số của chúng.