NộI Dung
- Hồi quy tuyến tính bị giới hạn trong mối quan hệ tuyến tính
- Hồi quy tuyến tính Chỉ nhìn vào giá trị trung bình của biến phụ thuộc
- Hồi quy tuyến tính là nhạy cảm với các ngoại lệ
- Dữ liệu phải độc lập
Hồi quy tuyến tính là một phương pháp thống kê để kiểm tra mối quan hệ giữa một biến phụ thuộc, ký hiệu là y và một hoặc nhiều biến độc lập, ký hiệu là x. Biến phụ thuộc phải liên tục, trong đó nó có thể nhận bất kỳ giá trị nào, hoặc ít nhất là gần với liên tục. Các biến độc lập có thể là bất kỳ loại nào. Mặc dù hồi quy tuyến tính không thể hiển thị quan hệ nhân quả bằng chính nó, biến phụ thuộc thường bị ảnh hưởng bởi các biến độc lập.
Hồi quy tuyến tính bị giới hạn trong mối quan hệ tuyến tính
Về bản chất, hồi quy tuyến tính chỉ xem xét mối quan hệ tuyến tính giữa các biến phụ thuộc và độc lập. Đó là, nó giả định rằng có một mối quan hệ thẳng giữa họ. Đôi khi điều này là không chính xác. Ví dụ: mối quan hệ giữa thu nhập và tuổi bị cong, tức là thu nhập có xu hướng tăng lên ở những phần đầu của tuổi trưởng thành, bị san phẳng trong tuổi trưởng thành sau này và suy giảm sau khi mọi người nghỉ hưu. Bạn có thể biết liệu đây có phải là vấn đề hay không bằng cách xem xét các biểu diễn đồ họa của các mối quan hệ.
Hồi quy tuyến tính Chỉ nhìn vào giá trị trung bình của biến phụ thuộc
Hồi quy tuyến tính xem xét mối quan hệ giữa giá trị trung bình của biến phụ thuộc và biến độc lập. Ví dụ, nếu bạn nhìn vào mối quan hệ giữa trọng lượng sơ sinh của trẻ sơ sinh và các đặc điểm của mẹ như tuổi tác, hồi quy tuyến tính sẽ xem xét cân nặng trung bình của trẻ sinh ra từ các bà mẹ ở các độ tuổi khác nhau. Tuy nhiên, đôi khi bạn cần xem xét các cực trị của biến phụ thuộc, ví dụ: trẻ sơ sinh có nguy cơ khi cân nặng thấp, vì vậy bạn sẽ muốn xem xét các cực trị trong ví dụ này.
Giống như giá trị trung bình không phải là mô tả đầy đủ của một biến, hồi quy tuyến tính không phải là mô tả đầy đủ về mối quan hệ giữa các biến. Bạn có thể giải quyết vấn đề này bằng cách sử dụng hồi quy lượng tử.
Hồi quy tuyến tính là nhạy cảm với các ngoại lệ
Outliers là dữ liệu đáng ngạc nhiên. Các ngoại lệ có thể là đơn biến (dựa trên một biến) hoặc đa biến. Nếu bạn đang xem xét tuổi tác và thu nhập, những người ngoài cuộc không thể thay đổi sẽ là những người như một người 118 tuổi, hoặc một người kiếm được 12 triệu đô la vào năm ngoái. Một ngoại lệ đa biến sẽ là một thanh niên 18 tuổi kiếm được 200.000 đô la. Trong trường hợp này, không phải tuổi tác và thu nhập là rất cực đoan, nhưng rất ít người 18 tuổi kiếm được nhiều tiền như vậy.
Outliers có thể có tác động rất lớn đến hồi quy. Bạn có thể giải quyết vấn đề này bằng cách yêu cầu thống kê ảnh hưởng từ phần mềm thống kê của bạn.
Dữ liệu phải độc lập
Hồi quy tuyến tính giả định rằng dữ liệu là độc lập. Điều đó có nghĩa là điểm số của một môn học (chẳng hạn như một người) không liên quan gì đến những môn học khác. Điều này thường, nhưng không phải luôn luôn, hợp lý. Hai trường hợp phổ biến mà nó không có ý nghĩa là phân cụm trong không gian và thời gian.
Một ví dụ kinh điển về phân cụm trong không gian là điểm kiểm tra của học sinh, khi bạn có học sinh từ các lớp, lớp, trường và khu học chánh khác nhau. Học sinh trong cùng một lớp có xu hướng giống nhau theo nhiều cách, tức là, chúng thường đến từ cùng một khu phố, chúng có cùng giáo viên, v.v. Vì vậy, chúng không độc lập.
Ví dụ về phân cụm thời gian là bất kỳ nghiên cứu nào mà bạn đo cùng một đối tượng nhiều lần. Ví dụ, trong một nghiên cứu về chế độ ăn uống và cân nặng, bạn có thể đo mỗi người nhiều lần. Những dữ liệu này không độc lập bởi vì những gì một người nặng trong một dịp có liên quan đến những gì người đó nặng trong những dịp khác. Một cách để đối phó với điều này là với các mô hình đa cấp.