NộI Dung
Các hoạt động kinh doanh, chính phủ và học thuật hầu như luôn đòi hỏi việc thu thập và phân tích dữ liệu. Một trong những cách để biểu diễn dữ liệu số là thông qua biểu đồ, biểu đồ và biểu đồ. Những kỹ thuật trực quan này cho phép mọi người hiểu rõ hơn về các vấn đề và đưa ra các giải pháp. Các khoảng trống, cụm và các ngoại lệ là các đặc điểm của các tập dữ liệu có ảnh hưởng đến phân tích toán học và có thể dễ dàng nhìn thấy trên các biểu diễn trực quan.
Lỗ hổng trong dữ liệu
Khoảng trống đề cập đến các khu vực bị thiếu trong một tập dữ liệu. Ví dụ: nếu một thí nghiệm khoa học thu thập dữ liệu nhiệt độ trong phạm vi từ 50 độ F đến 100 độ F, nhưng không có gì trong khoảng từ 70 đến 80 độ, điều đó sẽ biểu thị khoảng cách trong tập dữ liệu. Một biểu đồ dòng của bộ dữ liệu này sẽ có các dấu "x" cho nhiệt độ từ 50 đến 70 và một lần nữa trong khoảng từ 80 đến 100, nhưng sẽ không có gì giữa 70 và 80. Các nhà nghiên cứu có thể đào sâu hơn và khám phá lý do tại sao các điểm dữ liệu nhất định không hiển thị trong một mẫu thu thập.
Nhóm bị cô lập
Các cụm là các nhóm dữ liệu bị cô lập. Biểu đồ đường, là một trong những cách để biểu diễn các tập dữ liệu, là các dòng có dấu "x" được đặt phía trên các số cụ thể để mô tả tần suất xuất hiện của chúng trong tập dữ liệu. Một cụm được mô tả như là một tập hợp các dấu "x" này trong một khoảng nhỏ hoặc tập hợp dữ liệu. Ví dụ: nếu điểm thi của một lớp gồm 10 học sinh là 74, 75, 80, 72, 74, 75, 76, 86, 88 và 73, thì điểm "x" nhất trên một ô vuông sẽ nằm trong 72- khoảng cách đến 76 điểm. Điều này sẽ đại diện cho một cụm dữ liệu. Lưu ý tần số cho 74 và 75 là hai, nhưng đối với tất cả các điểm khác, nó là một.
Ở thái cực
Các ngoại lệ là các giá trị cực trị - các điểm dữ liệu nằm đáng kể bên ngoài các giá trị khác trong một tập dữ liệu. Một ngoại lệ phải nhỏ hơn hoặc lớn hơn đáng kể so với phần lớn các số trong một tập dữ liệu. Định nghĩa của "cực đoan" phụ thuộc vào hoàn cảnh và sự đồng thuận của các nhà phân tích tham gia nghiên cứu. Các ngoại lệ có thể là các điểm dữ liệu xấu, còn được gọi là nhiễu hoặc chúng có thể chứa thông tin có giá trị về hiện tượng đang được điều tra và chính phương pháp thu thập dữ liệu. Ví dụ: nếu điểm số của lớp chủ yếu nằm trong khoảng 70 đến 80, nhưng một vài điểm nằm ở độ tuổi 50 thấp, thì điểm số đó có thể đại diện cho các ngoại lệ.
Để tất cả chúng cùng nhau
Khoảng cách, ngoại lệ và cụm trong bộ dữ liệu có thể ảnh hưởng đến kết quả phân tích toán học. Các khoảng trống và cụm có thể biểu thị các lỗi trong phương pháp thu thập dữ liệu. Ví dụ: nếu một cuộc khảo sát qua điện thoại chỉ thăm dò một số mã vùng nhất định, chẳng hạn như khu nhà ở thu nhập thấp hoặc khu dân cư ngoại ô cao cấp và không phải là một mặt cắt ngang rộng của dân số, thì rất có thể sẽ có những khoảng trống và cụm dữ liệu . Các ngoại lệ có thể làm lệch giá trị trung bình hoặc trung bình của một tập dữ liệu. Ví dụ: giá trị trung bình hoặc giá trị trung bình của một tập dữ liệu bao gồm bốn số - 50, 55, 65 và 90 - là 65. Tuy nhiên, không có 90 ngoại lệ, trung bình là khoảng 57.