Cách xử lý, hiệu chỉnh số liệu xấu trong SPSS

Trong quá trình làm bài nghiên cứu marketing có sử dụng SPSS phân tích định lượng, gần như chúng ta đều gặp khó khăn ít hoặc nhiều khi số liệu gặp phải những trục trặc đau đầu. Bài viết này sẽ chia sẻ cách xử lý, hiệu chỉnh số liệu xấu khi phân tích SPSS.

Các trường hợp số liệu xấu cần hiệu chỉnh, xử lý phổ biến:

Hôm nay, mình sẽ đề xuất một số phương án xử lý những lỗi trên. Mình đưa ra hướng giải quyết trên lý thuyết, còn vận dụng là ở các bạn.

icon8 Xem thêm: Thương Mại Dịch Vụ giải quyết và xử lý tài liệu SPSS cấp tốc
 

Xem thêm: 

Tại sao có sự chênh lệch giữa thông số hồi quy chuẩn hóa và chưa chuẩn hóa ?

1/ Cronbach Alpha nhỏ hơn 0.6

Thực hiện kiểm định Cronbach Alpha là bước tiên phong khi triển khai nghiên cứu và phân tích định lượng với SPSS. Và ngay từ bước khởi đầu này, không ít bạn chán nản stress muốn vứt ngay cái máy tính với mớ tài liệu hỗn độn vô sọt rác .

Lật lại khái niệm độ đáng tin cậy Cronbach Alpha tí xíu, khi một tác nhân bạn đưa ra sẽ gồm nhiều biến quan sát nhỏ, những biến quan sát này phản ánh được đặc thù của tác nhân mẹ thì khi đó giá trị Cronbach Alpha ( về sau mình gọi bằng CA cho tiện ) sẽ cao. Giá trị CA nhỏ hơn 0.6 đồng nghĩa tương quan thang đo không đạt nhu yếu, một hoặc một vài biến quan sát không bộc lộ được đặc thù của tác nhân .

Cách xử lý dữ liệu xấu:

  • Xác định lại các câu hỏi quan sát trong nhân tố có phản ánh được tính chất của nhân tố hay không, những câu hỏi nào không có cơ sở lý luận nguồn gốc rõ ràng thì loại bỏ, chỉnh sửa lại bảng câu hỏi và khảo sát lại.
  • Bảng câu hỏi bạn lấy từ nguồn rõ ràng, từ các nghiên cứu lớn đã được các nhà nghiên cứu công nhận. Các câu hỏi của bạn cũng đã được giảng viên đánh giá và chấp nhận thì lỗi xuất hiện phần lớn là do người được khảo sát. Chi phí khảo sát không hề nhỏ, vậy nên ở trường hợp này khó mà chúng ta có thể khảo sát lại. Do vậy, các bạn cần tập trung loại bỏ những bảng câu hỏi xấu đi để cải thiện số liệu hơn.

2/ EFA bị lỗi “This matrix is not positive definite”, không có bảng KMO

Một lỗi khá phổ biến khi chạy phân tích nhân tố khám phá là không hiện bảng KMO và thay vào vị trí đó là dòng chữ “This matrix is not positive definite”.

Lý do xuất hiện lỗi này thường là vì trong dữ liệu của các bạn có sự chồng chéo giữa các nhân tố độc lập với nhau. Giá trị các biến quan sát của nhân tố độc lập 1 khá giống với giá trị các biến quan sát 2, 3, 4.. Sự trùng lắp này quá nhiều làm cho tính phân biệt trong EFA bị loại bỏ, nên sẽ nhận được thông báo như trên.

Cách xử lý dữ liệu xấu:

  • Các bạn hãy tìm và loại bớt các biến có tương quan mạnh với nhau như thế, vì đây gần như là có sự trùng lắp dữ liệu. 
  • Nếu các câu hỏi đó là quan trọng và không được loại bỏ, chỉ còn cách bạn phải thay đổi số liệu, đừng để số liệu biến quan sát trong nhân tố này lại giống đến hơn 70% số liệu biến quan sát trong nhân tố khác.
  • Thủ thuật để nhận biết biến nào đang trùng lắp dữ liệu với biến khác đó là sử dụng tương quan Pearson. Thực hiện phân tích tương quan giữa các nhân tố độc lập, nhìn ở các giá trị sig nhỏ hơn 0.05, cặp nhân tố nào có tương quan r từ 0.6 trở lên thì khả năng lớn sẽ có đa cộng tuyến giữa 2 biến này, đồng nghĩa giữa 2 biến đang có sự trùng lặp dữ liệu đáng kể.

3/ Ma trận xoay sắp xếp lộn xộn, mất hết các nhân tố ban đầu

Tại ma trận xoay khi phân tích nhân tố khám phá, các biến quan sát chạy nhảy lung tung, từ 4 nhân tố lại xuất hiện 5, 6, 7… tố, biến quan sát nhóm này lại gom chung với nhóm khác, nhân tố ban đầu gần như bị mất hết.

Lý do dẫn đến tình trạng này đó là các biến quan sát trong nhóm này lại tương đồng giá trị với các biến quan sát của nhóm khác. Đồng nghĩa với việc, biến quan sát bạn đưa ra là không rõ ràng, nó vừa thuộc một phần của nhân tố độc lập 1, nhưng lại cũng là 1 phần trong nhân tố độc lập 2.
Hoặc trường hợp các biến quan sát này lấy từ bảng câu hỏi chuẩn thì lỗi xảy ra là do dữ liệu thu thập. Có thể là người được khảo sát họ đánh cho có lệ nên dẫn đến số liệu có quá nhiều trục trặc xảy ra.

Cách xử lý dữ liệu xấu:

  • Từ bảng ma trận xoay lộn xộn, tìm kiếm xem những biến quan sát nào đang chạy nhảy loạn xạ, loại bỏ chúng hoặc chỉnh sửa lại để dữ liệu của biến không bị trùng lắp với dữ liệu các biến quan sát trong nhân tố khác.
  • Hãy nhớ EFA có 2 yêu cầu: phân biệt & hội tụ. Hội tụ nhĩa là các biến quan sát cùng nhóm sẽ gom về 1 cột trong ma trận xoay. Phân biệt nghĩa là giữa các nhân tố sẽ có sự tách biệt rõ ràng, mỗi nhóm nhân tố biểu hiện bằng một cột trong ma trận xoay. Một khi dữ liệu cột này hao hao cột kia thì sẽ dẫn đến tình trạng biến quan sát của nhân tố này sẽ nhảy sang nhân tố khác.

4/ Tương quan giữa các biến độc lập khá cao và hệ số VIF ở hồi quy lớn hơn hoặc bằng 2

Nếu gặp trường hợp này, khả năng rất cao giữa các nhân tố độc lập đã xảy ra đa cộng tuyến. Nghĩa là nhân tố này có giá trị khá giống với nhân tố khác.


Cách xử lý dữ liệu xấu:

  • Căn cứ vào độ quan trọng, cùng với đó là dẫn chứng kết quả số liệu đưa ra, hãy loại 1 trong 2 nhân tố độc lập mà giữa chúng bị đa cộng tuyến. Nhớ chú ý, trên thực tế, bạn thấy yếu tố nào quan trọng hơn thì nên giữ lại.
  • Hoặc đã loại 1 trong 2 rồi mà kết quả vẫn còn rất tệ, bạn buộc phải loại bỏ cả 2 biến. 

 Xem thêm :Hướng dẫn nghiên cứu và phân tích Cronbach’s Alpha

5/ Hồi quy giá trị R bình phương hiệu chỉnh cực kỳ thấp, các nhân tố bị loại bỏ gần hết

Tại ma trận xoay khi nghiên cứu và phân tích tác nhân mày mò, những biến quan sát chạy nhảy lung tung, từ 4 tác nhân lại Open 5, 6, 7 … tố, biến quan sát nhóm này lại gom chung với nhóm khác, tác nhân bắt đầu gần như bị mất hết. Lý do dẫn đến thực trạng này đó là những biến quan sát trong nhóm này lại tương đương giá trị với những biến quan sát của nhóm khác. Đồng nghĩa với việc, biến quan sát bạn đưa ra là không rõ ràng, nó vừa thuộc một phần của tác nhân độc lập 1, nhưng lại cũng là 1 phần trong tác nhân độc lập 2. Hoặc trường hợp những biến quan sát này lấy từ bảng câu hỏi chuẩn thì lỗi xảy ra là do tài liệu tích lũy. Có thể là người được khảo sát họ đánh cho có lệ nên dẫn đến số liệu có quá nhiều trục trặc xảy ra. Nếu gặp trường hợp này, năng lực rất cao giữa những tác nhân độc lập đã xảy ra đa cộng tuyến. Nghĩa là tác nhân này có giá trị khá giống với tác nhân khác .

Thường tất cả chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh / ý nghĩa yếu, từ 0.5 đến 1 thì quy mô là tốt, bé hơn 0.5 là quy mô chưa tốt. Tuy nhiên, tùy vào dạng điều tra và nghiên cứu và dạng tài liệu, không phải khi nào cũng bắt buộc rằng quy mô hồi quy phải đạt giá trị R bình phương hiệu chỉnh lớn hơn 0.5 mới có ý nghĩa .

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn có thể được chấp nhận.Một lỗi khá thông dụng khi chạy nghiên cứu và phân tích tác nhân mày mò là không hiện bảng KMO và thay vào vị trí đó là dòng chữLý do Open lỗi này thường là vì trong tài liệu của những bạn có sự chồng chéo giữa những tác nhân độc lập với nhau. Giá trị những biến quan sát của tác nhân độc lập 1 khá giống với giá trị những biến quan sát 2, 3, 4 .. Sự trùng lắp này quá nhiều làm cho tính phân biệt trong EFA bị vô hiệu, nên sẽ nhận được thông tin như trên. Giá trị R bình phương hiệu chỉnh phản ánh mức độ lý giải biến phụ thuộc vào của những biến độc lập. Giá trị này càng cao nghĩa là những biến độc lập bạn đưa ra trong quy mô càng rất đầy đủ và đúng mực, không bị thiếu sót biến. Như vậy, nếu hiệu quả hồi quy bạn nghiên cứu và phân tích được có ( 0.5 ) thì hiệu quả vẫn hoàn toàn có thể được đồng ý .

Tuy nhiên, nếu quy mô hồi quy đa biến với nhiều biến độc lập tham gia vào hồi quy nhưng R bình phương hiệu chỉnh quá thấp, điều này đồng nghĩa tương quan những biến độc lập tất cả chúng ta thiết kế xây dựng không tương thích với điều tra và nghiên cứu .

Cách xử lý dữ liệu xấu:

  • R bình phương hiệu chỉnh quá nhỏ là do biến độc lập không phản ánh được tính chất biến phụ thuộc. Bạn cần rà soát lại toàn bộ dữ liệu, những bảng câu hỏi nào “là rác” thì cần loại đi. Ví dụ giả thuyết ban đầu các biến độc lập của bạn đều tác động tích cực đến biến phụ thuộc, nhưng khi bạn nhập liệu thì biến độc lập giá trị thiên về giá trị đồng ý, rất đồng ý nhưng biến phụ thuộc lại là rất không đồng ý, không đồng ý. Đó là các các bảng hỏi cần được loại bỏ để không ảnh hưởng đến kết quả chung cũng như là của giá trị R bình hiệu chỉnh.

Hôm nay, mình sẽ đề xuất kiến nghị 1 số ít giải pháp giải quyết và xử lý những lỗi trên. Mình đưa ra hướng xử lý trên kim chỉ nan, còn vận dụng là ở những bạn .

Alternate Text Gọi ngay