Biến đổi dữ liệu là gì?
check_box Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
Quá trình lọc dữ liệu để loại bỏ nhiễu
Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
Quá trình thu thập dữ liệu từ nhiều nguồn
Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?
check_box 6
3
4
5
Chọn mẫu dữ liệu (Sampling) có tác dụng gì?
check_box Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện
Làm tăng số lượng dữ liệu để mô hình học tốt hơn
Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm
Giúp tăng tốc độ xử lý bằng cách nén dữ liệu
Có những thách thức nào với khai phá dữ liệu?
Tất cả các đáp án đều đúng
Thay đổi cấu trúc dữ liệu liên tục
Giảm chiều của dữ liệu để tăng tốc độ xử lý
Xử lý nhiễu trong dữ liệu
Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?
Học sâu không sử dụng mạng nơ-ron nhân tạo
Học sâu tự động học đặc trưng từ dữ liệu
Học sâu chỉ sử dụng các thuật toán tuyến tính
Học sâu không cần dữ liệu để huấn luyện
Điều gì sẽ xảy ra nếu áp dụng PCA lên một tập dữ liệu không có sự tương quan giữa các thuộc tính?
PCA vẫn hoạt động bình thường nhưng không làm giảm kích thước dữ liệu
PCA sẽ làm tăng độ phức tạp của dữ liệu
PCA sẽ tự động loại bỏ tất cả các thuộc tính
PCA sẽ không mang lại hiệu quả vì không có phương sai cần giảm
Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?
Tính chính xác (Accuracy)
Tính đầy đủ (Completeness)
Tính khả diễn giải (Interpretability)
Tính nhất quán (Consistency)
Dữ liệu dư thừa trong quá trình tích hợp có thể gây ra điều gì?
Giúp mô hình học nhanh hơn
Không ảnh hưởng đến dữ liệu
Làm tăng tốc độ phân tích dữ liệu
Lãng phí tài nguyên lưu trữ và xử lý
Dữ liệu nhiễu là gì?
check_box Dữ liệu không phản ánh đúng thực tế
Dữ liệu dư thừa
Dữ liệu bị mất
Dữ liệu thiếu đơn vị đo
Giảm kích thước dữ liệu nhằm mục đích gì?
Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
Tăng độ phức tạp của mô hình học máy
Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
Loại bỏ tất cả dữ liệu không liên quan
Học không giám sát khác học có giám sát ở điểm nào?
Học không giám sát sử dụng cây quyết định
Học có giám sát không dự đoán được kết quả
Học không giám sát không cần dữ liệu nhãn
Học không giám sát sử dụng dữ liệu có nhãn
Khai phá dữ liệu (Data Mining) là gì?
Sử dụng các công cụ trực quan hóa để trình bày dữ liệu
Tìm kiếm dữ liệu trên internet
Phát hiện thông tin hữu ích từ dữ liệu lớn
Tạo báo cáo từ dữ liệu đã phân tích
Khi các thuộc tính từ các nguồn dữ liệu khác nhau có cách đặt tên khác nhau, cách giải quyết nào hợp lý nhất?
Xóa tất cả các dữ liệu có tên không trùng khớp
Giữ nguyên tất cả tên thuộc tính khác nhau
Bỏ qua dữ liệu từ nguồn có tên thuộc tính khác biệt
Định nghĩa một bảng ánh xạ để đồng nhất tên thuộc tính
Khi dữ liệu có quá nhiều thuộc tính không liên quan, phương pháp nào phù hợp để xử lý?
check_box Sử dụng PCA hoặc lựa chọn đặc trưng
Giữ nguyên tất cả thuộc tính để đảm bảo không mất thông tin
Thêm nhiều thuộc tính mới để tăng tính đa dạng
Chuyển đổi dữ liệu về dạng văn bản để dễ xử lý hơn
Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?
Khi dữ liệu có nhiều giá trị số
Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng
Khi dữ liệu không có giá trị trống
Khi dữ liệu có kích thước nhỏ
Khi nào nên loại bỏ bản ghi có dữ liệu thiếu?
check_box Khi bản ghi chứa quá nhiều giá trị bị thiếu
Không bao giờ nên loại bỏ bản ghi
Khi dữ liệu có giá trị âm
Khi bản ghi chỉ thiếu một giá trị
Khi nào nên sử dụng chọn mẫu ngẫu nhiên phân tầng (Stratified Sampling)?
check_box Khi muốn đảm bảo tỷ lệ các nhóm dữ liệu trong tập mẫu giống như trong tập dữ liệu gốc
Khi muốn làm sạch dữ liệu trước khi tích hợp
Khi muốn tăng tốc độ xử lý bằng cách chọn ngẫu nhiên một phần nhỏ dữ liệu
Khi muốn giảm kích thước dữ liệu bằng cách loại bỏ toàn bộ một nhóm dữ liệu
Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?
check_box Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu
Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
Khi muốn nén dữ liệu để giảm dung lượng
Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp
Khi nào nên sử dụng phương pháp giảm số lượng dữ liệu (Numerosity Reduction)?
Khi muốn thay thế dữ liệu ban đầu bằng một dạng biểu diễn nhỏ hơn
Khi muốn tăng độ chính xác của dữ liệu bằng cách làm sạch nó
Khi muốn tạo thêm dữ liệu từ dữ liệu gốc
Khi muốn giữ nguyên dữ liệu nhưng thay đổi cách tổ chức
Khi nào nên sử dụng rời rạc hóa dữ liệu (Discretization)?
check_box Khi muốn chuyển đổi dữ liệu liên tục thành các nhóm giá trị rời rạc
Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
Khi muốn giảm kích thước dữ liệu bằng PCA
Khi muốn lọc bỏ dữ liệu nhiễu khỏi tập dữ liệu
Khi sử dụng Python, thư viện nào thường được dùng để chuẩn hóa dữ liệu?
TensorFlow
Matplotlib
Pandas
Scikit-learn
Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?
Là bước phân phối mô hình đã xây dựng
Là bước cuối cùng để kiểm tra mô hình
Là bước để xây dựng thuật toán học sâu
Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu
Khi xử lý dữ liệu thiếu của một cột chứa dữ liệu danh mục (categorical), phương pháp nào hợp lý?
Loại bỏ tất cả dữ liệu
Điền bằng số 0
Điền bằng giá trị phổ biến nhất
Điền bằng giá trị trung bình
Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?
Phân cụm
Luật kết hợp
Tạo đồ thị
Phân lớp
Làm sạch dữ liệu gồm những bước nào?
Xử lý dữ liệu nhiễu
Xử lý dữ liệu thiếu
Xử lý dữ liệu thiếu và Xử lý dữ liệu nhiễu
Biến đổi dữ liệu và Phân tích tương quan
Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?
check_box Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau
Tăng kích thước tập dữ liệu để kiểm tra trực quan
Xóa toàn bộ dữ liệu có cùng một ID
Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?
Tất cả các đáp án đều đúng
Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận
Xác suất thống kê giúp phân tích dữ liệu không chắc chắn
Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính
Một cách để giải quyết vấn đề dư thừa thuộc tính là gì?
check_box Loại bỏ các thuộc tính có thể suy luận từ các thuộc tính khác
Chỉ sử dụng một nguồn dữ liệu duy nhất
Bỏ qua bước tích hợp dữ liệu
Giữ lại tất cả các thuộc tính để có nhiều thông tin hơn
Một cách để giải quyết xung đột dữ liệu là gì?
check_box Xác định nguồn dữ liệu đáng tin cậy nhất để ưu tiên sử dụng
Chỉ sử dụng dữ liệu từ nguồn có nhiều giá trị trùng lặp nhất
Giữ nguyên tất cả các giá trị để đảm bảo không mất dữ liệu
Xóa tất cả các bản ghi bị xung đột
Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?
Chỉ sử dụng một nguồn dữ liệu duy nhất
Giữ nguyên tất cả các định dạng từ các nguồn
Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung
Bỏ qua sự khác biệt giữa các nguồn dữ liệu
Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?
Sử dụng biểu đồ boxplot
Loại bỏ dữ liệu có giá trị nhỏ nhất
Điền dữ liệu thiếu
Giữ nguyên dữ liệu
Một trong những nguyên nhân gây dư thừa thuộc tính trong dữ liệu là gì?
Khi cùng một thông tin được lưu trữ dưới nhiều dạng khác nhau
Khi dữ liệu không được chuẩn hóa đúng cách
Khi dữ liệu bị thiếu thông tin quan trọng
Khi dữ liệu chứa nhiều bản ghi lỗi
Một trong những yếu tố chất lượng dữ liệu là gì?
Hệ điều hành sử dụng
Tính chính xác
Tốc độ xử lý
Dung lượng dữ liệu
Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?
check_box Dữ liệu được công bố trong tạp chí khoa học uy tín
Dữ liệu từ một bài báo không rõ nguồn gốc
Dữ liệu từ mạng xã hội
Dữ liệu từ một trang web cá nhân
Nếu dữ liệu không được cập nhật kịp thời, nó có thể gặp vấn đề gì?
Giảm tính đầy đủ (Completeness)
Giảm tính chính xác (Accuracy)
Giảm tính thời sự (Timeliness)
Không có vấn đề gì
Nếu một bộ dữ liệu có kích thước quá lớn và gây tốn kém tài nguyên xử lý, phương pháp nào phù hợp nhất?
check_box Chọn mẫu hoặc giảm số chiều bằng PCA
Tách dữ liệu thành nhiều phần nhỏ và xử lý riêng biệt
Giữ nguyên dữ liệu và chỉ thay đổi thuật toán xử lý
Tăng thêm dữ liệu để đảm bảo mô hình hoạt động tốt hơn
Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?
Giữ nguyên dữ liệu
Loại bỏ bản ghi
Điền dữ liệu thiếu
Dùng kỹ thuật khớp chuỗi
Phương pháp nào giúp điền dữ liệu thiếu bằng giá trị trung bình hoặc trung vị?
check_box Sử dụng đại lượng trung tâm
Loại bỏ bản ghi
Không làm gì
Sử dụng hằng số chung
Phương pháp nào giúp giảm số chiều dữ liệu mà vẫn giữ lại phần lớn thông tin?
Chuẩn hóa dữ liệu
Loại bỏ bản ghi có dữ liệu thiếu
Phân tích thành phần chính (PCA)
Nhóm các bản ghi thành từng cụm
Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?
Loại bỏ dữ liệu ngoại lai
Phân tích tương quan
Chuẩn hóa dữ liệu
Phân khối dữ liệu (Binning)
Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?
Binning
Hồi quy
Điền dữ liệu thiếu
Phân cụm
Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?
check_box Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu
Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan
Vì nó làm tăng độ phức tạp của mô hình
Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn
Tại sao Python là lựa chọn phổ biến trong DMML?
Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học
Vì cú pháp phức tạp phù hợp với chuyên gia
Vì chỉ hoạt động trên một hệ điều hành cụ thể
Vì nó là ngôn ngữ lập trình thương mại
Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?
Giúp mô hình học chính xác hơn
Không có tác dụng gì
Giúp giảm thời gian xử lý của máy tính
Làm tăng kích thước dữ liệu
Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?
Nhóm các phần tử giống nhau
Giảm chiều dữ liệu
Phân loại dữ liệu
Dự đoán giá trị liên tục
Tích hợp dữ liệu là gì?
check_box Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
Quá trình làm sạch dữ liệu trước khi sử dụng
Quá trình giảm kích thước tập dữ liệu
Quá trình phân loại dữ liệu theo nhóm
Tiền xử lý dữ liệu là gì?
check_box Quá trình chuẩn bị dữ liệu trước khi sử dụng
Quá trình đánh giá mô hình
Quá trình xây dựng mô hình ML
Quá trình thu thập dữ liệu
Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?
check_box Dữ liệu không có mâu thuẫn giữa các nguồn
Dữ liệu có tính bảo mật cao
Dữ liệu không chứa giá trị trùng lặp
Dữ liệu luôn được cập nhật
Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?
Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu
Chọn các bản ghi có giá trị trung bình cao nhất
Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu
Chọn mẫu dựa trên phân cụm trước đó
Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?
one_hot_encoding() từ NumPy
normalize() từ Pandas
MinMaxScaler() từ Scikit-learn
StandardScaler() từ Scikit-learn
Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?
check_box KBinsDiscretizer() từ Scikit-learn
DecisionTreeClassifier() từ Scikit-learn
LabelEncoder() từ Scikit-learn
groupby() từ Pandas
Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?
Rời rạc hóa dữ liệu
Chuẩn hóa dữ liệu
Giảm số chiều dữ liệu
Làm sạch dữ liệu
Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?
Preprocess
Associate
Classify
Cluster
Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?
Khi dữ liệu không có nhãn rõ ràng
Khi dữ liệu bị mất trong quá trình thu thập
Khi dữ liệu bị trùng lặp trong cùng một nguồn
Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu
Vì sao cần chuẩn hóa dữ liệu (Normalization)?
check_box Giúp dữ liệu có cùng đơn vị đo, tránh ảnh hưởng bởi giá trị quá lớn hoặc quá nhỏ
Giúp tạo ra dữ liệu mới từ dữ liệu gốc
Giúp dữ liệu có nhiều giá trị phong phú hơn
Giúp tăng tốc độ xử lý dữ liệu
Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?
Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
Vì mỗi phương pháp có ưu và nhược điểm riêng
Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
Để tăng độ phức tạp của quá trình tiền xử lý
Vì sao không nên sử dụng giá trị mặc định như "Unknown" để thay thế dữ liệu thiếu?
Vì nó làm mất dữ liệu
Vì nó làm giảm tính chính xác
Vì nó có thể làm sai lệch phân tích dữ liệu
Vì nó làm tăng kích thước dữ liệu
Vì sao tính đầy đủ (Completeness) quan trọng trong dữ liệu?
Không quan trọng lắm
Giúp tăng tốc độ xử lý mô hình
Giúp dữ liệu không bị thiếu thông tin quan trọng
Giảm kích thước tập dữ liệu
Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?
Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
Giúp giảm kích thước tập dữ liệu bằng PCA
Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
Giúp mô hình học máy chạy nhanh hơn
Xung đột dữ liệu trong tích hợp dữ liệu là gì?
Khi dữ liệu không được cập nhật kịp thời
Khi dữ liệu không có đủ thuộc tính để sử dụng
Khi dữ liệu bị trùng lặp trong cùng một bảng
Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu

Nếu bạn thấy tài liệu này có ích và muốn tặng chúng tớ 1 ly café
Hãy mở Momo hoặc ViettelPay và quét QRCode. Đây là sự động viên khích lệ rất lớn với chúng tớ và là nguồn lực không nhỏ để duy trì website

Momo
ViettelPay

Không tìm thấy đáp án? Cần hỗ trợ hoàn thành môn học EHOU? Cần tư vấn về học trực tuyến hay bạn chỉ muốn góp ý?
zalo.me/Thế Phong, SĐT 08 3533 8593

Cần hỗ trợ nhanh?
Truy cập Zalo hỗ trợ học tập tại ĐÂY.  Hoặc quét QRCode Zalo

Zalo hỗ trợ học tập

Cần hỗ trợ nhanh?
Truy cập Zalo hỗ trợ học tập tại ĐÂY.  Hoặc quét QRCode Zalo

Zalo hỗ trợ học tập