Lý thuyết Tin học 12 Bài 28 (Kết nối tri thức): Thực hành trải nghiệm trích rút thông tin và tri thức

288

Với tóm tắt lý thuyết Tin học lớp 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức sách Kết nối tri thức hay, chi tiết giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt môn Tin học 12.

Tin học 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

A. Lý thuyết Tin học 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Nhiệm vụ chung: Thực hiện một số bước xử lí và phân tích dữ liệu đơn giản:

Yêu cầu: Phân tích mối quan hệ giữa các nhóm khách hàng với xếp hạng khả năng tín dụng.

Dữ liệu xếp hạng khả năng tín dụng khách hàng từ một đơn vị cho vay tài chính, được trích từ Kaggle, bao gồm các cột:

- Mã định danh

- Số tuổi

- Thu nhập năm (tính theo USD)

- Khả năng tín dụng

Quy trình xử lý và phân tích dữ liệu:

1. ửng dụng Excel Data Analysis (Microsoft Office 365):

- Thực hiện các thao tác xử lý và phân tích dữ liệu.

- Trích rút thông tin và tri thức hữu ích từ dữ liệu.

Mục đích:

- Hướng dẫn các thao tác cơ bản trong xử lý và phân tích dữ liệu.

- Giúp người học trải nghiệm việc trích rút thông tin và tri thức từ dữ liệu tín dụng.

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Nhiệm vụ 1: Chuẩn bị dữ liệu với Power Query

Yêu cầu: Bổ sung phân loại dữ liệu từ dữ liệu đã có.

Hướng dẫn:

- Chuẩn bị dữ liệu là một giai đoạn mất nhiều thời gian và công sức nhất trong quy trình khoa học dữ liệu.

- Trong nhiệm vụ này, chúng ta sẽ bổ sung thêm cột mới trong bảng dữ liệu đã có.

Thay đổi các cột dữ liệu:

- Quyết định cột nào cần thêm vào, cột nào cần bỏ đi, cần được cân nhắc kỹ lưỡng trước khi bắt đầu giai đoạn Chuẩn bị dữ liệu.

- Dựa trên yêu cầu phân tích dữ liệu, bổ sung các cột phù hợp.

a) Tải dữ liệu vào Power Query

Bước 1. Tải dữ liệu từ trang hanhtrangso.nxbgd.vn và lưu với tên VD_KHDL.

Bước 2. Mở tệp VD_KHDL trong Excel.

Bước 3. Chọn vùng dữ liệu muốn xử lí: chọn Data → Get Data → From Table/ Range hoặc Data → From Table tuỳ theo phiên bản Excel trên từng máy tính cụ thể.

b) Tiễn xử lí dữ liệu

Bước 1. Tạo cột Mức thu nhập từ cột Thu nhập năm:

• Trên thanh công cụ, chọn Add Column → Conditional Column (Hình 28.2).

• Phân mức thu nhập thành các nhóm: Thấp: <= 25000;Trungbình:(25 000 – 50 000]; Khá: (5000075000];Cao:>=75 000. Nhấn OK để hoàn thành việc phân mức (Hình 28.3).

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Bước 2. Thực hiện các thao tác tương tự Bước 1 đối với cột Số tuổi để tạo cột Nhóm tuổi: < 21; 21 - 30; 31 - 40; 41 - 50; > 50.

Kết quả nhận được là bảng dữ liệu như Hình 28.4.

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Bước 3. Lưu dữ liệu đã qua tiền xử lí:

- Trên thanh công cụ, chọn Home và sau đó chọn Close & Load to hoặc Close & Load, tùy theo cài đặt cụ thể của phiên bản Excel mà bạn đang sử dụng.

- Dữ liệu sau khi được xử lý sẽ được lưu vào một Sheet mới. Bạn có thể đổi tên Sheet này, ví dụ thành “Done Query” để dễ nhớ và sử dụng sau này.

Bước 4. Đổi tên bảng dữ liệu đã qua xử lý:

- Để thuận tiện cho việc lập bảng tổng hợp bằng PivotTable, bạn có thể đổi tên bảng dữ liệu đã qua xử lý thành “Processed_Data”.

- Thực hiện như sau:

1. Nhấp chuột vào ô bất kỳ trong bảng dữ liệu đã qua tiền xử lý.

2. Trên thanh công cụ, chọn Table Design.

3. Di chuyển chuột đến Table Name và đổi tên bảng theo yêu cầu (Hình 28.5).

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Lưu ý: Sau khi đã lưu kết quả tiền xử lí dữ liệu, nếu muốn tiếp tục thực hiện thêm những thao tác khác với các cột dữ liệu, thì chỉ cần hiện bảng chọn như Hình 28.5, chọn Query → Edit.

c) Tạo trình tự sắp xếp dữ liệu mong muốn

Cột Khả Năng Tín Dụng có ba hạng mục: Kém, Trung Bình, Tốt. Theo trình tự mặc định của bảng chữ cái, khi sắp xếp, dữ liệu cột này sẽ được xếp theo thứ tự Kém – Tốt – Trung bình. Để thay đổi trình tự sắp xếp dữ liệu này theo mong muốn, ví dụ theo trình tự Kém – Trung bình – Tốt, ta cần thực hiện các bước sau:

Bước 1.File → Options → Advanced

Bước 2. Di chuột xuống mục General Custom Lists

→>> Edit

Bước 3. Tạo danh sách mới: NEW LIST → Add (xem Hình 28.6).

Làm tương tự bước trên với cột Nhóm tuổi và cột Mức thu nhập để bổ sung các danh sách sắp xếp thứ tự tương ứng: < 21, 21 – 30, 31 – 40, 41 – 50, > 50 và Cao, Khá, Trung bình, Thấp.

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Nhiệm vụ 2: Tổng hợp dữ liệu bằng PivotTable

Yêu cầu: Tổng hợp Khả năng tín dụng theo Mức thu nhập.

Hướng dẫn: Sử dụng PivotTable (Bảng tổng hợp) trong Excel để tổng hợp dữ liệu.

a) Khởi tạo bảng PivotTable

Bước 1: Nhấn chuột vào ô bất kì trong bảng Processed_Data đã qua tiền xử lí.

Bước 2: Trên thanh công cụ, chọn Insert → PivotTable:

- Chọn New Worksheet.

- Nhấn OK.

b) Tạo bảng tổng hợp Khả năng tín dụng theo Mức thu nhập

Bước 1: Tạo bảng tổng hợp để tính số lượng mỗi hạng mức tín dụng theo từng nhóm thu nhập bằng cách kéo thả các cột vào các vùng Columns, Rows và Values tương ứng. Trong đó, Rows là tiêu chí được sử dụng để tổng hợp dữ liệu có trong Columns.

Bước 2: Thực hiện việc kéo thả các cột dữ liệu vào các vùng Columns, Rows và Values tương ứng và quan sát sự thay đổi kết quả trên màn hình để chọn bảng tổng hợp phù hợp với mong muốn. Ví dụ như Hình 28.8, trong đó Grand Total là kết quả tổng cộng theo hàng/cột dữ liệu tương ứng.

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

c) Điều chỉnh việc hiển thị kết quả thống kê

Nhận xét: Có thể thấy, số lượng khách hàng ở mỗi nhóm thu nhập có sự khác biệt quá lớn, việc so sánh các giá trị này giữa các mức tín dụng với nhau không hợp lí. Vì vậy, ta sẽ điều chỉnh bảng tổng hợp trong Hình 28.8 để tính toán tỉ lệ phần trăm tương ứng thay cho số lượng khách hàng tuyệt đối.

Bước 1: Nháy nút phải chuột vào bảng PivotTable đã tạo ra (Hình 28.8).

Bước 2: Trong thực đơn đổ xuống, chọn Show Values As → % of Row Total để nhận được bảng tổng hợp mới.

Nhiệm vụ 3: Tạo biểu đồ trực quan hóa dữ liệu

Yêu cầu: Tạo biểu đồ mô tả dữ liệu tổng hợp do PivotTable tạo ra.

*Hướng dẫn: Sử dụng PivotChart trong Excel, một công cụ liên kết với PivotTable, để thực hiện nhiệm vụ này.

Tạo biểu đồ tổng hợp khả năng tín dụng theo nhóm thu nhập:

Bước 1: Nháy chuột vào vị trí bất kỳ trong bảng tổng hợp do PivotTable tạo ra

Bước 2: Trên thanh công cụ, chọn Insert → PivotChart → Column → OK. Ta nhận được biểu diễn dữ liệu nêu trên bằng biểu đồ cột (xem Hình 28.10).

Lý thuyết Tin 12 Kết nối tri thức Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

Lưu ý: Hình 28.10 là biểu đồ kết quả được bổ sung thêm nhãn dữ liệu, tên các mức thu nhập, tiêu đề cột ở mỗi trục biểu đồ,... để dễ dàng đọc số liệu qua biểu đồ. Việc bổ sung này được thực hiện tương tự như khi lập biểu đồ trong Excel.

Nhiệm vụ 4: Phân tích kết quả tổng hợp dữ liệu

Yêu cầu: Quan sát kết quả tổng hợp và biểu diễn dữ liệu để rút ra các kết luận về tính chất/mối quan hệ/xu hướng dữ liệu (nếu có) dựa trên mục tiêu phân tích dữ liệu đặt ra.

Hướng dẫn: Việc phân tích kết quả tổng hợp dữ liệu là một phần của quá trình phân tích dữ liệu. Công việc này thực chất là việc trích rút các thông tin và tri thức hữu ích có ý nghĩa để trả lời các câu hỏi xuất phát từ mục tiêu phân tích dữ liệu.

Thông qua các bước đã thực hiện trong việc chuẩn bị và phân tích dữ liệu, chúng ta có thể rút ra những kết luận quan trọng liên quan đến khả năng tín dụng của khách hàng dựa trên mức thu nhập và độ tuổi, giúp đưa ra các quyết định kinh doanh chính xác hơn. Việc sử dụng công cụ Excel Data Analysis không chỉ giúp tiết kiệm thời gian mà còn tăng tính chính xác trong phân tích và ra quyết định.

a) Trả lời câu hỏi: Khả năng tín dụng nào có xu hướng ổn định nhất trong các nhóm thu nhập?

Trả lời: Căn cứ vào bảng tổng hợp và biểu đồ tương ứng ở Hình 28.9 và Hình 28.10, khả năng tín dụng Trung bình là ổn định nhất trong tất cả các nhóm thu nhập, chiếm trên 50% tổng số khách hàng của từng nhóm.

b) Hãy cho biết:Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất?

- Trả lời: Nhóm thu nhập cao có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất.

- Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất?

- Trả lời: Nhóm thu nhập thấp có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất.

- Nhóm thu nhập nào có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém?

- Trả lời: Nhóm thu nhập cao có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém.

- Nhóm thu nhập nào có khả năng tín dụng mức Kém cao hơn mức Tốt?

- Trả lời: Nhóm thu nhập thấp có khả năng tín dụng mức Kém cao hơn mức Tốt.

Lưu ý: Kết quả phân tích dữ liệu có thể trở thành tiền đề cho một nghiên cứu tiếp theo. Ví dụ, trong nhóm khách hàng có mức thu nhập loại Khá, số có khả năng tín dụng mức Kém lớn gần gấp ba số có khả năng tín dụng mức Tốt – điều này có thể gợi ý cho một cuộc điều tra xã hội nhằm tìm hiểu nguyên nhân của thực tế này.

B. Trắc nghiệm Tin học 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức

I. Câu trắc nghiệm nhiều phương án lựa chọn. Thí sinh trả lời từ câu 1 đến câu 10. Mỗi câu hỏi thí sinh chỉ lựa chọn một phương án.

Câu 1: Trong nhiệm vụ tổng hợp dữ liệu bằng PivotTable, vùng Values dùng để làm gì?

A. Hiển thị tiêu đề của dữ liệu

B. Tính toán tổng hợp các giá trị dữ liệu

C. Lọc dữ liệu theo các tiêu chí

D. Tạo các cột dữ liệu mới

Đáp án: B

Giải thích: Vùng Values trong PivotTable được sử dụng để tính toán tổng hợp các giá trị dữ liệu, chẳng hạn như tính tổng, số lượng hoặc trung bình của các giá trị trong bảng.

Câu 2: Khi tạo biểu đồ mô tả dữ liệu từ PivotTable, bạn nên chọn loại biểu đồ nào để hiển thị dữ liệu dạng cột?

A. Line Chart

B. Pie Chart

C. Column Chart

D. Bar Chart

Đáp án: C

Giải thích: Để hiển thị dữ liệu dạng cột từ PivotTable, bạn nên chọn Column Chart, loại biểu đồ này giúp bạn dễ dàng so sánh các giá trị giữa các nhóm.

Câu 3: Sau khi đã lưu dữ liệu đã qua tiền xử lý, nếu bạn muốn thực hiện thêm thao tác với các cột dữ liệu, bạn cần làm gì?

A. Tạo một bảng mới

B. Xóa dữ liệu đã lưu và tải lại dữ liệu mới

C. Chọn Query → Edit trong bảng chọn

D. Nhập lại dữ liệu từ nguồn gốc

Đáp án: C

Giải thích: Để thực hiện thêm thao tác với các cột dữ liệu sau khi đã lưu dữ liệu đã qua tiền xử lý, bạn chỉ cần chọn Query → Edit trong bảng chọn để tiếp tục chỉnh sửa dữ liệu.

Câu 4: Khi phân tích kết quả tổng hợp dữ liệu, bạn cần rút ra các kết luận dựa trên việc gì?

A. Mục tiêu phân tích dữ liệu đã đặt ra

B. Đánh giá hiệu suất của phần mềm

C. So sánh các công cụ phân tích dữ liệu

D. Xem xét các lỗi trong dữ liệu

Đáp án: A

Giải thích: Khi phân tích kết quả tổng hợp dữ liệu, bạn cần rút ra các kết luận dựa trên mục tiêu phân tích dữ liệu đã đặt ra để trả lời các câu hỏi liên quan và đạt được mục tiêu phân tích.

Câu 5: Trong quy trình chuẩn bị dữ liệu, việc thay đổi tên bảng dữ liệu giúp bạn làm gì?

A. Tăng tốc độ xử lý dữ liệu

B. Tạo ra các biểu đồ mới

C. Thuận tiện hơn trong việc lập bảng tổng hợp bằng PivotTable

D. Loại bỏ dữ liệu không cần thiết

Đáp án: C

Giải thích: Việc thay đổi tên bảng dữ liệu giúp bạn dễ dàng nhận diện và làm việc với bảng dữ liệu khi lập bảng tổng hợp bằng PivotTable, đặc biệt là trong các tác vụ phân tích dữ liệu phức tạp.

Câu 6: Khi chuẩn bị dữ liệu với Power Query, bước đầu tiên là gì?

A. Tạo cột mới cho mức thu nhập

B. Tải dữ liệu từ trang web và lưu vào Excel

C. Thay đổi tên bảng dữ liệu

D. Chạy các thuật toán phân tích dữ liệu

Đáp án: B

Giải thích: Bước đầu tiên trong việc chuẩn bị dữ liệu với Power Query là tải dữ liệu từ trang web và lưu vào Excel để có thể thực hiện các thao tác xử lý tiếp theo.

Câu 7: Để phân loại mức thu nhập thành các nhóm như Thấp, Trung bình, Khá, Cao, bạn nên sử dụng công cụ nào trong Power Query?

A. PivotTable

B. Conditional Column

C. Filter

D. Group By

Đáp án: B

Giải thích: Trong Power Query, bạn sử dụng công cụ Conditional Column để phân loại các giá trị trong cột thành các nhóm khác nhau như Thấp, Trung bình, Khá, Cao.

Câu 8: Khi tạo bảng tổng hợp (PivotTable) để tổng hợp dữ liệu, bạn nên kéo cột nào vào vùng Rows?

A. Khả năng tín dụng
B. Mức thu nhập
C. Số tuổi
D. Mã định danh

Đáp án: B

Giải thích: Khi tạo bảng tổng hợp để tổng hợp dữ liệu, bạn thường kéo cột như Mức thu nhập vào vùng Rows để phân tích số lượng hoặc tỷ lệ phần trăm của từng nhóm thu nhập.

Câu 9: Để thay đổi trình tự sắp xếp của cột Khả năng tín dụng theo thứ tự mong muốn, bạn cần thực hiện bước nào?

A. Thay đổi kiểu dữ liệu của cột

B. Tạo danh sách mới trong General Custom Lists

C. Áp dụng công thức tính toán

D. Xóa các giá trị không cần thiết

Đáp án: B

Giải thích: Để thay đổi trình tự sắp xếp của cột Khả năng tín dụng, bạn cần tạo danh sách mới trong mục General Custom Lists để xác định thứ tự sắp xếp theo mong muốn.

Câu 10: Khi điều chỉnh bảng tổng hợp (PivotTable) để tính toán tỉ lệ phần trăm, bạn cần thực hiện thao tác nào?

A. Chọn Show Values As → % of Row Total

B . Chọn Filter → Percentage

C. Thay đổi cột giá trị sang tỉ lệ phần trăm

D. Sắp xếp lại dữ liệu theo thứ tự giảm dần

Đáp án: A

Giải thích: Để tính toán tỉ lệ phần trăm trong bảng tổng hợp, bạn chọn Show Values As → % of Row Total để chuyển đổi số lượng khách hàng thành tỉ lệ phần trăm so với tổng số khách hàng của mỗi hàng.

II. Câu trắc nghiệm đúng sai. Thí sinh trả lời từ câu 1 đến câu 2. Trong mỗi ý a), b), c), d) ở mỗi câu, thí sinh chọn đúng hoặc sai

Câu 1: Khi sử dụng Power Query trong Excel để tiền xử lý dữ liệu tín dụng, các bước sau đây là đúng hay sai?

a) Tải dữ liệu từ trang web hanhtrangso.nxbgd.vn và lưu với tên VD_KHDL là bước đầu tiên trong quy trình tiền xử lý dữ liệu.

b) Trong Power Query, để phân mức thu nhập, ta cần tạo cột mới và phân nhóm thu nhập thành các nhóm: Thấp, Trung bình, Khá, Cao

c) Để lưu dữ liệu đã qua tiền xử lý trong Power Query, ta chỉ cần nhấn "Close & Load" và không cần phải đổi tên bảng dữ liệu.

d) Khi sắp xếp dữ liệu theo cột Khả Năng Tín Dụng, Excel sẽ tự động sắp xếp theo thứ tự: Kém, Trung bình, Tốt mà không cần phải thay đổi cài đặt mặc định.

a) Đúng. Đây là bước đầu tiên để bắt đầu làm việc với dữ liệu trong Power Query

b) Đúng. Đây là một bước quan trọng trong việc phân loại dữ liệu thu nhập để dễ dàng phân tích hơn.

c) Sai. Mặc dù "Close & Load" là cách để lưu dữ liệu, việc đổi tên bảng dữ liệu thành “Processed_Data” là một bước cần thiết để thuận tiện cho việc sử dụng sau này.

d) Sai. Theo mặc định, Excel sắp xếp theo thứ tự chữ cái, do đó cần phải tạo danh sách sắp xếp tùy chỉnh để đạt được thứ tự mong muốn.

Câu 2: Trong quá trình tổng hợp dữ liệu bằng PivotTable, các thao tác sau đây là đúng hay sai?

a) Để tính số lượng mỗi hạng mức tín dụng theo nhóm thu nhập trong PivotTable, ta kéo thả cột dữ liệu vào các vùng Columns, Rows và Values.

b) Sau khi tạo bảng tổng hợp bằng PivotTable, nếu muốn chuyển đổi số lượng khách hàng thành tỷ lệ phần trăm, ta cần nhấn chuột phải vào bảng PivotTable và chọn “Show Values As” → “% of Row Total.”

c) Để tạo biểu đồ mô tả dữ liệu tổng hợp, ta cần phải tạo bảng tổng hợp mới từ đầu.

d) Việc bổ sung nhãn dữ liệu và tiêu đề cho biểu đồ trong Excel là không cần thiết vì nó không làm tăng tính dễ đọc của biểu đồ

a) Đúng. Đây là cách sử dụng PivotTable để tổng hợp và phân tích dữ liệu dựa trên các tiêu chí khác nhau.

b) Đúng. Đây là cách để điều chỉnh việc hiển thị kết quả thống kê từ số lượng khách hàng thành tỷ lệ phần trăm.

c) Sai. Để tạo biểu đồ từ PivotTable, ta có thể chọn PivotChart trực tiếp từ bảng tổng hợp đã có mà không cần phải tạo bảng tổng hợp mới.

d) Sai. Việc bổ sung nhãn dữ liệu và tiêu đề cho biểu đồ giúp dễ dàng đọc và hiểu số liệu được biểu diễn.

III. Câu trả lời ngắnThí sinh trả lời từ câu 1 đến câu 3

Câu 1: Trong quy trình chuẩn bị dữ liệu với Power Query, bước nào là đúng để phân loại dữ liệu thu nhập năm thành các nhóm?

Đáp án: Chọn Add Column → Conditional Column và phân mức thu nhập thành các nhóm: Thấp, Trung bình, Khá, Cao.

Giải thích: Để phân loại dữ liệu thu nhập năm thành các nhóm, bạn cần sử dụng chức năng Conditional Column trong Power Query để tự động phân loại theo các nhóm thu nhập cụ thể. Việc này giúp dễ dàng phân loại và phân tích dữ liệu.

Câu 2: Khi tổng hợp dữ liệu bằng PivotTable trong Excel, làm thế nào để so sánh các giá trị giữa các mức tín dụng theo nhóm thu nhập một cách hợp lý?

Đáp án: Điều chỉnh bảng tổng hợp để tính toán tỉ lệ phần trăm theo từng nhóm thu nhập.

Giải thích: Để so sánh các mức tín dụng giữa các nhóm thu nhập chính xác, bạn nên tính toán tỉ lệ phần trăm thay vì số lượng khách hàng tuyệt đối. Điều này giúp so sánh các mức tín dụng giữa các nhóm có số lượng khách hàng khác nhau một cách công bằng.

Câu 3: Khi tạo biểu đồ trực quan hóa dữ liệu từ PivotTable, để biểu đồ dễ đọc hơn, bạn nên làm gì?

Đáp án: Thêm nhãn dữ liệu, tên các mức thu nhập và tiêu đề cột ở mỗi trục biểu đồ.

Giải thích: Để làm cho biểu đồ trực quan hóa dữ liệu dễ đọc và hiểu hơn, bạn nên thêm nhãn dữ liệu, tên các mức thu nhập và tiêu đề cột ở mỗi trục. Điều này giúp người xem nhanh chóng nhận diện thông tin và kết quả phân tích từ biểu đồ.

Đánh giá

0

0 đánh giá