Kiểm tra - Đánh giá

Thứ tư - 08/05/2024 16:05

Lý thuyết khảo thí

https://sites.google.com/view/gdgd/ki%E1%BB%83m-tra-%C4%91%C3%A1nh-gi%C3%A1

Đảm bảo chất lượng giáo dục

KIỂM TRA - ĐÁNH GIÁ

Lý thuyết Ứng đáp câu hỏi

Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT) là một lý thuyết của khoa học về đo lường trong giáo dục, ra đời từ nửa sau của thế kỷ 20 và phát triển mạnh mẽ cho đến nay. Lý thuyết trắc nghiệm hiện đại được xây dựng dựa trên mô hình toán học, đòi hỏi nhiều tính toán, nhưng nhờ sự tiến bộ vượt bậc của công nghệ tính toán nên nó đã phát triển nhanh chóng và đạt được những thành tựu quan trọng. Để đánh giá đối tượng nào đó CTT tiếp cận ở cấp độ một đề kiểm tra, còn lý thuyết trắc nghiệm hiện đại tiếp cận ở cấp độ từng câu hỏi, do đó lý thuyết này thường được gọi là Lý thuyết Ứng đáp Câu hỏi. Trong số các nhà nghiên cứu có nhiều đóng góp ban đầu cho IRT có thể kể các tên Lord, F.M; Rasch, Wright, B.D v.v..

Chúng ta sẽ quy ước gọi một con người có thuộc tính cần đo lường là thí sinh (person -TS) và một đơn vị của công cụ để đo lường (test) là câu hỏi (item –CH). Để đơn giản hóa cho mô hình nghiên cứu xuất phát có thể đưa ra các giả thiết sau đây:

- Năng lực tiềm ẩn (latent trait) cần đo chỉ có một chiều (unidimensionality), hoặc ta chỉ đo một chiều của năng lực đó.

- Các CH là độc lập (local independence), tức là việc trả lời một CH không ảnh hưởng đến các CH khác.

Khi thỏa mãn hai giả thiết nêu trên thì không gian năng lực tiềm ẩn đầy đủ chỉ chứa một năng lực. Khi ấy, người ta giả định là có một hàm đặc trưng câu hỏi (Hàm ĐTCH - Item Characteristic Function) phản ánh mối quan hệ giữa các biến không quan sát được (năng lực của TS) và các biến quan sát được (việc trả lời CH). Đồ thị biểu diễn hàm đó được gọi là đường cong đặc trưng câu hỏi (Đường cong ĐTCH - Item Characteristic Curve).

Nguồn: https://vi.wikipedia.org/

Lý thuyết Ứng đáp câu hỏi 1 tham số (Mô hình Rasch)

Gọi một con người có thuộc tính cần đo lường là thí sinh (person -TS) và một đơn vị của công cụ để đo lường (test) là câu hỏi (item –CH). Đối với các cặp TS – CH, cần xây dựng một cái thang chung để biểu diễn các mối tương tác giữa chúng.

Trước hết giả sử ta có thể biểu diễn năng lực tiềm ẩn của các TS bằng một biến liên tục θ dọc theo một trục, từ –∞ đến +∞. Khi xét phân bố năng lực của một tập hợp TS nào đó, ta gán giá trị trung bình của phân bố năng lực của tập hợp TS đó bằng 0, làm gốc của thang đo năng lực, và độ lệch tiêu chuẩn của phân bố năng lực bằng 1. Tiếp đến, chọn một thuộc tính của CH để đối sánh với năng lực: tham số biểu diễn thuộc tính quan trọng nhất đó là độ khó b của CH (được xác định khác với trong CTT). Cũng theo cách tương tự có thể biểu diễn độ khó của các CH bằng một biến liên tục dọc theo một trục, từ –∞ đến +∞. Khi xét phân bố độ khó của một tập hợp CH nào đó, ta chọn giá trị trung bình của phân bố độ khó đó bằng 0, làm gốc của thang đo độ khó, và độ lệch tiêu chuẩn của phân bố độ khó CH bằng 1.

Bắt đầu bằng cách xây dựng một hàm đáp ứng CH cho một CH nhị phân, tức là CH mà câu trả lời chỉ có 2 mức: 0 (sai) và 1 (đúng). Giả thiết cơ bản sau đây của George Rasch, nhà toán học Đan Mạch, được đưa ra làm cơ sở để xây dựng mô hình hàm đáp ứng CH một tham số: Một người có năng lực cao hơn một người khác thì xác suất để người đó trả lời đúng một câu hỏi bất kì phải lớn hơn xác suất của người sau; cũng tương tự như vậy, một câu hỏi khó hơn một câu hỏi khác có nghĩa là xác suất để một người bất kì trả lời đúng câu hỏi đó phải bé hơn xác suất để trả lời đúng câu hỏi sau (Rasch, 1960).

Với giả thiết nêu trên, có thể thấy xác suất để một TS trả lời đúng một CH nào đó phụ thuộc vào tương quan giữa năng lực của TS và độ khó của CH. Chọn Θ để biểu diễn năng lực của TS, và β để biểu diễn độ khó của CH. Gọi P là xác suất trả lời đúng CH, xác suất đó sẽ phụ thuộc vào tương quan giữa Θ và β theo một cách nào đó, do vậy ta có thể biểu diễn: f(P) = Θ/β trong đó f là một hàm nào đó của xác suất trả lời đúng. Biểu thức (4) chính là hàm đặc trưng của mô hình ứng đáp CH 1 tham số, hay còn gọi là mô hình Rasch, có thể biểu diễn bằng đồ thị dưới đây (khi cho b = 0):

Trong tiến trình lịch sử hình thành IRT, không phải mô hình Rasch xuất hiện trước các mô hình khác. Nhà toán học và tâm lý học người Đan Mạch, George Rasch, đã có ý tưởng xây dựng "một mô hình cấu trúc cho các CH trong một đề trắc nghiệm" từ thập niên 1950. Động cơ của Rasch muốn thể hiện qua mô hình của mình là hạn chế việc dựa vào tổng thể TS khi phân tích các đề trắc nghiệm (ĐTN). Theo ông, phân tích trắc nghiệm chỉ đáng giá khi dựa vào từng cá nhân TS, với các thuộc tính của TS và CH được tách riêng. Để biện minh cho quan điểm của mình, ông thường dẫn lời nhà tâm lý học Skinner, người rất ghét việc căn cứ vào thống kê dựa trên tổng thể để kết luận và thường triển khai nghiên cứu thực nghiệm trên từng cá thể. Quan điểm của Rasch đã đánh dấu sự chuyển tiếp từ CTT, dựa trên tổng thể với việc nhấn mạnh đến biện pháp tiêu chuẩn hoá và ngẫu nhiên hoá, sang IRT với mô hình xác suất tương tác giữa một TS và một CH. Sự tồn tại của các số liệu thống kê đầy đủ của các tham số của CH trong mô hình Rasch có thể được sử dụng vào việc điều chỉnh ước lượng các tham số năng lực theo một cách thức đặc biệt.

Một trong những ưu điểm lớn của mô hình Rasch là tách biệt được năng lực của TS và đặc trưng của CH (độ khó) trong phép đo lường. Thật vậy, nếu có hai TS có năng lực θ1 và θ2 cùng ứng đáp một CH thì từ biểu thức (3) có thể thu được ln (O₁/O₂) = (θ₁ – θ₂), tức là có thể xác định các năng lực của TS không phụ thuộc độ khó CH. Vì tính đối xứng của biểu thức, cũng dễ thấy rằng, ngược lại, có thể xác định các độ khó của CH không phụ thuộc năng lực TS. Chính vì tính chất cơ bản này nên có thể đặt năng lực của các TS và độ khó của các CH trên cùng một thang đo để so sánh chúng với nhau.

Nguồn: https://vi.wikipedia.org/

Lý thuyết Ứng đáp câu hỏi 2 và 3 tham số (Mô hình Birnbaum)

Như đã biết, trong CTT, người ta còn sử dụng một tham số quan trọng thứ hai đặc trưng cho CH là độ phân biệt, từ đó nhiều nhà nghiên cứu mong muốn đưa đặc trưng đó vào mô hình đường cong ĐTCH. Muốn vậy, có thể đưa thêm tham số a liên quan đến đặc trưng phân biệt của CH vào hệ số ở số mũ của hàm e, kết quả sẽ có biểu thức (5):

(5) chính là hàm ĐTCH 2 tham số. Hệ số a biểu diễn độ dốc của đường cong ĐTCH tại điểm có hoành độ θ= b và tung độ P(θ) = 0,5. Hàm ĐTCH 2 tham số và hàm ĐTCH 1 tham số theo mô hình Rasch có cùng dạng thức, chỉ khác nhau ở giá trị tham số a (đối với mô hình 1 tham số a = 1). Hình 2 biểu diễn các đường cong ĐTCH theo mô hình 2 tham số với b=0, và a lần lượt bằng 0,5; 1,0; 1,5; 2,0; 3,0 nên độ dốc của các đường cong ở đoạn giữa tăng dần.

Có thể thấy rằng tung độ tiệm cận trái của các đường cong ĐTCH 1 và 2 tham số đều có giá trị bằng 0, điều đó có nghĩa là nếu TS có năng lực rất thấp, tức là Θ → 0 và θ = ln Θ → -∞, thì xác suất P(θ) trả lời đúng CH cũng bằng 0.

Tuy nhiên, trong thực tế triển khai trắc nghiệm, chúng ta đều biết có khi năng lực của TS rất thấp nhưng do đoán mò hoặc trả lời hú hoạ một CH nên TS vẫn có một khả năng nào đó trả lời đúng CH. Trong trường hợp đã nêu thì tung độ tiệm cận trái của đường cong không phải bằng 0 mà bằng một giá trị xác định c nào đó, với 0 < c < 1. Từ thực tế nêu trên, người ta có thể đưa thêm tham số c phản ánh hiện tượng đoán mò vào hàm ứng đáp CH để tung độ tiệm cận trái của đường cong khác 0. Kết quả sẽ thu được biểu thức 6 là hàm ĐTCH 3 tham số. Rõ ràng khi θ → -∞, hàm P(θ)→ c. Trong trường hợp hàm ĐTCH 3 tham số khi θ = b sẽ có P(θ) = (1+c)/2. Hình 3 biểu diễn các đường cong ĐTCH theo mô hình 3 tham số với a = 2 và các tham số c có giá trị bằng 0,1 và 0,2.

Mô hình đường cong ĐTCH 2 và 3 tham số do Allan Birnbaum đề xuất đầu tiên, nên đôi khi được gọi là các mô hình Birnbaum.

Nguồn: https://vi.wikipedia.org/

Lý thuyết trắc nghiệm cổ điển - Độ khó P

Lý thuyết Trắc nghiệm cổ điển (Classical Test Theory) là một trong những lý thuyết quan trọng liên quan đến khoa học đo lường đánh giá được xây dựng dựa trên khoa học xác suất và thống kê. Lý thuyết này được ứng dụng trong việc phân tích câu hỏi trắc nghiệm nhằm làm tăng chất lượng của chúng, loại bỏ, sửa chữa và tuyển chọn câu hỏi theo yêu cầu. Tuy nhiên, lý thuyết này vẫn có một số hạn chế mà sau này được khắc phục phần lớn ở Lý thuyết Ứng đáp câu hỏi. Mặc dù vậy, không thể phủ nhận một số ứng dụng của nó trong việc phân tích đề thi ở một số khía cạnh sau:

* Độ khó của câu hỏi trắc nghiệm (p) là: tỷ số phần trăm số thí sinh làm đúng câu hỏi trên tổng số thí sinh tham gia làm câu hỏi đó. Giá trị p của mỗi câu hỏi chưa nói lên được câu hỏi đó tốt hay không, nhưng nó nói lên độ khó tương đối của câu hỏi đó đối với số thí sinh tham gia làm bài test. Nếu một nhóm thí sinh khác trả lời câu hỏi đó thì giá trị p có thể khác. Giá trị p có ý nghĩa quan trọng trong quá trình phân tích câu hỏi. Từ p có thể thấy được mức độ phù hợp của các câu hỏi đó đối với nhóm thí sinh. Ngoài ra, giá trị p còn giúp xác định một số lỗi khác của câu hỏi để kịp thời điều chỉnh, sửa đổi hoặc rút kinh nghiệm cho lần sau. Ví dụ: lỗi do dùng từ, hành văn làm thí sinh không hiểu câu hỏi, hiểu nhầm, bị đánh lừa hay có nhiều cách hiểu khác nhau; lỗi trong phần lựa chọn của câu hỏi trắc nghiệm; không có phương án trả lời đúng hay có nhiều phương án trả lời đúng... Giá trị p cũng có thể cho thấy kết quả làm bài của các nhóm thí sinh khác nhau (như do đặc trưng vùng miền).

Khi phân tích câu hỏi trắc nghiệm, giá trị p được tính cho từng phương án trả lời, bằng tỷ lệ giữa số thí sinh lựa chọn từng phương án (ví dụ: số thí sinh chọn phương án A) với tổng số thí sinh (kể cả số thí sinh bỏ sót hay không trả lời câu hỏi đó).Thông thường độ khó của một câu hỏi có thể chấp nhận được nằm trong khoảng 0,25 - 0,75; Câu hỏi có độ khó lớn hơn 0,75 là quá dễ, có độ khó nhỏ hơn 0,25 là quá khó. Tuy nhiên với bài kiểm tra trong lớp học thì Osterlind (1989) cho rằng độ khó P nên nằm trong khoảng từ 0.40 đến 0.80. Dưới 0.4 nghĩa là câu hỏi quá khó và trên 0.80 là câu hỏi quá dễ đối với thí sinh. Một đề trắc nghiệm tốt thường là khi có nhiều câu hỏi ở độ khó trung bình. Độ khó trung bình của một câu hỏi có n phương án lựa chọn là (100% + 1/n)/2. Ví dụ độ khó trung bình của một câu hỏi có 5 phương án phải nằm trong khoảng từ 20% (1/5 xác xuất chọn phương án đúng một cách ngẫu nhiên) và 100% (chọn đúng có chủ đích), tức vào khoảng (20% + 100%)/2 là 60%. Đối với những câu hỏi thuộc dạng trả lời tự do, điền khuyết thì độ khó trung bình là 50%.

Ví dụ: Độ khó của một câu hỏi trắc nghiệm có 4 phương án lựa chọn A, B, C, D (D là đáp án đúng)

Phương án trả lời: A B C D* Bỏ sót Tổng

Số lượng 11 27 50 107 5 200

Giá trị p 0.06 0.14 0.25 0.54

Phân tích: Giá trị p = 0.54 cho thấy câu hỏi nàykhông quá dễ cũng không quá khó đối với nhóm thí sinh này. Tất cả các phương án đều thu hút được một số thí sinh lựa chọn, không có phương án nào có giá trị p = 0 nghĩa là không một phương án nào bị thí sinh loại trừ. Điều này chứng tỏ câu hỏi trắc nghiệm này có chất lượng. Tuy nhiên, phương án A có giá trị p = 0.06 là quá bé chứng tỏ phương án này chỉ thu hút được một số ít thí sinh có năng lực thấp, với đa số thí sinh, phương án A là phương án sai tương đối rõ, bị nhiều thí sinh loại trừ. Phương án A cần được nghiên cứu thêm để giảm khả năng loại trừ quá lộ liễu.

Lưu ý: Khi chọn lựa các câu trắc nghiệm theo độ khó, người ta thường phải loại các câu quá khó (không ai làm đúng) hoặc quá dễ. Để xét độ khó của cả đề trắc nghiệm, người ta thường đối chiếu điểm số trung bình quan sát được và điểm số trung bình lý tưởng. Điểm trung bình lý tưởng là điểm nằm giữa điểm tối đa nếu làm đúng toàn bộ đề và điểm làm đúng được một cách ngẫu nhiên. Ví dụ: một đề trắc nghiệm có 10 câu, một câu 5 phương án. Điểm tối đa đạt được nếu làm đúng toàn bộ đề là 10, điểm làm đúng một cách ngẫu nhiên là 2 (1/5 x 10). Như vậy điểm trung bình lý tưởng là (10+2)/2 = 6. Nếu điểm trung bình quan sát được lớn hơn hoặc nhỏ hơn 6 quá nhiều thì đề đó được nhận định là quá dễ hoặc quá khó đối với thí sinh. Tóm lại nếu điểm trung bình lý tưởng nằm ở khoảnng giữa phân bố các điểm quan sát được thì đề được nhận định là vừa sức, nếu điểm đó ở phía trên hoặc phía dưới phân bố điểm quan sát được thì là đề quá khó hoặc quá dễ với thí sinh.

Tham khảo: Lâm Quang Thiệp (2008), Trắc nghiệm và Ứng dụng, NXB Khoa học và Kỹ thuật

Lý thuyết trắc nghiệm cổ điển - Phân tích các phương án trả lời

* Khả năng nhầm đáp án: Nhầm đáp án có thể xảy ra do sự thiếu tập trung của người viết câu hỏi hoặc do lỗi từ cách diễn đạt câu hỏi đã gây khó khăn cho thí sinh khi lựa chọn phương án đúng. Việc nhầm lẫn này có thể dễ dàng bị phát hiện khi xem xét bảng giá trị p: có sự khác biệt lớn giữa phương án đúng (p thường nhỏ hơn rất nhiều) so với các phương án còn lại.

Ví dụ: Độ khó của một câu hỏi trắc nghiệm có 4 phương án lựa chọn A, B, C, D (khi A là đáp án đúng)

Phân tích: Tất cả các phương án đều thu hút được một số thí sinh lựa chọn, không có phương án nào có giá trị p = 0 nghĩa là không một phương án nào bị thí sinh loại trừ. Điều này chứng tỏ câu hỏi trắc nghiệm này có chất lượng. Tuy nhiên, giá trị p = 0.06 cho thấy mặc dù A là phương án đúng nhưng lại có rất ít thí sinh lựa chọn so với phương án D. Sự chênh lệch quá lớn này chứng tỏ đa số thí sinh đều cho rằng D mới là phương án đúng. Người viết câu hỏi cần xem xét lại khả năng nhầm đáp án giữa hai phương án A và D.

* Chất lượng phương án nhiễu: Chất lượng phương án nhiễu trong câu hỏi thi trắc nghiệm được xem là lý tưởng khi tỉ lệ thí sinh lựa chọn các phương án nhiễu tương đối đồng đều. Nếu không đáp ứng tốt yêu cầu này thì cần xem xét lại các phương án nhiễu sao cho chúng có thể phát huy tốt nhất vai trò của mình. Ví dụ:

Phân tích: Nhìn chung đề thi này có nhiều câu đạt chất lượng khá tốt ở các phương án nhiễu. Tỉ lệ thí sinh lựa chọn các phương án nhiễu khá đồng đều. Đây là ưu điểm của đề thi cần được phát huy. Điển hình là các câu 1 (5.9: 4,7: 2.4), câu 3 (12.9: 11.8: 9.4), câu 4 (5.9: 4.7: 4.7), câu 5 (8.2: 9.4:10.6). Tuy nhiên, đề thi vẫn còn một số câu cần được điều chỉnh các phương án nhiễu để có tỉ lệ sinh viên lựa chọn các phương án nhiễu đồng đều hơn. Chẳng hạn như câu 2, 6.

Tham khảo: Lâm Quang Thiệp (2008), Trắc nghiệm và Ứng dụng, NXB Khoa học và Kỹ thuật

Lý thuyết trắc nghiệm cổ điển - Độ phân biệt

Khi thiết kế đề trắc nghiệm, một trong những yêu cầu của nó là có thể phân loại được được những nhóm thí sinh có năng lực khác nhau như: khá, giỏi, trung bình....Khả năng của câu trắc nghiệm có thể thực hiện được sự phân biệt đó được gọi là độ phân biệt. Một câu trắc nghiệm có độ phân biệt là một câu trắc nghiệm tốt. Thể hiện ở phản ứng khác nhau giữa các nhóm thí sinh có năng lực khác nhau. Dựa vào các phản ứng đó, ta tính được độ phân biệt của câu hỏi trắc nghiệm. Một điểm cần lưu ý là độ phân biệt này liên quan mật thiết với độ khó. Theo đó, một câu hỏi chỉ có thể đạt được độ phân biệt tốt khi độ khó của nó ở mức trung bình. Vì nếu nó quá khó hoặc quá dễ thì các nhóm thí sinh có năng lực khác nhau có thể phản ứng giống nhau (đều không làm được hoặc làm được toàn bộ)

Để thực hiện sự phân tích này, người ta so sánh kết quả làm bài của 2 nhóm thí sinh. Nhóm có kết quả cao (27% số thí sinh làm bài test có tổng điểm bài test cao nhất) và nhóm khác có kết quả thấp (27% số thí sinh làm bài test có tổng điểm bài test thấp nhất). Sự chênh lệch giữa 2 nhóm trong việc lựa chọn các phương án trả lời được xem là hợp lý khi giá trị chênh lệch lớn hơn 0 đối với đáp án đúng (vì tỉ lệ nhóm trên lựa chọn nó sẽ cao hơn nhóm dưới do đó là những thí sinh giỏi hơn nên dễ dàng nhận ra đó là phương án đúng). Ngược lại, các giá trị chênh lệch phải nhỏ hơn 0 đối với các phương án nhiễu còn lại (vì tỉ lệ nhóm trên lựa chọn nó sẽ thấp hơn do đó là những sinh viên giỏi hơn nên dễ dàng nhận ra đó là phương án sai). Các câu hỏi không đáp ứng tốt các yêu cầu trên thì cần được xem xét lại.

Phân tích: Trong đề thi này, hầu hết các phương án của các câu hỏi đều thỏa mãn yêu cầu trên. Ví dụ: Trong câu 1, giá trị chênh lệch ở đáp án đúng B là 0,17 ( lớn hơn 0) và giá trị chênh lệch ở các phương án nhiễu A, C, D lần lượt là -0.02, -0,13, - 0.02 (đều bé hơn 0). Tương tự cho các câu còn lại. Riêng đối với một số phương án trong các câu 4, 6, giá trị chênh lệch không được như mong muốn. Nghĩa là một số phương án nhiễu của các câu này có giá trị chênh lệch bằng 0. Ví dụ phương án nhiễu B trong câu 4 có tỉ lệ lựa chọn giữa hai nhóm là bằng nhau (0.04) dẫn đến giá trị chênh lệch bằng 0 (tương tự đối với phương án nhiễu D trong câu 6). Đây là những phương án nhiễu chưa tốt vì nó không chỉ ra được sự khác biệt giữa hai nhóm giỏi và kém. Đặc biệt là phương án nhiễu C trong câu 8 có tỉ lệ lựa chọn của nhóm trên là 0.21 và nhóm dưới là 0,20 dẫn đến giá trị chênh lệch lớn hơn 0 (0,01) (tương tự đối với phương án nhiễu A và B trong câu 9), mặc dù chênh lệch là không lớn nhưng nó cũng chỉ ra có thể có sự bất thường ở các phương án này. Câu hỏi đặt ra: Tại sao sinh viên giỏi hơn lại cho nó là phương án đúng (khi thật sự nó sai) và ngược lại?. Tóm lại nhưng phương án trên cần phải được xem xét để điều chỉnh lại cho hợp lý và phát huy tác dụng trong vai trò là các phương án nhiễu.

Tham khảo: Lâm Quang Thiệp (2008), Trắc nghiệm và Ứng dụng, NXB Khoa học và Kỹ thuật

Chức năng, vai trò, vị trí, của kiểm tra, đánh giá trong giáo dục

* Chức năng của KT-ĐG

Có ba chức năng cơ bản:

- Chức năng quản lí: được thể hiện qua hai phương diện: một là xếp loại hoặc tuyển chọn người học; hai là duy trì và phát triển chuẩn chất lượng.

- Chức năng kiểm soát và điều chỉnh hoạt động dạy và học: Bao gồm: Đối với GV và nhà trường, đánh giá nhằm kiểm soát các hoạt động ngay trong quá trình dạy và học, sau đó ra quyết định điều chỉnh, cải tiến dạy học là cơ chế đảm bảo cho việc phát triển chất lượng dạy học. Đối với HS, thông tin kiểm tra, đánh giá nhận được (thể hiện qua điểm số, nhận xét) từ GV và sự tự đánh giá của bản thân giúp người học kiểm soát, điều chỉnh việc học của mình.

- Chức năng giáo dục và phát triển người học: Quá trình đánh giá KQHT được thực hiện một cách hiệu quả có tác dụng phát triển động cơ học tập cho HS. Ngoài ra kết hợp với chức năng kiểm soát và điều chỉnh, KT-ĐG góp phần phát triển toàn diện về đức, trí, thể, mĩ để chuẩn bị cho người học vào đời.

* Vai trò của KT-ĐG

Văn bản chỉ đạo thực hiện đổi mới kiểm tra, đánh giá tại Hội thảo về đổi mới kiểm tra, đánh giá thúc đẩy đổi mới phương pháp dạy học do Bộ GD&ĐT tổ chức (tại Cần Thơ, tháng 4/2009) đã khẳng định: kiểm tra, đánh giá là hoạt động không thể thiếu nhằm xác định hiệu quả của việc thực hiện mục tiêu dạy học, từ đó định hướng và thúc đẩy GV đổi mới phương pháp dạy học, thúc đẩy HS đổi mới phương pháp học tập nhằm nâng cao chất lượng thực hiện mục tiêu giáo dục. Hoạt động đánh giá còn là để phát hiện những mặt tốt, mặt chưa tốt, khó khăn, vướng mắc và xác định nguyên nhân để đề ra các giải pháp nâng cao chất lượng dạy và học, hiệu quả giáo dục.

* Vị trí của KT-ĐG

Kiểm tra, đánh giá có vị trí là đầu tàu kéo cả quy trình đào tạo đi lên tạo ra đổi mới về chất lượng trong đào tạo. Kiểm tra, đánh giá cung cấp các thông tin về kết quả học tập của HS. Nhiều quyết định quan trọng đều dựa trên điểm số của kiểm tra, đánh giá. Kiểm tra, đánh giá có thể có ảnh hưởng hai mặt: tạo ra những thay đổi tích cực trong quá trình đào tạo, hoặc có thể mang lại những cản trở cho sự phát triển của giáo dục. Kiểm tra, đánh giá đi chệch hướng mục tiêu đào tạo hay sử dụng những loại hình thi không phù hợp với mục đích của kiểm tra, đánh giá đều đưa đến những tác động tiêu cực, cản trở quá trình cải tiến và phát triển chương trình, tài liệu giảng dạy, phương pháp dạy học.

Các khái niệm cơ bản trong đo lường và đánh giá giáo dục

1. Đo lường (Measurement) là quá trình thu thập thông tin một cách định lượng về các đại lượng đặc trưng của đào tạo năng lực (nhận thức, tư duy, kỹ năng và phẩm chất nhân văn) trong quá trình giáo dục.

2. Kiểm tra (Testing): Là bộ phận hợp thành của quá trình hoạt động dạy - học nhằm nắm được thông tin về trạng thái và KQHT của HS, về những nguyên nhân cơ bản của thực trạng đó để tìm ra những biện pháp khắc phục những lỗ hổng, đồng thời củng cố và tiếp tục nâng cao hiệu quả của hoạt động dạy- học (Tự điển Giáo dục học, 2001). Như vậy trong lĩnh vực giáo dục, kiểm tra là một thuật ngữ chỉ sự đo lường, thu thập thông tin để có được những phán đoán, xác định xem mỗi người học sau khi học đã nắm được gì (kiến thức), làm được gì (kỹ năng) và bộc lộ thái độ ứng xử ra sao, đồng thời có được những thông tin phản hồi để hoàn thiện quá trình dạy-học.

3. Đánh giá (Assesssment) là quá trình thu thập thông tin, chứng cứ về đối tượng đánh giá và đưa ra những phán xét, nhận định về mức độ đạt được theo các tiêu chí đã được đưa ra trong các tiêu chuẩn hay KQHT. Đánh giá có thể là đánh giá định lượng (quantitative) dựa vào các con số hoặc định tính (qualitative) dựa vào các ý kiến và giá trị.

4. Đánh giá (Evaluation) là việc căn cứ vào kết quả của quá trình đo lường và đánh giá năng lực và phẩm chất của sản phẩm đào tạo để đưa ra những nhận định, kết luận và đề xuất các quyết định nhằm không ngừng nâng cao chất lượng đào tạo.

5. Kết quả học tập: được xem là mức độ thành công trong học tập của HS, được xem xét trong mối quan hệ với mục tiêu đã xác định, với chuẩn kiến thức và kĩ năng cần đạt được và thời gian bỏ ra.

6. Đánh giá kết quả học tập là xác định mức độ nắm được kiến thức, kỹ năng của HS so với yêu cầu của chương trình đề ra (Tự điển Giáo dục học, 2001). Ta có thể hiểu kiểm tra, đánh giá kết quả học tập là sự so sánh, đối chiếu kiến thức, kỹ năng, thái độ thực tế đạt được ở người học để tìm hiểu và chuẩn đoán trước và trong quá trình dạy-học (formative) hoặc sau một quá trình học tập với các kết quả mong đợi đã xác định trong mục tiêu dạy học (đánh giá tổng kết – summative).

Tham khảo: Trần Khánh Đức, Đo lường đánh giá trong giáo dục, Đại học Quốc gia Hà Nội.

Tác giả: letantai2022