该数据集包含了人工评估人员对精选mooc中MCQ质量的评估。通过手动记录18门mooc课程的问题、作为潜在答案的选项(或干扰因素)和实际正确答案,收集了204个mcq,并将这些数据输入电子表格。然后,两名评估人员使用Tarrent等人采用的评估方案独立审查了204份mcq。[3.],并列入工作簿“评估工具”下。我们通过谷歌表单做到了这一点。为格式为q的每个MCQ分配了唯一的id我- - - - - -j,在那里我MCQ属于哪个测试j是小测验中问题的序号。然后,我们用这些标识符的下拉菜单预先填充了谷歌表单。每个评估人员然后选择他们正在处理的问题的标识符,然后在表格中填写他们的评估,这简化了工作流程并使之同步。
这导致了电子表格的生成,它记录了每个评估者对204个mcq中的每一个的评估,考虑到15个特定项目的缺陷。例如,在工作簿“Evaluator 1 responses”中,单元格A21的值为“q11-7”,这表明它是数据中测试11中的第七个问题。在G21单元格中记录了值“no”,这告诉我们评估者1认为这个MCQ问题不包含合理的干扰因素。虽然确定什么是合理或不合理的干扰在某种程度上是主观的(尽管可能有来自统计项目分析的可量化数据支持),但做出这一判断的评估人员是内容专家。令人难以置信的干扰物可以让学生很容易猜出正确答案,因为正确选项是唯一明显的选择。7].在下一个工作簿“评估者2的回答”中,我们可以看到评估者2记录了相同的评估。然后评估人员比较他们的结果,讨论任何他们的结论不同的评估,然后达成一致意见的最终评估。这些结果记录在“综合评估”工作表中。
其他项目写作缺陷可以在没有人工评估人员的情况下识别出来。它们是:可能的正确选项的数量(1是最优的);是否正确的选项是最长的,因为最长的通常是正确的答案(这些是通过计算每个选项中的字符数来计算的);选项的数量(3或4被认为是最佳的[8]);是否“以上所有”或“以上所有都不是”是选项,因为这些违反了项目写作的最佳实践;最后,正确选项的位置(研究表明选项3或C通常是正确的)。每个MCQ的这些数据点记录在“量化项目”工作簿中。工作簿“表”1缺陷普遍性”给出了其他工作簿中原始结果的概要描述性统计。最后的工作手册“MOOC平台和机构”列出了每个MOOC的平台和机构。