- Published on
KDD Cup 2010 Educational Data Mining Challenge Dataset
KDD Cup 2010 Educational Data Mining Challenge Dataset は、生徒がコンピューター学習支援システムを操作した記録をデータ化したデータセットです
データセットの構成
- データは次の 4 つのブロックで構成されている
- ① 問題 (Problem)
- ② ステップ (Step)
- ③ 知識コンポーネント (Knowledge Component)
- ④ 機会 (Opportunity)
- ① 問題 (Problem)
- 問題とは、生徒が行う複数のステップからなるタスクのこと
- 図の例では、「正方形から円の面積を除いたときに、残る面積」を求める問題が出題されている
- ワークシートの「Question 1」の行が 1 つの問題に対応する
- ② ステップ (Step)
- ステップとは、問題を解くための観測可能な部分のこと
- 例えば図の問題では、次のステップがある
- 円の半径を見つける
- 正方形の長さを見つける
- 円の面積を求める
- 正方形の面積を求める
- 残る面積を求める
- このステップの集合が「問題を解く」ことである
- 最後のステップが「答え」であり、それ以外は「中間」のステップと考えることができる
- 生徒が正しくステップを実行しようとする行動を「トランザクション」と呼ぶ
- ヒントを要求したり、間違ったり、正解したりする試行 (attempt) は 1 つのトランザクション
- 1 つのステップに複数のトランザクションが紐づく
- Table 1 は生徒のトランザクションを生徒ごと、ステップごとにまとめた表示である
③ 知識コンポーネント (Knowledge Component)
- 知識コンポーネントとは、タスクを達成するために使われる情報の一部であり、おそらく他の知識コンポーネントと組み合わせて使用される
- 知識コンポーネントは、概念、原理、事実、スキルといった用語を一般化したものである
- 問題の各ステップでは、そのステップを正しく実行するために、生徒は関連する概念やスキルを知っている必要がある
- データセットの各ステップには、必要とされる 1 つ以上の知識コンポーネントがラベル付けされている(Table 1 の Knowledge component 列)
④ 機会 (Opportunity)
- 機会(Opportunity)とは、生徒が与えられた知識コンポーネントを学習したことを実証するチャンスのこと
- 生徒が特定の知識コンポーネントを必要とするステップに遭遇するたびに、Opportunity のカウントが+1 される
- Opportunity は生徒が知識コンポーネントを知っているかどうかのテストであり、またそれを学習するチャンスである
- 生徒が問題のステップを解くとき、知識コンポーネントを適用したり学習したりする機会が複数回あるはず
データセットについて
- 2 つの異なる学習支援システムからなる、5 つのデータセット(3 つの development データセットと、2 つの challenge データセット)がある
- 複数の学校、複数の学年にわたって収集された
- 以下の 2 つのシステムを含む
- 2005〜2006 年、2006〜2007 年に導入された Carnegie Learning Algebra system
- 2006〜2007 年に導入された Bridge to Algebra system
- 各データセットは training ファイルと test ファイルに分割されている
- submission ファイルは結果提出用
- ダウンロードページ からダウンロードできる
- アカウント登録・ログインが必要
データセットの内容
ダウンロードして解凍すると、次のファイルが展開される
- algebra_2005_2006_train.txt
- 訓練データ
- algebra_2005_2006_test.txt
- テストデータ
- algebra_2005_2006.txt
- テストデータの行番号
- algebra_2005_2006_master.txt
- テストデータでの全ての attempt データを含むデータ
カラム情報
- Row
- 行番号
- Anon Student Id
- 生徒のユニーク ID
- Problem Hierarchy
- カリキュラムレベルの階層
- Problem Name
- 問題のユニーク識別子
- Problem View
- これまでに生徒が問題に遭遇した回数
- Step Name
- ステップ名
- 問題に対しては一意だが、異なる問題間では一意ではない
- 「Problem Name」と「Step Name」の組み合わせで一意になる
- Step Start Time
- ステップの開始時刻
- First Transaction Time
- ステップの最初のトランザクションの時刻
- Correct Transaction Time
- ステップの正解の attempt の時刻
- Step End Time
- ステップの最後のトランザクションの時刻
- Step Duration (sec)
- ステップのトランザクションの合計の経過時間
- Correct Step Duration (sec)
- ステップの最初の attempt が正解の場合の経過時間
- Error Step Duration (sec)
- ステップの最初の attempt がエラー(不正解もしくはヒント要求)の場合の経過時間
- Correct First Attempt
- ステップの最初の attempt が正解の場合 1、エラーの場合 0
- Incorrects
- そのステップでの不正解の合計数
- Hints
- そのステップでのヒント要求の回数
- Corrects
- そのステップでの正解数(そのステップが複数回出題された場合のみ増加する)
- KC(KC Model Name)
- 問題で使用されるスキル
- 複数の場合は
~~
で区切られる
- Opportunity(KC Model Name)
- 知識コンポーネント(KC)に遭遇するたびに 1 ずつ増加するカウント
- 複数の KC を持つ場合は
~~
で区切られる