youichiro blog 🐈‍⬛
Published on

KDD Cup 2010 Educational Data Mining Challenge Dataset

KDD Cup 2010 Educational Data Mining Challenge Dataset は、生徒がコンピューター学習支援システムを操作した記録をデータ化したデータセットです

データセットの構成

  • データは次の 4 つのブロックで構成されている
    • ① 問題 (Problem)
    • ② ステップ (Step)
    • ③ 知識コンポーネント (Knowledge Component)
    • ④ 機会 (Opportunity)
img
  • ① 問題 (Problem)
    • 問題とは、生徒が行う複数のステップからなるタスクのこと
    • 図の例では、「正方形から円の面積を除いたときに、残る面積」を求める問題が出題されている
    • ワークシートの「Question 1」の行が 1 つの問題に対応する
  • ② ステップ (Step)
    • ステップとは、問題を解くための観測可能な部分のこと
    • 例えば図の問題では、次のステップがある
      1. 円の半径を見つける
      2. 正方形の長さを見つける
      3. 円の面積を求める
      4. 正方形の面積を求める
      5. 残る面積を求める
    • このステップの集合が「問題を解く」ことである
    • 最後のステップが「答え」であり、それ以外は「中間」のステップと考えることができる
    • 生徒が正しくステップを実行しようとする行動を「トランザクション」と呼ぶ
      • ヒントを要求したり、間違ったり、正解したりする試行 (attempt) は 1 つのトランザクション
      • 1 つのステップに複数のトランザクションが紐づく
    • Table 1 は生徒のトランザクションを生徒ごと、ステップごとにまとめた表示である
img
  • ③ 知識コンポーネント (Knowledge Component)

    • 知識コンポーネントとは、タスクを達成するために使われる情報の一部であり、おそらく他の知識コンポーネントと組み合わせて使用される
    • 知識コンポーネントは、概念、原理、事実、スキルといった用語を一般化したものである
    • 問題の各ステップでは、そのステップを正しく実行するために、生徒は関連する概念やスキルを知っている必要がある
    • データセットの各ステップには、必要とされる 1 つ以上の知識コンポーネントがラベル付けされている(Table 1 の Knowledge component 列)
  • ④ 機会 (Opportunity)

    • 機会(Opportunity)とは、生徒が与えられた知識コンポーネントを学習したことを実証するチャンスのこと
    • 生徒が特定の知識コンポーネントを必要とするステップに遭遇するたびに、Opportunity のカウントが+1 される
    • Opportunity は生徒が知識コンポーネントを知っているかどうかのテストであり、またそれを学習するチャンスである
    • 生徒が問題のステップを解くとき、知識コンポーネントを適用したり学習したりする機会が複数回あるはず

データセットについて

  • 2 つの異なる学習支援システムからなる、5 つのデータセット(3 つの development データセットと、2 つの challenge データセット)がある
  • 複数の学校、複数の学年にわたって収集された
  • 以下の 2 つのシステムを含む
    • 2005〜2006 年、2006〜2007 年に導入された Carnegie Learning Algebra system
    • 2006〜2007 年に導入された Bridge to Algebra system
  • 各データセットは training ファイルと test ファイルに分割されている
    • submission ファイルは結果提出用
img
img

データセットの内容

ダウンロードして解凍すると、次のファイルが展開される

  • algebra_2005_2006_train.txt
    • 訓練データ
  • algebra_2005_2006_test.txt
    • テストデータ
  • algebra_2005_2006.txt
    • テストデータの行番号
  • algebra_2005_2006_master.txt
    • テストデータでの全ての attempt データを含むデータ

カラム情報

  • Row
    • 行番号
  • Anon Student Id
    • 生徒のユニーク ID
  • Problem Hierarchy
    • カリキュラムレベルの階層
  • Problem Name
    • 問題のユニーク識別子
  • Problem View
    • これまでに生徒が問題に遭遇した回数
  • Step Name
    • ステップ名
    • 問題に対しては一意だが、異なる問題間では一意ではない
    • 「Problem Name」と「Step Name」の組み合わせで一意になる
  • Step Start Time
    • ステップの開始時刻
  • First Transaction Time
    • ステップの最初のトランザクションの時刻
  • Correct Transaction Time
    • ステップの正解の attempt の時刻
  • Step End Time
    • ステップの最後のトランザクションの時刻
  • Step Duration (sec)
    • ステップのトランザクションの合計の経過時間
  • Correct Step Duration (sec)
    • ステップの最初の attempt が正解の場合の経過時間
  • Error Step Duration (sec)
    • ステップの最初の attempt がエラー(不正解もしくはヒント要求)の場合の経過時間
  • Correct First Attempt
    • ステップの最初の attempt が正解の場合 1、エラーの場合 0
  • Incorrects
    • そのステップでの不正解の合計数
  • Hints
    • そのステップでのヒント要求の回数
  • Corrects
    • そのステップでの正解数(そのステップが複数回出題された場合のみ増加する)
  • KC(KC Model Name)
    • 問題で使用されるスキル
    • 複数の場合は~~で区切られる
  • Opportunity(KC Model Name)
    • 知識コンポーネント(KC)に遭遇するたびに 1 ずつ増加するカウント
    • 複数の KC を持つ場合は~~で区切られる