筑波大学システム情報工学研究科コンピュータサイエンス専攻科目一覧
データ解析特論
担当教員
亀山啓輔,日野英逸,津川翔
電子メール 亀山啓輔(keisuke@cs),日野英逸(hidehino@cs),津川翔(s-tugawa@cs)
URL 資料などの配布にはmanabaを利用する.
オフィスアワー 各担当教員に事前に連絡のこと.
科目番号 01CH738, 01CJ235
分野 共通科目
基礎/専門の別
授業形態 講義+演習
開講学期 秋AB
時限 木5,6
教室 3B405
キーワード データ解析,統計学
Keyword Data analysis, Statistics
前提条件 学部(学類)レベルの確率論,統計学の知識.
学習目標 多様なデータに対して,それらを解析,解釈するための基礎から発展に至る手法を理解する. 修士論文研究を行う上で研究成果をデータに基づき客観的に評価し,プレゼンテーションできるようになる.
概要 コンピュータサイエンス研究の様々な場面で遭遇する多様なデータを用いた分析,解釈,予測に関して,基礎的な知識の確認から開始し,従来より用いられてきた解析手法,近年開発されてきている手法に至るまで,それぞれの考え方と特徴について講述し,R言語を用いた演習を行う.
授業計画 亀山担当
第1週:導入
  • 基本的な確率論のおさらい:確率,確率事象と確率変数,確率分布,確率密度関数
  • Rイントロ:インストール,言語仕様,計算方法,主要なデータ構造,入出力,パッケージ

  • 第2週:推定
  • 密度関数の推定(最尤推定,ベイズ推定,混合分布の最尤推定(EMアルゴリズム),ノンパラメトリック推定)
  • 区間推定と信頼係数

  • 第3週:主成分分析
  • 共分散(相関)行列と主成分,非線形(カーネル)主成分分析とその意味

  • 第4週:相関解析と回帰
  • 相関係数
  • 単回帰,重回帰と誤差

  • 日野担当
    第5週:データハンドリング
    前処理,層別化,分割,種々の可視化
  • データのスケーリング,標準化,外れ値除去,欠損値除去
  • 層別サンプリング,Cross-Validation等の定形処理
  • 統計データの可視化

  • 第6週:検定と検出力分析
    統計的検定の基礎と,検定・検出力・効果量とサンプルサイズの設計
  • 統計的検定の基礎と,代表的な検定
  • 検出力分析

  • 第7週:サンプリングメソッド
    計算機指向統計手法入門
  • サンプリング法の威力
  • 平均の信頼区間,ブートストラップの考え方

  • 津川担当
    第8週:ネットワーク分析
  • ネットワークとして表現可能なデータ
  • ネットワークの可視化
  • ネットワーク分析で用いられる指標

  • 第9週:クラスタリングとその評価
  • データ間の距離に基づくクラスタリング
  • データ間の関係 (ネットワーク) に基づくクラスタリング
  • クラスタリングの評価

  • 第10週:データのランキングとその評価
  • ネットワークにおけるノードランキング
  • 情報検索の分野におけるランキングの評価指標
  • 教科書
    参考書 Rで学ぶデータサイエンスシリーズ(共立出版)
    Applied Predictive Modeling, Max Kuhn & Kjell Johnson,Springer,2013
    成績評価 3名の担当教員の課するレポートを総合して評価する.
    TF・TA
    その他の情報 毎週2時限の授業のうち,前半を講義,後半をR言語を用いた演習にあてる.R言語の処理系を実行することができるノートパソコンを持参すること.
    ページ先頭へ