大学院時代に認知心理(認知情報処理)の研究のためにプログラミングをしているうちにそのまま仕事になりました。
ニューラルネットワークの研究や曖昧な心理テストの結果の解析のために統計解析が必要となります。
データマイニング、テキストマイニング、ビッグデータ、ディープラーニングと言った言葉がまだまだメジャーでない中、多変量解析の基礎理論から実践まで学んでおりました。
私立大学病院にて初診の患者さんのインテーク(面接)をしつつ、別の国立病院で臨床データの疫学調査のための統計解析を行なっておりました。
単純な検定以外に、因子分析、分散分析は200回以上はやったと思います。
昨今の大量データ解析ですが、重回帰分析、因子分析が中心となります。
10年程前にデータマイニング、テキストマイニングが流行り始めましたが、実践投入されずにSIerだけ儲けて終わった時期がありました。
ソフトウェアを提供する側、売る側、それぞれ頑張っていましたが、肝心の解析する上での仮説を立てる人がいませんでした。
見栄えの良いツールを用いて、何となく色々データが探れそうではありますが、業種、目的別の理論、仮設が前提に無いと上手く結果を実利に結び付けられません。
そういった中、コールセンターの通話をテキストマイニングし、将来起こりうる問題を早い段階で察知するといった仕事をしておりました。
例えば「おたくは」とか、「一体」等のキーワードが特定の文脈の中で現れ始めると、数か月後に大クレームに繋がる確率は〇%みたいな分析です。
単純な例ですが、こういった見向きもされないような言葉を数値化し、心理学や対象の業種の知識と結びつけることによって見えないデータを見える化することが可能です。