書評

書評: 異常検知からリスク管理へ (AI/データサイエンス ライブラリ “基礎から応用へ”),サイエンス社, 山西 健司ら著

2022年12月13日

増井 隆治

ますい りゅうじ

株式会社HACARUS R&Dセンター

異常検知は、データに基づいて、想定とは異なる振る舞いを発見するためのデータサイエンス技術であり、クレジットカードの不正利用検知や、感染者数の推移に関する特殊なイベントの発生などの検知、もしくは予兆を察知するために使用される。その適用範囲は幅広く、実社会への応用として、特に期待されている分野の一つである。

筆者は、情報系学科の学部時代からデータ分析を専門とする企業で働いており、さまざまな企業のデータ分析を行ってきた。また、その経験を活かしてデータサイエンスに関する講義も担当してきた。その中でも、特に機器の故障検知や予知保全、外観検査など、異常検知に関わる課題が根強いニーズとして存在することを肌で感じてきた。しかし、実際に異常検知に取り組むとなると、データの種類や捉えたい異常の種類によって、適切な検知手法を選択する必要があり、初学者にとって敷居が高いと感じる理由の一つだと考える。

本書では異常検知の手法を幅広く取り扱っており、パターンに基づく異常検知、突発的な変化の検知、漸進的な変化の検知手法が紹介されており、残りの章では、経済、教育、セキュリティ分野への異常検知の最先端の応用例が紹介されている。そのため、本書を通して、異常検知の理論を体系的に学ぶことに加えて、実際のデータに適用する際の勘所も養うことができる。また、筆者のような、特定分野の異常検知に長く取り組んできた身としては、その他の領域への応用例などを通して、異常検知の懐の深さを改めて感じることができた。そのため、本書は、異常検知を専門としていない大学院生や企業の研究者をはじめ、異常検知の経験がある方であっても、その体系を改めて見直すことで、新たな発見が得られることが期待できる。

以下、各章の要点を紹介する。

第1章では、異常検知の基礎的な部分としてマハラノビス距離に基づいた異常検知から始まり、行列因子分解や自己符号化器を用いた再構成による異常検知、突発的な変化を検出するための MDL 変化統計量に基づく手法や、漸進的な変化を検出するための微分的 MDL 変化統計量に基づく手法などが紹介されている。この他にも、異常の種類ごとに、いくつかの手法が紹介されているため、この章を読めば、異常検知の手法を俯瞰でき、応用する際に適切な手法を選ぶための手助けとなるであろう。

第2章では、金融時系列分析の基礎から、金融データの異常検知の応用例をいくつか紹介している。S&P500 株価の変化点検出では、ベイジアンオンライン変化点検知を使用して得られた変化点と実際の経済のイベントとの対応付けが解説されており、分析結果の妥当性に関する考察が丁寧になされている。それ以外にも、S&P500 の構成銘柄の graphical LASSO を用いた精度行列の変化点検出や、ラプラシアン異常検知を用いた株式所有ネットワークの変化点検出の例も紹介されており、異常検知の有用性を実感できるであろう。

第3章では、昨今、デジタル学習環境の整備が進んだ結果、収集可能になった学習過程やアクセスログなどの学習活動データに対する応用例が紹介されている。クリックストリームデータに対してポアソン分布でモデル化し、オンライン変化点検出することで、集中力の低下や他の学習を阻害する要因の可能性を示唆されている。また、閲覧行動の分析や学習行動のスコア化によって、データに基づいた学習活動の改善が提案できることが紹介されている。本章は教育データに限らず、ユーザごとの時系列的な振る舞いを取得可能な分野であれば応用可能な内容となっている。

第4章では、データ所有者が複数いる場合はプライバシーなどの観点からデータの秘匿性に配慮して分析を行う必要がある一方で、異常データはそもそも少ないため、なるべく多くのデータを利用したいという相反する状況で、いかに効果的な学習を行うかという点が解説されている。本章では、分散学習や連合学習に関連するマルチタスク学習の例として共同辞書学習が紹介されており、分散型の合意形成や秘匿集計について解説された後、具体的なモデルとしてスパース混合ガウスモデルによる分散分権型学習に触れられている。

以上のように、本書では異常検知の基礎的な部分から幅広い分野への応用まで横断的に紹介されている。古くから研究されている異常検知ではあるが、第4章にも見るように近年の新しい応用上の課題にも対応できるように日々研究が行われていることがわかる。このことからも、異常検知という分野の注目の高さが窺える。本書は異常検知の理論を俯瞰する上で参考になり、豊富な応用例もあるため、読者は興味のある章から読み始めることができる。本書を通じて、この分野の間口が広がり、魅力的な研究や応用事例が増え、さらなる発展につながることを期待したい。