はい、M10iです。今回は機械学習をテーマに書きたいと思います。
awsでもMLSといった機械学習に特化した資格があったり、年々ニーズの高まっているジャンルですね。興味深い方も多いかと思います。
今回取り上げるのは、機械学習のモデルの予測した結果を評価する「混合行列」と「評価指標」について。
いろいろ説明されているページもたくさんあるのですが、
ここでは風邪かどうか診断するモデルを作ったとして、出てくる用語を解説したいと思います。
TP、FP、FN・・・なんのこっちゃ??ってなったりしませんでした?
正解率、適合率、再現率ってピンと来ない事ないです?
そっと閉じてもいいかな・・・て諦めかけませんでした?
そこでくじけてしまう前に、M10iによる超簡単解説です笑
混合行列
まずさっくりとTP=TruePosivive=真陽性
そして真逆のFN=FalseNegative=偽陰性
True、False、Posivive、Negativeの頭文字の組み合わせですね、図にすると簡単!
風邪診断モデル(仮)でいうと以下になります。
そしてよく耳にする真陽性率、偽陽性率といった言葉。
今度も図にしてみます。
ようは実際の陽性、陰性を母数で割って割合(%)にしたものですね。
どのくらい当たったのかなーっていう数字ですね。(絵がコピペで手抜き感ありますが)
真陽性率=本当に風邪の人々を正しく風邪と予測した割合
真陰性率=本当に健康な人々を正しく健康と予測した割合
異常検知モデルなどでは以下のような割合になりますね。
真陽性率=本当に異常があった場合を正しく異常(Posivive)と予測した割合
真陰性率=本当に何もない場合を正しく正常(Negative)と予測した割合
評価指標
そして機械学習モデルを作った時に評価って何の値で判断したらいいんだろう?
真陽性率でいいんじゃないの?って思うけど、
なんか適合率、正解率、再現率といった指標が出てくるんですね・・・。
ようはTP,TN,FP,FNを足して割って割合を出しているだけなんですが
その数字がなんやねんっていう笑
解説されているページはあるんですが、M10iの頭ではピンと来なかったので図にしてみました。
(絵がコピペ・・・)
今回は風邪なので見逃してもいいから誤診断したくないなーと思えば、
指標は「適合率」を選択したりします。
保育園に行く子を判定するとか緩めな診断が欲しい時などにもいいかもしれません。
では、もしこれが癌の診断だったとしたらどうしましょう?
その場合は見逃してしまっては大変です!
なので指標を「再現率」にしてモデルをチューニングします。
誤診断でもいいから再検査してもらわないといけませんもんね。
※実際は各値のバランスが取れている必要があったりします。あくまでイメージで
どっちも正解したいなら「正解率」を指標としてもいいわけです。
何を予測するのか?によって指標とする評価が変わってくるので
この風邪診断モデル(仮)で何となく理解して頂けたらなぁと思います。
機械学習、難しいですよね。M10iもわかったようで全然わからない事多いです。
もっとちゃんとした解説が読みたいって人は以下のページがおススメ☆
猫さんで解説されていてとても分かりやすい。
混同行列(Confusion Matrix) とは 〜 2 値分類の機械学習のクラス分類について
ではでは
参考
混同行列(Confusion Matrix)
http://popo.ara.black/etc/confusionmatrix.htm