【論文紹介】Analysis of Learning from Positive and Unlabeled Data
はじめに
Analysis of Learning from Positive and Unlabeled Data の内容をまとめたものになります。
pu-learningを重み付き分類問題に落とし込むという点で、以前以下の記事で検証したLearning Classifiers from Only Positive and Unlabeled Data に続く研究となっているように思います。
また、こちらの研究での課題を引き継いだ研究としてConvex Formulation for Learning from Positive and Unlabeled Dataがあります。
論文概要
- pu分類問題は重み付き分類(cost-sensitive classification)に落とし込めるため、weighted SVMなどで解くことができる
- ただし、提案手法ではhinge lossを含むconvexなlossを使用した場合、誤った分類に繋がる
- 一方で、non-convexなlossを使用した場合は局所解に陥る可能性がある
pu分類問題の重み付き分類問題への落とし込み
pu-learningとは何かに関しては、こちらの記事をご参照ください
通常のpn分類問題と重み付き分類問題
positive(1) vs negative(-1) の誤分類を最小化する関数は以下のように書くことができます。
は全sampleのうちpositiveの含まれる割合であり、n_positive / (n_positive + n_negative)
で推定可能です。
ここで、 はpositive, はnegativeとなる確率とした時、以下のように はfalse negative rate, はfalse positive rateの期待値です。
言い換えると、 は が に対してnegativeをとなる確率、 は に対してpositiveとなる確率となります。
また、ここでcost-sensitiveつまり重み付き分類は、上記分類器にクラス単位のcostを加えたものとして以下のように書くことができます。
pu分類問題
ここで上記pn分類の において、pu-learningにおいてはnegativeが観測できないため、上記pn分類から 項をなくしたいというのがモチベーションになります。
まず、unlabeled(positiveとnegativeが含まれる)である確率 を以下とします。
ここで、 を が に対してpositiveとなる確率とした場合、 は以下のように変形できます。
そのため、上記pn分類における は以下のように変形することができます。
そして、 を に対して が占める割合とすると、以下のようにcost-sensitiveな分類に落とし込むことができます。また、 は n_positive / (n_positive + n_unlabeled)
で推定することができ、pn分類における と対応するものになっています。
これにより、 項をなくした上で重み付き分類問題へと落とし込むことができています。
ただしここで、 のみpositive negativeなデータセットからしか推定できない値となるため、他の方法を使って推定することが必要になります。
convexなlossの使用
SVMで使用されるlossのうち、convexなlossであるhinge loss
non-convexなlossであるramp loss
こちらの二つのlossに関して、上記pnでの へ適用できるかを考えます。
ramp lossを適用した場合は以下となります。
non-convexであるramp lossに関して、以下が成り立ちます。
そのため、pnと同じ式に変形可能です。
一方で、下記の図からわかるように、hinge lossに関してはconvexであるため、以下の図からわかるように、 が成り立ちません
そのため、hinge lossを適用した場合、以下のように余計な項(superfluous penalty)がつくため、誤った決定境界になります。
論文のexperimentsではこの内容が検証されていて、superflous penaltyは が大きくなるにつれ大きくなるため、それに伴いhinge lossとramp lossのaccuracyの差も開くことなども明記されています。
後続の論文
この次の論文がConvex Formulation for Learning from Positive and Unlabeled Dataであり、positive項とunlabeled項で違うlossを使用することでconvexなlossを使えるようにし、pu分類においてglobalな解を得られるようになっています。
また、Positive-Unlabeled Learning with Non-Negative Risk Estimatorは、非線形モデルに対しても適用できるようにした手法が提案されています。
追記
後続の論文であるConvex Formulation for Learning from Positive and Unlabeled Dataは以下に、
その後続であるPositive-Unlabeled Learning with Non-Negative Risk Estimatorに関しては、これら論文のまとめを含めて以下にまとめています。