はじめに

Analysis of Learning from Positive and Unlabeled Data の内容をまとめたものになります。

pu-learningを重み付き分類問題に落とし込むという点で、以前以下の記事で検証したLearning Classifiers from Only Positive and Unlabeled Data に続く研究となっているように思います。

nnkkmto.hatenablog.com

また、こちらの研究での課題を引き継いだ研究としてConvex Formulation for Learning from Positive and Unlabeled Dataがあります。

論文概要

pu分類問題は重み付き分類（cost-sensitive classification）に落とし込めるため、weighted SVMなどで解くことができる
ただし、提案手法ではhinge lossを含むconvexなlossを使用した場合、誤った分類に繋がる
一方で、non-convexなlossを使用した場合は局所解に陥る可能性がある

pu分類問題の重み付き分類問題への落とし込み

pu-learningとは何かに関しては、こちらの記事をご参照ください

通常のpn分類問題と重み付き分類問題

positive(1) vs negative(-1) の誤分類を最小化する関数は以下のように書くことができます。

f:id:nnkkmto:20210511210157p:plain

$π$ は全sampleのうちpositiveの含まれる割合であり、n_positive / (n_positive + n_negative) で推定可能です。

ここで、 $P_1$ はpositive, $P_{-1}$ はnegativeとなる確率とした時、以下のように $R_1$ はfalse negative rate, $R`_{-_1}$ はfalse positive rateの期待値です。

f:id:nnkkmto:20210511210214p:plain

言い換えると、 $R_1$ は $f(X)$ が $P_1$ に対してnegativeをとなる確率、 $R_{-1}$ は $P_{-_1}$ に対してpositiveとなる確率となります。

また、ここでcost-sensitiveつまり重み付き分類は、上記分類器にクラス単位のcostを加えたものとして以下のように書くことができます。

f:id:nnkkmto:20210511210231p:plain

pu分類問題

ここで上記pn分類の $R(f)$ において、pu-learningにおいてはnegativeが観測できないため、上記pn分類から $R_{-1}$ 項をなくしたいというのがモチベーションになります。

まず、unlabeled（positiveとnegativeが含まれる）である確率 $P_x$ を以下とします。

f:id:nnkkmto:20210511210251p:plain

ここで、 $Rx(f)$ を $f(X)$ が $P_x$ に対してpositiveとなる確率とした場合、 $Rx$ は以下のように変形できます。

f:id:nnkkmto:20210511210309p:plain

そのため、上記pn分類における $R(f)$ は以下のように変形することができます。

f:id:nnkkmto:20210511210338p:plain

そして、 $η$ を $P_x$ に対して $P_1$ が占める割合とすると、以下のようにcost-sensitiveな分類に落とし込むことができます。また、 $η$ は n_positive / (n_positive + n_unlabeled) で推定することができ、pn分類における $π$ と対応するものになっています。

f:id:nnkkmto:20210511210355p:plain

これにより、 $R_{-1}(X)$ 項をなくした上で重み付き分類問題へと落とし込むことができています。

ただしここで、 $π$ のみpositive negativeなデータセットからしか推定できない値となるため、他の方法を使って推定することが必要になります。

convexなlossの使用

SVMで使用されるlossのうち、convexなlossであるhinge loss

f:id:nnkkmto:20210511210412p:plain

non-convexなlossであるramp loss

f:id:nnkkmto:20210511210425p:plain

こちらの二つのlossに関して、上記pnでの $R(f)$ へ適用できるかを考えます。

ramp lossを適用した場合は以下となります。

f:id:nnkkmto:20210511210438p:plain

non-convexであるramp lossに関して、以下が成り立ちます。

f:id:nnkkmto:20210511210455p:plain

そのため、pnと同じ式に変形可能です。

f:id:nnkkmto:20210511210510p:plain

一方で、下記の図からわかるように、hinge lossに関してはconvexであるため、以下の図からわかるように、 $l(-z)+l(z)=1$ が成り立ちません

f:id:nnkkmto:20210511210525p:plain

そのため、hinge lossを適用した場合、以下のように余計な項（superfluous penalty）がつくため、誤った決定境界になります。

f:id:nnkkmto:20210511210541p:plain

論文のexperimentsではこの内容が検証されていて、superflous penaltyは $π$ が大きくなるにつれ大きくなるため、それに伴いhinge lossとramp lossのaccuracyの差も開くことなども明記されています。

後続の論文

この次の論文がConvex Formulation for Learning from Positive and Unlabeled Dataであり、positive項とunlabeled項で違うlossを使用することでconvexなlossを使えるようにし、pu分類においてglobalな解を得られるようになっています。

また、Positive-Unlabeled Learning with Non-Negative Risk Estimatorは、非線形モデルに対しても適用できるようにした手法が提案されています。

追記

後続の論文であるConvex Formulation for Learning from Positive and Unlabeled Dataは以下に、

その後続であるPositive-Unlabeled Learning with Non-Negative Risk Estimatorに関しては、これら論文のまとめを含めて以下にまとめています。