こちらの記事の続きになります。

はじめに

Convex Formulation for Learning from Positive and Unlabeled Data についてまとめたものです。

また、こちらの論文は Analysis of Learning from Positive and Unlabeled Data での研究結果における課題を解決するものになっています。

概要

こちらの論文で、pu分類を重み付き分類に落とし込むことができた一方で、convexなlossを使用した際はbiasが発生するという課題があった
そのため、pu分類においてconvexなlossを使用できる方法を提案

従来手法における課題

従来手法としてこちらの論文で提案された以下のNon-Convex PU classificationにおいて、

$R(f) = 2πR_1(f) + R_X(f) − π$

convexなlossを使用した場合、以下のように通常の誤差項に加え、biasとなるsuperfluous penaltyが発生します。そのため、log lossやhinge lossなどのconvexなlossを適用した場合は誤った決定境界の決定に繋がります。

f:id:nnkkmto:20210511212246p:plain

loss $l$ が $l(z)+l(-z)=1$ を満たす場合、つまりnon-convexなlossを使用した場合はこのbiasは発生しないが、non-convexなlossを使用した場合目的関数もnon-convexとなるため計算量も多く、局所解に陥る可能性があります。

この課題を解決するため、本論文ではconvexなpu分類（Convex PU classification）を提案しています。

提案手法：Convex PU classification

ここで、zero-one lossを考えたとき、以下が成り立ちます。

f:id:nnkkmto:20210511212305p:plain

pu分類においてnegativeは観測できないため、通常のpn分類における以下の目的関数に代入すると、

f:id:nnkkmto:20210511212321p:plain

こちらの目的関数を得ることができます。

f:id:nnkkmto:20210511212337p:plain

ここで、 $\tilde{l}(x)=l(z)-l(-z)$ となるcomposite loss $\tilde{l}(x)$ を導入した場合、pu分類の目的関数は以下のように、positiveに対してはcomposite lossを、unlabeledに対しては通常のlossを適用するものとして書くことができます。