【論文紹介】unbiased PU learning: Convex Formulation for Learning from Positive and Unlabeled Data
こちらの記事の続きになります。
はじめに
Convex Formulation for Learning from Positive and Unlabeled Data についてまとめたものです。
また、こちらの論文は Analysis of Learning from Positive and Unlabeled Data での研究結果における課題を解決するものになっています。
概要
- こちらの論文で、pu分類を重み付き分類に落とし込むことができた一方で、convexなlossを使用した際はbiasが発生するという課題があった
- そのため、pu分類においてconvexなlossを使用できる方法を提案
従来手法における課題
従来手法としてこちらの論文で提案された以下のNon-Convex PU classificationにおいて、
convexなlossを使用した場合、以下のように通常の誤差項に加え、biasとなるsuperfluous penaltyが発生します。そのため、log lossやhinge lossなどのconvexなlossを適用した場合は誤った決定境界の決定に繋がります。
loss が を満たす場合、つまりnon-convexなlossを使用した場合はこのbiasは発生しないが、non-convexなlossを使用した場合目的関数もnon-convexとなるため計算量も多く、局所解に陥る可能性があります。
この課題を解決するため、本論文ではconvexなpu分類(Convex PU classification)を提案しています。
提案手法:Convex PU classification
ここで、zero-one lossを考えたとき、以下が成り立ちます。
pu分類においてnegativeは観測できないため、通常のpn分類における以下の目的関数に代入すると、
こちらの目的関数を得ることができます。
ここで、となるcomposite loss を導入した場合、pu分類の目的関数は以下のように、positiveに対してはcomposite lossを、unlabeledに対しては通常のlossを適用するものとして書くことができます。
ここで、全てのlossに対してこちらの目的関数がconvexになる訳ではなく、
- lossがconvexである
- つまり
を満たす場合のみ、上記目的関数がconvexとなります。
条件を満たすloss
詳細は論文を見ていただきたいのですが、convexなlossの中でも を満たす、つまり目的関数がconvexになるlossは以下の通りです。(NotesがConvexであるもの)
hinge lossに関しては条件を満たさないため、その代替案としてdouble hinge lossが論文内で提案されています。
最後に
NNやGBDTなど非線形なモデルにも適用可能にしたものがPositive-Unlabeled Learning with Non-Negative Risk Estimatorとなります。こちらの論文を前の論文と共に、以下の記事でまとめています。