Як розрахувати незбалансовану вагу для BCEWithLogitsLoss у pytorch

Я намагаюся вирішити одну проблему з багатьма мітками з 270 мітками, і я перетворив цільові мітки в одну гаряче закодовану форму. Я використовую BCEWithLogitsLoss (). Оскільки навчальні дані незбалансовані, я використовую аргумент pos_weight, але я трохи заплутаний.

pos_weight (тензор, необов’язково) - вага позитивних прикладів. Повинен бути вектором, довжина якого дорівнює кількості класів.

Чи потрібно мені вказувати загальну кількість позитивних значень кожної мітки як тензор, або вони означають щось інше під вагами?

мітками

3 відповіді 3

Документація PyTorch для BCEWithLogitsLoss рекомендує pos_weight бути співвідношенням між негативними і позитивними рахунками для кожного класу.

Отже, якщо len (набір даних) дорівнює 1000, елемент 0 вашого багатокористувацького кодування має 100 позитивних відліків, тоді елемент 0 pos_weights_vector повинен бути 900/100 = 9. Це означає, що двійкові перехресні втрати будуть поводитися так, ніби набір даних містить 900 позитивних прикладів замість 100.

Ось моя реалізація:

Де class_counts - це лише сума позитивних вибірок у колонці. Я розмістив його на форумі PyTorch, і один із розробників PyTorch дав йому своє благословення.

Ну, насправді я переглянув документи, і ви можете просто використовувати pos_weight справді.

Цей аргумент надає вагу позитивній вибірці для кожного класу, отже, якщо у вас є 270 класів, вам слід здати факел. Тензор з фігурою (270,), що визначає вагу для кожного класу.

Ось незначно змінений фрагмент з документації:

Що стосується зважування, вбудованого рішення немає, але ви можете легко його кодувати:

Тензор повинен мати однакову довжину з кількістю класів у вашій багатозначній класифікації (270), кожен з яких надає вагу для вашого конкретного прикладу.

Розрахунок ваг

Ви просто додаєте мітки кожного зразка у вашому наборі даних, ділите на мінімальне значення та обернене в кінці.

Сорт опису:

Застосування цього класу підходу, що зустрічається найменше, дасть нормальні втрати, тоді як інші матимуть вагу менше 1 .

Однак це може спричинити деяку нестабільність під час навчання, тому, можливо, ви захочете трохи поекспериментувати з цими значеннями (можливо, перетворення журналу замість лінійного?)

Ви можете подумати про підвищення/зменшення вибірки (хоча ця операція є складною, оскільки ви б також додавали/видаляли інші класи, тому, на мою думку, потрібна буде вдосконалена евристика).