Оптимальний класифікатор незбалансованих даних із використанням метрики коефіцієнта кореляції Метьюса

Відділ біології систем приналежності, Медичний та дослідницький центр Sidra, Доха, Катар

класифікатор

Партнерська лабораторія Седрік, CNAM, Париж, Франція

Клінічний дослідницький центр філії, Медичний та дослідницький центр Sidra, Доха, Катар

  • Сабрі Богорбель,
  • Фетхі Джаррей,
  • Мухаммед Ель-Анбарі

Цифри

Анотація

Цитування: Boughorbel S, Jarray F, El-Anbari M (2017) Оптимальний класифікатор для незбалансованих даних за допомогою метрики коефіцієнта кореляції Метьюса. PLOS ONE 12 (6): e0177678. https://doi.org/10.1371/journal.pone.0177678

Редактор: Цюань Цзоу, Університет Тяньцзіня, КИТАЙ

Отримано: 3 січня 2017 р .; Прийнято: 30 квітня 2017 р .; Опубліковано: 2 червня 2017 р

Наявність даних: Дані, використані в цій роботі, є загальнодоступними та зібрані в наступному сховищі: https://github.com/bsabri/mcc_classifier/.

Фінансування: Цю роботу підтримав Катарський фонд.

Конкуруючі інтереси: Автори заявили, що не існує конкуруючих інтересів.

1 Передумови

За винятком точності, інші показники підходять для незбалансованих даних.

1.1 SVM для незбалансованого навчання

Для еталону ми вибрали підтримку Vector Machine (SVM) для незбалансованих даних як хороший метод з літератури. SVM виконує класифікацію, знаходячи гіперплощину (wx + b), яка максимізує поле між двома класами. Однак бувають ситуації, коли нелінійна межа може ефективніше розділити групи. SVM обробляє це за допомогою функції ядра (нелінійної) для відображення даних у просторому просторі. Ефективність класифікатора SVM в основному залежить від вибору функції ядра та налаштування різних параметрів у функції ядра. Гауссова радіальна базова функція є одним з популярних ядер. Для незбалансованих наборів даних ми зазвичай використовуємо покарання за неправильну класифікацію за клас. Це називається SVM, зваженим за класом, який мінімізує наступну програму: де ξi - позитивна вільна змінна, така що якщо 0 1, то екземпляр i неправильно класифікується. Параметри C + і C - це слабкі покарання для позитивних і негативних класів сприйнятливо.

У цій роботі ми використовували дисбаланс SVM з ядром Гауса таким чином, що для двох випадків x і x ′ ми маємо K (x, x ′) = exp (−γ || x - x ′ || 2). Глобальна модель має три параметри C +, C - і γ. На рис. 1 наведено приклад ефекту введення двох ваг регуляризації на результати класифікації. Межа прийняття рішень зміщується у бік мажоритарного класу і, отже, ефективність роботи покращується в цьому прикладі.

Ми провели експериментальний аналіз, щоб встановити значення цих параметрів на основі навчальних даних. Ми використовували емпіричне правило, запропоноване Akbani et al. що співвідношення дорівнює відношенню класу меншість до більшості [11].

Решта цієї статті організована таким чином. У розділі 2 ми описуємо версію Support Vector Machines, яка обробляє незбалансовані дані. У розділі 3 ми пропонуємо оптимальний класифікатор на основі метрики MCC. Ми показуємо, що він узгоджується, тобто асимптотично збігається з теоретичним оптимальним класифікатором. В останньому розділі ми представляємо та обговорюємо результати експериментів.

2 Метрика MCC для незбалансованих даних

2.1 Визначення MCC

Метрику MCC вперше представив B.W. Метьюз для оцінки ефективності прогнозування вторинної структури білка [12]. Потім він стає широко використовуваним показником ефективності в біомедичних дослідженнях [13–17]. MCC та зона під кривою ROC (AUC) були обрані як вибірковий показник в ініціативі MAQC-II, очолюваній FDA, яка спрямована на досягнення консенсусу щодо найкращих практик з розробки та перевірки прогнозних моделей для персоналізованої медицини [16].

Нехай буде простором екземпляра, X - дійсним випадковим вхідним вектором, а Y ∈ - двійковою вихідною змінною зі спільним розподілом. Нехай Θ - простір класифікаторів. Визначаємо величини:, і. Визначаємо умовну ймовірність .

MCC можна розглядати як дискретизацію кореляції Пірсона для двійкових змінних. Насправді дано два n-вектори х = (x1,…, xn) t та р = (y1,…, yn) t, нагадаємо, що коефіцієнт лінійної кореляції вибірки задається як

Якщо х і р є двійковими, використовуючи якусь алгебру, маємо

2.2 Придатність MCC для незбалансованих даних

Для того, щоб продемонструвати придатність MCC для незбалансованих даних, ми розглянули наступне моделювання: Ми створили 10000 міток випадкових класів, так що частка класу 1 дорівнює заздалегідь визначеному значенню π Рис. 2. Порівняння показників 3 класифікаторів, описаних у таблиці 3.

Вони використовуються для оцінки поведінки метрик у таблиці 2 для незбалансованих даних.

2.3 Оптимальний послідовний класифікатор для метрики MCC

Коефіцієнт кореляції Метьюса (MCC) визначається з точки зору справжнього позитиву (TP), справжнього негативу (TN), хибнопозитивного (FP) та помилково негативного (FN). Його також можна переписати з точки зору TP, γ та π наступним чином:

Ми нагадуємо, що це і. Якщо малий клас вважається міткою 1, то π відповідає пропорції класу меншості. Ми цитуємо тут деякі зауваження щодо метрики MCC, про які згадували Baldi et al. [21]:

  • MCC можна обчислити за допомогою матриці плутанини.
  • Розрахунок метрики MCC використовує чотири величини (TP, TN, FP та FN), що дає кращий підсумок роботи алгоритмів класифікації.
  • MCC не визначається, якщо будь-яка з величин TP + FN, TP + FP, TN + FP або TN + FN дорівнює нулю.
  • MCC приймає значення в інтервалі [-1, 1], при цьому 1 показує повну згоду, -1 повну незгоду, а 0 показує, що передбачення не корелювало з основною істиною.

Теореми 1 та 2 забезпечують оптимальну форму класифікатора MCC та його узгодженість відповідно. Оскільки оптимальний поріг δ * залежить від TP *, його не можна використовувати безпосередньо в Алгоритмі 1. Натомість для визначення оптимального порогу можна використовувати пошук сітки.

Нагадаємо, розподіл задовольняє припущенню A (коротко AA), якщо P (ηx ≺ c | y = 1) і P (ηx ≺ c | y = 0) неперервні для. Зазначимо, що AA перевіряється, зокрема, якщо випадкові величини (ηx | y = 1) та (ηx | y = 0) є неперервними.

Теорема 1. (Оптимальний класифікатор для метрики MCC) Нехай буде розподілом, що задовольняє припущенню А. Оптимальним двійковим класифікатором для метрики MCC є пороговий класифікатор θ * (x) = знак [(TP - γπ) (ηx - δ *)], де поріг δ * визначається .

Доведення теореми передбачає використання похідної Фреше, яка узагальнює поняття виведення на функції. Тому можна отримати близьку форму оптимального класифікатора. Теорема 1 гарантує, що оптимальним класифікатором є або знак [(ηx - δ *)], або знак [- (ηx - δ *)], оскільки термін (TP - γπ) невідомий перед розробкою класифікатора. Ідея оптимального алгоритму класифікатора полягає у пошуку найкращих класифікаторів серед набору класифікаторів знак [(ηx - δ)] та знак [- (ηx - δ)] для певної константи δ. Ми зазначаємо, що обидва ці класифікатори належать до нашого простору класифікаторів Θ. По-перше, ми ділимо навчальний набір на два непересічні набори S1 та S2. По-друге, ми оцінюємо умовний розподіл ηx на S1, використовуючи, наприклад, регуляризовану логістичну регресію. По-третє, для кожного значення δ ми обчислюємо ефективність MCC відповідних знаків класифікаторів [(ηx - δ)] та знаку [- (ηx - δ)] на основі набору S2. Нарешті, ми застосовуємо сітчастий пошук по δ, щоб вибрати найкращий класифікатор, що має найвищу продуктивність MCC.

Алгоритм можна описати наступним чином:

Алгоритм 1: Алгоритм оцінки оптимального класифікатора MCC.

1 Розділіть навчальний набір на два набори S1 і S2

3 Обчислити на S2; де для класифікатора θ

4 Якщо тоді поверніться, інакше поверніться

Ще однією цікавою властивістю є перевірка статистичної узгодженості оптимального класифікатора MCC. Ця властивість гарантує, що оцінюваний класифікатор збігається за ймовірністю до теоретичного класифікатора. Це дає асимптотичні гарантії наближення класифікатора до найкращого теоретичного класифікатора із збільшенням обсягу навчальних даних.

Теорема 2. (Узгодженість оптимального класифікатора). Оптимальний класифікатор, визначений у теоремі 1, узгоджується, якщо оцінка отримана з використанням належної функції втрат [22, 23].

Докази теорем 1 і 2 наведені у додатковому матеріалі S1.

3 Результати

3.1 Синтетичні дані

Вісь x відображає можливі значення в просторі ознак. Вісь y зображує значення ймовірності. δ *, показаний червоним, є оптимальним похідним порогом. Зелена крива відображає оптимальний класифікатор, отриманий шляхом вичерпного пошуку, що максимізує MCC.

3.2 Реальні дані