StandFood: Стандартизація продуктів з використанням напівавтоматичної системи класифікації та опису продуктів згідно з FoodEx2

Томе Єфтімов

1 Відділ комп’ютерних систем, Інститут Йожефа Стефана, Ямова дорога 39, 1000 Любляна, Словенія; [email protected] (P.K.); [email protected] (B.K.S.)

напівавтоматичної

2 Міжнародна аспірантура Йожефа Стефана, Ямова дорога 39, 1000 Любляна, Словенія

Петро Корошец

1 Відділ комп’ютерних систем, Інститут Йожефа Стефана, Ямова дорога 39, 1000 Любляна, Словенія; [email protected] (P.K.); [email protected] (B.K.S.)

3 Факультет математики, природничих наук та інформаційних технологій, Glagoljaška ulica 8, 6000 Копер, Словенія

Барбара Корушич Селяк

1 Відділ комп’ютерних систем, Інститут Йожефа Стефана, Ямова дорога 39, 1000 Любляна, Словенія; [email protected] (P.K.); [email protected] (B.K.S.)

Анотація

1. Вступ

У 2011 році Європейське управління з безпеки харчових продуктів (EFSA) [1] запровадило комплексну систему класифікації та опису харчових продуктів для оцінки впливу, відому як FoodEx1 [2], спрямовану на охоплення потреби в описі харчових продуктів у збірниках даних у різних сферах безпеки харчових продуктів. Після етапу тестування, у 2015 році EFSA представила нову версію FoodEx2 [2], щоб відповідати потребам різних користувачів. Система складається з великої кількості окремих продуктів харчування, об’єднаних у групи продуктів харчування, та ширших категорій продуктів харчування, організованих у ієрархічному взаємозв’язку. Крім того, він надає загальні описи продуктів харчування, які представляють мінімальний рівень деталізації, необхідний для складання оцінок споживання або впливу. Опис подано з використанням аспектів, що являють собою набір термінів, що описують властивості та аспекти продуктів харчування з різних точок зору.

У цьому дослідженні ми представляємо напівавтоматичну систему StandFood для стандартизації продуктів харчування згідно з FoodEx2. Система складається з трьох частин. Перший визначає, який тип їжі аналізується (r, d, s або c). Це частина класифікації, яка передбачає підхід до машинного навчання (ML) [7,8]. Другий описує їжу з використанням обробки природними мовами (NLP) [9,10] у поєднанні з теорією ймовірностей, що приводить до терміну в списку або коду FoodEx2 для їжі. Третя поєднує результат з першої та другої частини шляхом визначення правил подальшої обробки з метою покращення результату для класифікаційної частини.

2. Матеріали та методи

2.1. Дані FoodEx2

З наявних даних FoodEx2 [2] було обрано 5416 екземплярів продуктів харчування. Екземпляри - це продукти харчування, які мають атрибут “Statef” зі значенням r, d, s або c. Цей атрибут вказує на рівень харчової категорії, представлений терміном у харчовому ланцюзі, наприклад, сировина, похідна, простий композит або агрегована композитна їжа. Вони були обрані, оскільки нам потрібно визначити, до якої категорії продуктів харчування належить харчовий продукт, перш ніж описувати харчовий продукт. Потім ті самі екземпляри використовуються для частини опису.

2.2. StandFood

StandFood - це напівавтоматична система класифікації та опису продуктів згідно з FoodEx2. Він складається з трьох частин. Перший класифікує харчові продукти на чотири категорії (групи) FoodEx2, дві для одинарних продуктів: сирі (r), похідні (d) та дві для складених продуктів, прості (-і) та агреговані (c). Для цього він використовує підхід ML. Друга частина використовується для опису продуктів харчування за допомогою граней FoodEx2 за допомогою підходу NLP у поєднанні з теорією ймовірностей. Третя поєднує результат з першої та другої частини шляхом визначення правил подальшої обробки з метою покращення результату для класифікаційної частини.

Оцінка системи StandFood була проведена за допомогою набору даних із Словенії вже класифікованих та описаних харчових продуктів із використанням кодів FoodEx2. У наборі даних кожен продукт харчування представлений назвою їжі та кодом FoodEx2, який вручну додає фахівець. Потім було використано StandFood, по-перше, щоб вказати категорію продуктів, до якої належить продукт, а по-друге, щоб описати їх за допомогою коду FoodEx2. Потім це було порівняно з категорією продуктів харчування та кодом, який був доданий вручну.

2.2.1. Класифікація Частина

Класифікаційна частина StandFood складається з наступних трьох етапів:

Попередня обробка екземплярів (назви продуктів харчування)

Вибір ознак (побудова матриці термінів документа та додавання більш відповідних функцій)