Як USDA пов’язав федеральні та комерційні дані з пролиттям світла на харчову цінність роздрібних продажів продуктів харчування

Американці витрачають близько половини свого продовольчого бюджету, щоб придбати близько двох третин продуктів у магазинах. Міністерство сільського господарства США (USDA) купує власні дані побутових та роздрібних сканерів для проведення досліджень щодо поведінки споживачів, цін на продукти харчування, доступних нових продуктів та для розуміння того, наскільки здоровим є вибір споживчих продуктів харчування. Ці дані можуть бути використані для аналізу продажів у доларових або придбаних кількостях, але не можуть дати повну картину харчової якості. Незважаючи на те, що дані містять інформацію про етикетку харчових фактів, перераховану на деяких упакованих харчових продуктах, немає інформації про поживні речовини та харчовий профіль нерозфасованої їжі, як-от продуктів. Крім того, дані не дозволяють проводити більш детальний аналіз, такий як визначення кількості овочів у замороженій піці або кількості яловичини в тефтелях.

Служба економічних досліджень (ERS) Служби економіки США (ERS) - Служба харчування та харчування - Центр харчової політики та просування (FNS-CNPP) та Служба сільськогосподарських досліджень (ARS) нещодавно створили пішохідний перехід Purchase to Plate (PPC), який розширює використання комерційних дані для дослідження вибору американської їжі. Цей пішохідний перехід пов'язує понад 359 000 харчових продуктів у базі даних комерційних компаній з декількома тисячами продуктів харчування у низці баз даних про харчування USDA. Оскільки між двома структурами даних немає спільних ідентифікаторів, команда використовувала імовірнісний та семантичний методи для зменшення ручних зусиль, необхідних для зв’язку даних.

Уроки для інших агентств

Пов’язавши існуючі ресурси даних, USDA зміг збагатити та розширити можливості аналізу обох наборів даних. Інші відомства можуть навчитися підходу USDA до зв’язування даних, щоб отримати нові уявлення з уже наявних даних. Працюючи як із внутрішніми, так і із зовнішніми зацікавленими сторонами, USDA визначило чіткі цілі проекту, зв’язавши критерії та методи оцінки. Команда шукала підрядника, який мав би досвід у галузі автоматизованих стратегій узгодження даних. Крім того, незалежна група вчених з питань даних проводить аудит даних, який передбачає огляд методів, а також обговорення з поточними та потенційними зацікавленими сторонами щодо майбутнього використання та використання даних.

Проблема

Без цих пов’язаних даних директори та дослідники обмежились у своїх можливостях вирішувати деякі важливі питання. Наприклад, протягом більше десяти років ERS купував та аналізував власні дані про закупівлю харчових продуктів для домашніх господарств та роздрібні продажі продуктів харчування у компанії IRI, що займається дослідженням ринку, але ці дані дають обмежену інформацію про харчову цінність покупок. Щоб краще зрозуміти, як вибір продуктів харчування покупців порівнюється з рекомендаціями, що містяться в Дієтичних рекомендаціях для американців, запатентовані дані потрібно було пов’язати з базами даних про харчування США. Бази даних USDA кількісно визначають кількість поживних речовин (за винятком позначення "Факти харчування") та кількість порцій основних груп продуктів харчування, що містяться приблизно в 15 000 продуктах харчування. Крім того, зв’язування наборів даних дозволить USDA оцінити ціни на продукти харчування для наступного оновлення ринкового кошика для Економного продовольчого плану, що є основою щорічного оновлення максимального розміру для переваг Додаткової програми допомоги в харчуванні (SNAP).

Проблеми зв’язування даних

Будь-яка проблема зіставлення вимагає набору критеріїв відповідності, щоб визначити, які збіги є прийнятними. Цей проект мав два критерії: харчування та ціна. Тобто база даних зв’язку використовується як для інтеграції даних про харчування у дані сканера, так і для надання оцінок цін на продукти харчування в Продовольчих планах USDA. Ці критерії подвійної відповідності додали складності проблеми зіставлення та призвели до більш неперевершених Універсальних товарних кодів (UPC), ніж якщо команда просто вибрала одну.

Після обрання критеріїв відповідності команда зіткнулася з додатковими проблемами через відмінності між базами даних IRI та USDA:

язав

Імовірнісне та семантичне узгодження

Команда створила базу даних зв’язку, використовуючи комбінацію автоматизованих та ручних збігів, з проміжним оглядом дієтологами. Кінцевий результат - 650 592 UPC, що відповідають 4390 Базі даних про харчові продукти та поживні речовини для дієтичних досліджень (База даних про харчові продукти та поживні речовини для дієтичних досліджень (FNDDS)) та Національній базі даних про поживні речовини для стандартних посилань (SR) з 5-відсотковим коефіцієнтом помилок для кожної категорії зв’язування.

Команда використовувала семантичну відповідність для виявлення можливих збігів рядків підтексту між федеральними та комерційними даними. Семантична відповідність шукає повнотекстові рядки в одному списку для слів і фраз в іншому списку, які є ідентичними або означають схожі речі.

Як автоматизовані методи семантичного узгодження, так і людський огляд розробили таблицю пошуку, яка поєднувала терміни опису продуктів IRI з термінами опису продуктів харчування USDA, що мають однакове значення. Автоматизовані методи розробили проект правил картографування, а потім дієтологи переглянули всі правила та доповнили таблицю пошуку, визначивши фрази в текстових описах IRI, які відповідають описам FNDDS.

Для імовірнісного збігу програма використовувала таблицю пошуку для порівняння атрибутів у кожному текстовому описі UPC та іншої інформації в даних IRI з текстовими дескрипторами FNDDS. Подібність двох описів продуктів харчування для ряду різних атрибутів визначала оцінку схожості для кожного можливого збігу. Збіги між значеннями атрибутів (або синонімами) з таблиці пошуку додаються до загальної оцінки схожості, тоді як невідповідність віднімається з оцінки. Програма відібрала пари продуктів харчування IRI-FNDDS з найвищим балом.

Щоб використати силу семантичного та імовірнісного узгодження, потрібно було підготувати дані. Дослідники визначили пріоритет, які коди продуктів харчування UPC та USDA були включені, створили повні текстові описи та розділили UPC та USDA коди продовольства на категорії зв’язку, щоб спростити процес відповідності. Для деяких категорій зв’язку команда проаналізувала текстові описи USDA на стовпці, подібніші до даних IRI. В інших випадках було ефективніше поєднати поля IRI в єдиний текстовий рядок.

Нові уявлення: покупки продуктів харчування в Америці не такі здорові

Дослідники ERS оцінили харчову якість, використовуючи Індекс здорового харчування (HEI), розроблений Національним інститутом раку та FNS-CNPP. Цей індекс підсумовує, наскільки набір продуктів відповідає рекомендаціям, що містяться в дієтичних рекомендаціях для американців. Максимально можливий бал - 100, що вказує на відповідність Федеральним рекомендаціям щодо 13 дієтичних компонентів.

Що стосується дев'яти компонентів достатності, які складають здорову дієту, високий бал вказує на те, що американці купують достатню кількість продуктів у цих групах продуктів. Високий бал серед чотирьох компонентів, які дієтологи радять вживати в помірних кількостях, свідчить про те, що американці контролюють покупки продуктів, що містять ці компоненти.

PPC показав, що роздрібний продаж продуктів харчування у 2013 році набрав 55 зі 100. Серед компонентів адекватності показники були найвищими для загального білка, морепродуктів та рослинних білків та цілих фруктів (85 відсотків). З іншого боку, показники для цільного зерна, зелені та квасолі та молочних компонентів були нижче 50 відсотків. Щодо компонентів помірності (рафіновані зерна, натрій, доданий цукор та насичені жири) оцінки вказують, що загальний обсяг продажів продуктів харчування в США недостатньо узгоджується з ключовими рекомендаціями в дієтичних рекомендаціях, особливо щодо натрію та доданих цукрів.

Пов’язавши набори даних для цього проекту, Міністерство сільського господарства США надало новий спосіб вивчення закупівель американських продуктів та їх оцінки, запропонувавши додаткову інформацію та докази для оцінки вибору продуктів харчування та харчування.

Приписка

Щоб отримувати оновлення про діяльність, пов’язану з Федеральною стратегією даних, підпишіться на розсилку.

Проект Федерального інкубатора стратегії даних

Проект "Інкубатор" допомагає федеральним спеціалістам з обробки даних обдумати, як поліпшити державні послуги, що дозволить громадськості отримати максимальну віддачу від федеральних даних. Цей пункт доказу та інші висвітлять численні успіхи та виклики, з якими щодня стикаються новатори даних, розкриваючи цінні уроки, якими можна ділитися з спеціалістами з питань обробки даних в уряді.