Організація даних у електронних таблицях

Стаття

Повна стаття
Цифри та дані
Список літератури
Цитати
Метрики
Ліцензування
Передруки та дозволи
PDF

АНОТАЦІЯ

Електронні таблиці - широко використовувані програмні засоби для введення, зберігання, аналізу та візуалізації даних. Зосереджуючись на аспектах введення та зберігання даних, ця стаття пропонує практичні рекомендації щодо організації даних електронних таблиць для зменшення помилок та спрощення подальшого аналізу. Основними принципами є: будьте послідовними, запишіть дати, такі як РРРР-ММ-ДД, не залишайте жодних комірок порожніми, помістіть лише одну річ у клітинку, впорядкуйте дані як єдиний прямокутник (з темами як рядки та змінні як стовпці, і з одним рядком заголовка), створіть словник даних, не включайте обчислення у файли необроблених даних, не використовуйте колір шрифту або виділення як дані, вибирайте добрі імена для речей, робіть резервні копії, використовуйте перевірку даних, щоб уникнути помилок введення даних, і збережіть дані у простих текстових файлах.

1. Вступ

Електронні таблиці, незважаючи на всю їх повсякденну прямокутність, десятиліттями викликали гнів та суперечки. Деякі автори зазначають, що «справжні програмісти не використовують електронні таблиці» і що ми повинні «зупинити цю диверсійну електронну таблицю» (Казимир 1992; Чадвік 2003). Інші порадили дослідникам, як використовувати електронні таблиці для підвищення їх продуктивності (Wagner and Keisler 2006). На тлі цих дебатів електронні таблиці продовжували відігравати значну роль у робочих процесах дослідників, і очевидно, що вони є цінним інструментом, від якого дослідники навряд чи повністю відмовляться.

Однак небезпека електронних таблиць реальна - настільки, що Європейська група інтересів електронних таблиць веде публічний архів електронних таблиць "страшилок" (http://www.eusprig.org/horror-stories.htm). Багато дослідників вивчали рівень помилок у електронних таблицях, і Панко (2008) повідомив, що в 13 аудитах реальних електронних таблиць в середньому 88% містили помилки. Популярні програми електронних таблиць також роблять певні типи помилок легкими у вчиненні та важкими для виправлення. Microsoft Excel перетворює деякі імена генів на дати і зберігає дати по-різному між операційними системами, що може спричинити проблеми при подальшому аналізі (Zeeberg et al. 2004; Woo 2014). Дослідники, які використовують електронні таблиці, повинні знати про ці типові помилки та розробляти електронні таблиці, які є акуратними, послідовними та якомога стійкішими до помилок.

Електронні таблиці часто використовуються як багатоцільовий інструмент для введення, зберігання, аналізу та візуалізації даних. Більшість програм електронних таблиць дозволяють користувачам виконувати всі ці завдання, однак ми вважаємо, що електронні таблиці найкраще підходять для введення та зберігання даних, і що аналіз та візуалізація повинні відбуватися окремо. Аналіз та візуалізація даних в окремій програмі або, принаймні, в окремій копії файлу даних, зменшує ризик забруднення або знищення вихідних даних у таблиці.

Муррелл (2013) порівняв дані, відформатовані для перегляду людьми на око, з даними, відформатованими для комп'ютера. Він навів розширений приклад комп'ютерного коду для вилучення даних із набору файлів зі складними механізмами. Важливо, щоб аналітики даних мали можливість працювати з такими складними файлами даних. Але якщо початкове розташування файлів даних планується з урахуванням комп’ютера, подальший процес аналізу спрощується.

У цій статті ми пропонуємо практичні рекомендації щодо організації електронних таблиць таким чином, щоб їх могли читати як люди, так і комп’ютерні програми. Дотримуючись цієї поради, дослідники створюватимуть електронні таблиці, які менш схильні до помилок, простіші для обробки комп’ютерами та простіші для обміну з співавторами та громадськістю. Електронні таблиці, які відповідають нашим рекомендаціям, будуть добре працювати з акуратними інструментами та відтворюваними методами, описаними в інших місцях цієї колекції, і становитимуть основу надійного та відтворюваного аналітичного робочого процесу.

Для існуючого набору даних, чиє розташування можна вдосконалити, ми рекомендуємо не застосовувати нудне та потенційно схильне до помилок редагування рук для перегляду договору. Швидше, ми сподіваємось, що читач може застосувати ці принципи при розробці макета для майбутніх наборів даних.

2. Будьте послідовними

Першим правилом організації даних є бути послідовним. Що б ви не робили, робіть це послідовно. Послідовне введення та упорядкування даних з самого початку не дозволить вам та вашим співавторам витратити час на згодовування даних пізніше.

Використовуйте послідовні коди для категоріальних змінних. Для такої категоріальної змінної, як стать миші, у дослідженні генетики використовуйте єдине загальне значення для чоловіків (наприклад, "самець") і одне загальне значення для жінок (наприклад, "самка"). Іноді не пишіть «М», іноді «чоловічий», а іноді «чоловічий». Виберіть один і дотримуйтесь його.

Використовуйте постійний фіксований код для будь-яких відсутніх значень. Ми вважаємо за краще заповнити кожну клітинку, щоб можна було розрізнити справді відсутні значення та ненавмисно відсутні значення. Користувачі R віддають перевагу “NA”. Ви також можете використовувати дефіс. Але дотримуйтесь єдиного значення. Однозначно не використовуйте числові значення, такі як -999 або 999; неважко пропустити, що воно передбачається зникнути. Крім того, не вставляйте замітку замість даних, пояснюючи, чому вона відсутня. Швидше, зробіть окрему колонку з такими примітками.

Використовуйте послідовні імена змінних. Якщо в одному файлі (наприклад, у першій партії предметів) у вас є змінна під назвою “Glucose_10wk”, тоді назвіть її точно так, як в інших файлах (наприклад, для інших партій предметів). Якщо його по-різному називати “Glucose_10wk”, “gluc_10weeks” та “10-тижнева глюкоза”, тоді аналітику даних доведеться з’ясувати, що все це насправді одне і те ж.

Використовуйте послідовні ідентифікатори теми. Якщо іноді це "153", а іноді "mouse153", а іноді "mouse-153F", а іноді "Mouse153", буде додаткова робота, щоб з'ясувати, хто є хто.

Використовуйте послідовний макет даних у декількох файлах. Якщо ваші дані містяться у декількох файлах, і ви використовуєте різні макети в різних файлах, аналітику буде додатково потрібно об’єднати файли в один набір даних для аналізу. Завдяки послідовній структурі буде легко автоматизувати цей процес.

Використовуйте послідовні імена файлів. Майте певну систему для іменування файлів. Якщо один файл називається "Serum_batch1_2015-01-30.csv", тоді не називайте файл для наступної партії "batch2_serum_52915.csv", а скоріше використовуйте "Serum_batch2_2015-05-29.csv." Дотримання послідовної схеми іменування файлів допоможе забезпечити належну організацію ваших файлів і полегшить пакетну обробку файлів, якщо вам потрібно.

Використовуйте єдиний формат для всіх дат, бажано зі стандартним форматом РРРР-ММ-ДД, наприклад, 01.08.2015. Якщо іноді ви пишете 01.08.2015, а іноді 8-1-15, використовувати дати буде складніше в аналізі або візуалізації даних.

Використовуйте послідовні фрази у своїх примітках. Якщо у вас є окрема колонка приміток (наприклад, "мертвий" або "крива відхилення"), будьте послідовними в тому, що пишете. Іноді не пишіть "мертвий", а іноді "мертвий", або іноді "lo off curve", а іноді "off curve lo".

Будьте обережні щодо зайвих пробілів всередині комірок. Порожня комірка відрізняється від комірки, яка містить єдиний пробіл. А "чоловічий" відрізняється від "чоловічий" (тобто з пробілами на початку та в кінці).

3. Виберіть добрі імена для речей

Важливо вибрати добрі імена для речей. Це може бути важко, і тому варто витратити на це трохи часу та роздумів.

Як правило, не використовуйте пробіли ні в іменах змінних, ні в іменах файлів. Вони ускладнюють програмування: аналітикові потрібно буде обводити все подвійними лапками, наприклад, "глюкоза 6 тижнів", а не просто писати глюкозу_6_тижнів. Де ви можете використовувати пробіли, використовуйте підкреслення або, можливо, дефіси. Але не використовуйте суміш підкреслень та дефісів; виберіть один і будьте послідовними.

Будьте обережні щодо сторонніх пробілів на початку або в кінці імені змінної. "Глюкоза" відрізняється від "глюкози" (з додатковим пробілом в кінці).

Уникайте особливих символів, крім підкреслення та дефісів. Інші символи ($, @,%, #, &, *, (,),!,/Та ін.) Часто мають особливе значення в мовах програмування, і тому їх важче обробити. Їх також дещо складніше набирати.