Основний статистичний аналіз із використанням статистичного пакету R

R - це вільно розподілений пакет програм для статистичного аналізу та графіки, розроблений та керований Командою розробників R. R можна завантажити з Інтернет-сайту Всеосяжної мережі архівів R (CRAN) (http://cran.r-project.org). Переконайтесь, що ви завантажили правильну версію R для своєї операційної системи (наприклад, XP для ПК, Tiger або попередні версії OSX для Mac). R відноситься до статистичної мови S, яка комерційно доступна як S-PLUS.

R - це об’єктно-орієнтована мова. Для наших основних додатків матриці, що представляють набори даних (де стовпці представляють різні змінні, а рядки - різні предмети) та вектори стовпців, що представляють змінні (одне значення для кожного предмета у зразку), є об’єктами в R. Функції в R виконують обчислення об’єктів. Наприклад, якщо "холестерин" був об'єктом, що представляє рівні холестерину у зразку, функція "середнє значення (холестерин)" обчислює середній рівень холестерину для зразка. Для наших основних програм результати аналізу відображаються на екрані. Результати аналізів також можна зберігати як об'єкти в R, що дозволяє користувачеві маніпулювати результатами або використовувати результати для подальшого аналізу.

Дані можна вводити безпосередньо в R, але ми зазвичай використовуємо MS Excel для створення набору даних. Набори даних розташовані в кожному стовпці, що представляє змінну, і в кожному рядку, що представляє тему; набір даних із 5 змінними, записаними на 50 предметів, буде представлений у файлі Excel з 5 стовпцями та 50 рядками. Дані можна вводити та редагувати за допомогою програми Excel. Excel може зберігати файли у форматі, розділеному комами, або файлах .csv; ці CSV-файли потім можна прочитати в R для аналізу.

R - це інтерактивна мова. Коли ви запускаєте R, у першому рядку вікна з’являється порожнє вікно із знаком '>', який є підказкою про готовність. Аналіз виконується за допомогою ряду команд; користувач вводить команду і R відповідає, потім користувач вводить наступну команду, а R відповідає. У цьому документі команди, введені користувачем, подаються червоним, а відповіді від R - синім; R використовує ту саму колірну схему.

Кілька корисних шансів і кінців при використанні R:

Введення імені об’єкта зазвичай надрукує цей об’єкт.
R чутливий до регістру, тому об'єкт з назвою Group повинен називатися Group, а не group.
Клавіші зі стрілками вгору та вниз можуть використовуватися для виклику та прокрутки минулих команд, що може заощадити введення тексту під час виправлення помилок або зміни команди.
Ввівши букву, а потім двічі натиснувши клавішу Tab, будуть перелічені команди та об’єкти, що починаються з цієї букви.
Матеріал можна вирізати та вставити у вікно R або з нього. Це дозволяє зберегти та роздрукувати результати R як частину документів MS Word або зберегти текст сеансу R як запис вашої роботи. Текст R, як правило, форматується як шрифт Courier, і використання шрифта Courier 9 point добре працює для виводу R.
В Інтернеті є велика допомога R. Наприклад, я застряг у спробі розшифрувати сторінку довідки R для аналізу дисперсії, і тому я погуглив "Аналіз дисперсії R". Я знайшов кілька сайтів, що пропонують приклади.
Як і у будь-якій програмі, зазвичай існує більше ніж один спосіб зробити щось через R. Методи, наведені в цьому роздатковому матеріалі, не є єдиним способом проведення цих аналізів через R, і ви повинні сміливо експериментувати та досліджувати.

'Оператор присвоєння' у R використовується для присвоєння імені об'єкту. Наприклад, припустимо, у нас є вибірка з 5 немовлят у віці (у місяцях) 6, 10, 12, 7, 15. У R ці значення можна представити у вигляді вектора стовпців (як набір даних ці значення будуть розташовані в одному стовпці для змінного віку, з 5 рядками). Щоб ввести ці дані в R та дати цим даним назву 'agemos', ми можемо скористатися командою:

'>' - це підказка про готовність, дана R, вказуючи, що R готова до нашого введення (R набрав>, я набрав решту рядка). Тут agemos - це ім’я, яке ми даємо об’єкту, який ми будемо створювати. '' - це оператор присвоєння, а 'c (...)' - це функція, яка створює вектор стовпця із зазначених значень. Отже, ми створюємо об’єкт 'agemos', який є вектором даних (або змінною в наборі даних).

Щоб надрукувати об’єкт, просто введіть його назву:

Значення "[1]", яке R дає на початку рядка, є лічильником - цей рядок починається з першого значення в об'єкті (це корисно для більших наборів даних, коли роздруківка поширюється на кілька рядків). Ми можемо використовувати це ім’я об’єкта під час подальшого аналізу. Наприклад, середній вік цих 5 немовлят можна розрахувати за допомогою функції 'середній ()':

У R назви об’єктів є довільними і, як правило, змінюватимуться відповідно до конкретної програми чи дослідження. Функції завжди включають дужки, щоб укласти відповідні аргументи, а імена функцій складають мову R. Отже, ми можемо розрахувати середній вік, використовуючи середнє (агемос) або середній холестерин, використовуючи середнє (холестерин); ім'я функції є постійним, але ім'я об'єкта змінюється відповідно до конкретного дослідження.

Копія екрана R для вищезазначеного аналізу, введені червоним кольором введені рядки введення, а синіми - рядки виводу, надані R:

Для аналізу однієї змінної з невеликою кількістю спостережень легко ввести вектор стовпця безпосередньо в R, як описано вище. Але з більшими наборами даних простіше спочатку створити та зберегти набір даних у Excel, а потім перенести інформацію з файлу Excel у R. Існує кілька способів зробити це. Я вважаю, що найпростішим є використання команди 'read.csv (file.choose))', яка описана спочатку і використовує меню файлів, схоже на Windows, щоб знайти файл даних, а потім внести дані в R.

1.3.1 Введення даних у R із файлу Excel за допомогою команди read.csv (file.choose ())

MS Excel - чудовий інструмент для введення та управління даними невеликого статистичного дослідження. Дані розташовані зі змінними як стовпці, а теми - як рядки. Перший рядок файлу Excel ("заголовок") може використовуватися для надання імен змінних (імен об'єктів для векторів у R). Наприклад, нижче наводяться дані перших 5 досліджуваних у дослідженні для порівняння вікової першої ходьби між двома групами немовлят: