Завантаження та вивантаження даних

Доступна нова версія цієї документації. Скористайтеся меню версій вище, щоб переглянути найсвіжіший випуск документації Greenplum 5.x.

завантаження

Теми в цьому розділі описують методи завантаження та запису даних у та з бази даних Greenplum та способи форматування файлів даних.

База даних Greenplum підтримує високоефективне паралельне завантаження та вивантаження даних, а також для менших обсягів даних, імпорт та експорт непаралельних даних.

У найпростішому випадку команда COPY SQL завантажує дані в таблицю з текстового файлу, доступного для головного екземпляра бази даних Greenplum. Це не вимагає налаштування і забезпечує хорошу продуктивність для менших обсягів даних. За допомогою команди COPY дані, скопійовані в базу даних або поза нею, передаються між одним файлом на головному хості та базою даних. Це обмежує загальний розмір набору даних до місткості файлової системи, де знаходиться зовнішній файл, і обмежує передачу даних в один потік запису файлу.

Більш ефективні варіанти завантаження даних для великих наборів даних використовують переваги архітектури MPP бази даних Greenplum, використовуючи сегменти бази даних Greenplum для паралельного завантаження даних. Ці методи дозволяють завантажувати дані одночасно з декількох файлових систем через кілька мережевих адаптерів на декількох хостах, досягаючи дуже високих швидкостей передачі даних. Зовнішні таблиці дозволяють отримувати доступ до зовнішніх файлів з бази даних, як якщо б вони були звичайними таблицями бази даних. При використанні з gpfdist, програмою паралельного розповсюдження файлів бази даних Greenplum, зовнішні таблиці забезпечують повний паралелізм, використовуючи ресурси всіх сегментів бази даних Greenplum для завантаження або вивантаження даних.

База даних Greenplum використовує паралельну архітектуру розподіленої файлової системи Hadoop для доступу до файлів у цій системі.