Домой Продвижение Как использовать Google BigQuery от использования Python

Как использовать Google BigQuery от использования Python

3 просмотров
0

Аналитик продукта

Автор телеграммы-канал

Гугл сервис BigQuery-это масштабируемое, без сервера хранения данных. Использование одноранговой (облачных) решений является хорошей идеей, если у вас нет серьезный опыт в администрирования баз данных. Такой подход позволяет сосредоточиться только на анализе данных и не думать об инфраструктуре хранения (sortirovanie, индексацию, сжатие). BigQuery поддерживает стандарт SQL-диалект, так что любой, кто когда-либо пользовался SQLными СУБД может легко начать использовать его.

Начало работы с Google BigQuery от и создать ключ для учетной записи службы

Я не собираюсь подробно объяснить, как начать работать с облачной платформой Google и запустить первый проект, об этом хорошо написано в [бренд Netpeak] — блог. Когда у нас есть проект с подключенным облачной платформы BigQuery от API, то следующий шаг-добавить учетные данные.

1. Перейдите к «API и сервисы > учетные данные»:

2. Нажмите кнопку «создать учетные данные» > «ключ сервис»счета:

3. Заполните параметры: введите имя учетной записи службы; выберите роль (как показано на скриншоте ниже, но роль может зависеть от уровня доступа, который вы хотите предоставить услуги счета); выбрать тип данных JSON ключ; нажмите кнопку «Создать»:

4. Перейти на «IAM и управления» > «Учетные записи служб»

5. В столбце «действие» мы создали учетную запись сервиса, выберите пункт «Создать ключ»:

6. Выберите формат ключа «с JSON» и нажмите кнопку «Создать», затем загрузить JSON-файл, содержащий учетные данные для учетной записи:

Получил JSON с ключ нам потребуется в будущем. Так что не теряйте.

Использование панд-ГБК для импорта данных из Google BiqQuery

Первый способ, который можно использовать для загрузки данных из сервис BigQuery в панд-таблицы данных библиотека . Эта библиотека является оберткой вокруг API-интерфейс Google BigQuery от Чтобы упростить работу с данными с помощью BigQuery от таблицы данных.

Сначала нужно поставить библиотеки-ГБК панды. Это можно сделать с помощью pip или стадион conda:

Я решил посмотреть на основы работы с Google BigQuery от использования Python на примере наборов открытых данных. В качестве интересного примера возьмем набор данных с информацией о проблемах на сайте StackOverflow услуги.

Затем немного поиграть с обработкой. Выбрать дату, месяц и год.

Мы группировать данные по году и месяцу и записать данные в таблицу данных статистика.

Подсчитайте общее количество выпусков в год и среднее число запросов в месяц для каждого года, начиная с января 2013 года по август 2018 года (последний полный месяц, который был в dataseta на момент написания). Запись полученных данных в новую таблицу данных year_stats

С 2018 года в наши данные являются неполными, мы можем подсчитать количество вопросов, которое ожидается в 2018 году.

На основе данных из StackOverflow сказать, что популярность панд из года в год растет хорошими темпами 🙂

Запись данных из таблицы данных в Google BigQuery от

Следующим шагом я хотел бы показать вам, как записывать данные в сервис BigQuery из таблицы данных с pandas_gbq.

В таблице данных year_stats оказалось multiindex из-за того, что мы использовали две статистические функции (среднее и сумму). Для того чтобы правильно записать такие дейтаграммы в БК должны быть удалены multiindex. Для этого нужно просто назначить нового столбца таблицы данных.

После этого применим к функции таблицы данных year_stats to_gbq. Вариант if_exists = ’не’ означает, что существование таблицы с именем потерпят неудачу. Кроме того, значение этого параметра может быть указано, а затем добавить к существующим данным в таблице, будут добавлены. Private_key параметра указать путь к ключу учетной записи службы.

После выполнения функции в сервис BigQuery появляются наши данные:

Итак, мы рассмотрели импорт и экспорт данных в BiqQuery панд овского таблицы данных с пандами-ГБК. Но панды-ГБК разрабатывается сообществом энтузиастов, в то время как нет никакой официальной библиотеки для Google BigQuery от использования Python. Основные сравнения панды-ГБК и официальный библиотеке можно увидеть .

Использование официальной библиотеки для импорта данных из Google BiqQuery

В первую очередь стоит поблагодарить Google, потому что они содержат много ярких примеров, в том числе питона. Поэтому я бы рекомендовал вам сначала прочитать документацию.

Ниже рассмотрим, как получить данные, используя официальные библиотеки и перенести их в таблицу данных.

Как видно, по простоте синтаксиса, формальная библиотека мало чем отличается от использования панды-ГБК. Однако, я заметил, что некоторые функции (например, date_trunc) не работают через панд-ГБК. Поэтому я предпочитаю использовать официальные Python и пакет SDK для Google BigQuery от.

Для импорта данных из таблицы данных в сервис BigQuery, вам необходимо установить pyarrow. Эта библиотека позволит обеспечить объединение данных в памяти для таблицы данных соответствует структуре данных, необходимых для загрузки в BigQuery.

Проверить, что наши таблицы данных, загруженных в BigQuery:

Красота с помощью собственного SDK, а не pandas_gbq, что вы можете управлять подразделениями в сервис BigQuery, например, создание баз данных, редактирование таблиц (схемы, описание) Создать новое представление и т. д. В общем, если pandas_gbq — это больше о чтении и записи таблицы данных, родной SDK позволяет управлять всей внутренней кухне

Вот простой пример того, как можно изменить описание таблицы:

Также с помощью нативного Python SDK, вы можете отобразить все поля из таблицы, отображения количества строк в таблице

Если таблица уже создана, новую таблицу данных передачи в существующих строках таблицы будут добавлены в

Заключение

Так с помощью простых скриптов, которые вы можете отправлять и получать данные из Google BigQuery от, а также для управления различными подразделениями (базы данных, таблицы) в сервис BigQuery.

Успехов!

Источник: seonews.ru

Купить готовый сайт

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here