Site icon Поиск информации, сбор данных, кабинетные исследования и OSINT / DataQA

Правила оформления таблиц и датасетов, на примере Google Sheets

Правила оформления таблиц Google Sheets и Excel

За время работы, в команде DataQA сформировались правила оформления таблиц и датасетов. Инструмент не имеет значения т.к. советы, в большинстве, универсальны, хотя, преимущественно, касаются Google Sheets и Excel. Перед началом чтения рекомендую взглянуть на пример демо-таблицы одной из финальных работ DataQA по сбору данных и сравнить с тем, что вы видели раньше: Инста-блогеры в iGaming

Очистка пробелов и пустых переносов

Частой проблемой, при работе с чужими датасетами, являлись пробелы, которые присутствуют абсолютно во всех собранных данных. Чем это вредно и почему их стоит избегать?:

Для решения проблемы уже создан готовый функционал, находящийся в верхней панели управления: «Данные» — «Очистка данных» — «Удалить пробелы».

Копирование данных без обработки

Добавляя сторонние данные в датасет, например скопированные с разных сайтов, многие допускают ошибку, просто вставив их, не проведя предобработку. В результате, в финале работы, получается мешанина из стилей, шрифтов, размеров и другого.

Почему это проблема? Во первых, это вызывает путаницу в данных, а во вторых, выполняю работу для заказчика, кому хотелось бы получить такой результат?

Решается проблема банально и просто — все данные добавляем в ячейки после двойного клика левой кнопкой по ней. Таким образом происходит переход в тело ячейки и данные добавляются без форматов скопированных с сайта. Или, для самых вредных, кто любит делать все в конце работы, сбрасываем форматирование всей таблицы через выделение всех данных и нажатие: «Формат» — «Очистить формат».

Отсутствие форматов данных

Пункт, который дополняет предыдущий, подчеркивая важность общего форматирования таблиц.

Каждый столбец данных, добавленный в таблицу, должен иметь соответствующий ему формат. Если в столбце только числа — «Числовой», для дат и времени — «Дата», для процентов — «Процентный» и другие. Ознакомиться со списком форматов можно в верхнем меню Google Sheets, нажав на «Формат» — «Числа». Однако, остается главный вопрос — зачем это нужно?

Правильное форматирование позволит осуществлять сложные манипуляции с данными: писать формулы, использовать сводные таблицы и другое. Помимо вас, это позволит сторонним специалистам или заказчику работать с данными без лишних упреков и сомнений в вашем профессионализме.

Смешивание букв алфавита разных стран

Тема, которая, частично, уже затрагивалась выше. Одной из постоянных ошибок является смешивание букв алфавита разных стран, например: слово «СОН» с русской Н и «СОH» английской H (эйч). Это приводит к тому, что ячейки считаются разными и возникают ошибки в последующей обработке данных.

В DataQA существует правило разметки валидных ячеек через «X» (английский). Это позволяет приучить начинающих специалистов отслеживать эти параметры в бою, на своих ошибках, а также имеет ряд других преимуществ, но это тема для отдельной статьи.

Формат добавления ссылок

Добавление ссылок — отдельная головная боль, которая отличается от задачи к задаче. Многие сторонние специалисты не уделяют параметру достаточно времени, хотя он позволяет отслеживать повторы в многотысячных датасетах, из-за уникальности каждой ссылки. В результате работы получаются данные, которые могут повторяться не один десяток раз, и, что еще хуже, на их заполнение было потрачено уйма лишнего времени.

Важно заметить, что формат ссылок, в большинстве случаев, используется именно для выявления дубликатов в столбце. Уже второстепенно он носит декоративную функцию, чтобы радовать себя и заказчиков.

Правила форматирования ссылок используемые в DataQA:

Общий набор советов для оформления Google Sheets

Помимо функциональных требований мы выработали стандарты и для оформления датасетов. Все мелочи перечислять не имеет смысла, но подметим наиболее важные:

Зачем применять правила оформления таблиц и датасетов?

Существует ряд объективных причин, почему оформление данных в таблицах является важным параметром, а именно:

Рассмотренные правила оформления таблиц и датасетов не исчерпывающие и могут меняться от требований задач и правил внутри компании.

Exit mobile version