Правила оформления таблиц и датасетов, на примере Google Sheets

Правила оформления таблиц Google Sheets и Excel

За время работы, в команде DataQA сформировались правила оформления таблиц и датасетов. Инструмент не имеет значения т.к. советы, в большинстве, универсальны, хотя, преимущественно, касаются Google Sheets и Excel. Перед началом чтения рекомендую взглянуть на пример демо-таблицы одной из финальных работ DataQA по сбору данных и сравнить с тем, что вы видели раньше: Инста-блогеры в iGaming

Очистка пробелов и пустых переносов

Частой проблемой, при работе с чужими датасетами, являлись пробелы, которые присутствуют абсолютно во всех собранных данных. Чем это вредно и почему их стоит избегать?:

  • При копировании ячеек будут копироваться и лишние пробелы, что, при переносе данных в другое место, может привести к лишним проблемам
  • Пробелы не позволяют отслеживать дубликаты строк в столбцах. Ячейка со словом «Игры» и словом «Игры » (с пробелом), будут считаться разными
  • Пробелы мешают фильтрации и сводным таблицам, создавая фиктивные данные, как в примере выше
  • Пустые переносы, при экспорте данных, для последующей обработки, например в Python, оставят лишние символы и дополнительные строки. Входной код может получиться нечитаемым для языка программирования и потребуется дополнительная очистка

Для решения проблемы уже создан готовый функционал, находящийся в верхней панели управления: «Данные» — «Очистка данных» — «Удалить пробелы».

Копирование данных без обработки

Добавляя сторонние данные в датасет, например скопированные с разных сайтов, многие допускают ошибку, просто вставив их, не проведя предобработку. В результате, в финале работы, получается мешанина из стилей, шрифтов, размеров и другого.

Проблема копирования данных в таблицу

Почему это проблема? Во первых, это вызывает путаницу в данных, а во вторых, выполняю работу для заказчика, кому хотелось бы получить такой результат?

Решается проблема банально и просто — все данные добавляем в ячейки после двойного клика левой кнопкой по ней. Таким образом происходит переход в тело ячейки и данные добавляются без форматов скопированных с сайта. Или, для самых вредных, кто любит делать все в конце работы, сбрасываем форматирование всей таблицы через выделение всех данных и нажатие: «Формат» — «Очистить формат».

Отсутствие форматов данных

Пункт, который дополняет предыдущий, подчеркивая важность общего форматирования таблиц.

Каждый столбец данных, добавленный в таблицу, должен иметь соответствующий ему формат. Если в столбце только числа — «Числовой», для дат и времени — «Дата», для процентов — «Процентный» и другие. Ознакомиться со списком форматов можно в верхнем меню Google Sheets, нажав на «Формат» — «Числа». Однако, остается главный вопрос — зачем это нужно?

Правильное форматирование позволит осуществлять сложные манипуляции с данными: писать формулы, использовать сводные таблицы и другое. Помимо вас, это позволит сторонним специалистам или заказчику работать с данными без лишних упреков и сомнений в вашем профессионализме.

Смешивание букв алфавита разных стран

Тема, которая, частично, уже затрагивалась выше. Одной из постоянных ошибок является смешивание букв алфавита разных стран, например: слово «СОН» с русской Н и «СОH» английской H (эйч). Это приводит к тому, что ячейки считаются разными и возникают ошибки в последующей обработке данных.

В DataQA существует правило разметки валидных ячеек через «X» (английский). Это позволяет приучить начинающих специалистов отслеживать эти параметры в бою, на своих ошибках, а также имеет ряд других преимуществ, но это тема для отдельной статьи.

Формат добавления ссылок

Добавление ссылок — отдельная головная боль, которая отличается от задачи к задаче. Многие сторонние специалисты не уделяют параметру достаточно времени, хотя он позволяет отслеживать повторы в многотысячных датасетах, из-за уникальности каждой ссылки. В результате работы получаются данные, которые могут повторяться не один десяток раз, и, что еще хуже, на их заполнение было потрачено уйма лишнего времени.

Важно заметить, что формат ссылок, в большинстве случаев, используется именно для выявления дубликатов в столбце. Уже второстепенно он носит декоративную функцию, чтобы радовать себя и заказчиков.

Правила форматирования ссылок используемые в DataQA:

  • В случае отслеживания дубликатов:
    • Только главные страницы сайтов
    • Без протоколов http:// и https://
    • Без www.
    • Без / в конце (не используется в особых случаях)
  • В случае НЕ отслеживания дубликатов:
    • Придерживаться единого формата оформления ссылок при сборе с одного сайта. Например, данные в ячейках, типа «www.facebook.com» и «facebook.com» — недопустимы.

Общий набор советов для оформления Google Sheets

Помимо функциональных требований мы выработали стандарты и для оформления датасетов. Все мелочи перечислять не имеет смысла, но подметим наиболее важные:

  • Не использовать яркие цвета в разметке документа! Люди, работающие в таблицах весь день, чувствуют сильное напряжение на глаза, из-за просмотра однотипной разметки. Оставляя яркие цвета и пометки, вы усугубляете ситуацию и ухудшаете восприятие содержимого, а также снижаете общую производительность остальных сотрудников или коллег
  • Закрепляйте заглавные строки и столбцы. При прокрутке больших документов заголовки всегда должны оставаться сверху, а ключевые столбцы слева
  • Придерживайтесь строгого оформления заглавной строки. Один раз выберите формат ее оформления и используйте постоянно
  • Придерживайтесь строгого оформления в названии документа. Один раз выберите шаблон-структуру, по которой будете создавать каждую новую таблицу, и используйте его постоянно. В DataQA мы используем шаблон «Название документ / DataQA», иногда добавляя дату создания, если этого требует задача
  • Уделяйте внимание мелочам. Пусть столбцы, по возможности, будут одного размера или при переключении листов в Google Sheets все таблицы будут оформлены одинаково, и другие параметры, отвечающие за визуальный результат работы

Зачем применять правила оформления таблиц и датасетов?

Существует ряд объективных причин, почему оформление данных в таблицах является важным параметром, а именно:

  • Вы показываете свой профессионализм в работе с данными
  • Качество данных и их оформление выделяет вас на фоне прочих исполнителей, коллег и компаний
  • Заказчики данных, будь то начальник на работе или клиент компании, с большей вероятностью обратится к вам, чем к тем, кто этого не делает

Рассмотренные правила оформления таблиц и датасетов не исчерпывающие и могут меняться от требований задач и правил внутри компании.