За время работы, в команде DataQA сформировались правила оформления таблиц и датасетов. Инструмент не имеет значения т.к. советы, в большинстве, универсальны, хотя, преимущественно, касаются Google Sheets и Excel. Перед началом чтения рекомендую взглянуть на пример демо-таблицы одной из финальных работ DataQA по сбору данных и сравнить с тем, что вы видели раньше: Инста-блогеры в iGaming
Очистка пробелов и пустых переносов
Частой проблемой, при работе с чужими датасетами, являлись пробелы, которые присутствуют абсолютно во всех собранных данных. Чем это вредно и почему их стоит избегать?:
- При копировании ячеек будут копироваться и лишние пробелы, что, при переносе данных в другое место, может привести к лишним проблемам
- Пробелы не позволяют отслеживать дубликаты строк в столбцах. Ячейка со словом «Игры» и словом «Игры » (с пробелом), будут считаться разными
- Пробелы мешают фильтрации и сводным таблицам, создавая фиктивные данные, как в примере выше
- Пустые переносы, при экспорте данных, для последующей обработки, например в Python, оставят лишние символы и дополнительные строки. Входной код может получиться нечитаемым для языка программирования и потребуется дополнительная очистка
Для решения проблемы уже создан готовый функционал, находящийся в верхней панели управления: «Данные» — «Очистка данных» — «Удалить пробелы».
Копирование данных без обработки
Добавляя сторонние данные в датасет, например скопированные с разных сайтов, многие допускают ошибку, просто вставив их, не проведя предобработку. В результате, в финале работы, получается мешанина из стилей, шрифтов, размеров и другого.
Почему это проблема? Во первых, это вызывает путаницу в данных, а во вторых, выполняю работу для заказчика, кому хотелось бы получить такой результат?
Решается проблема банально и просто — все данные добавляем в ячейки после двойного клика левой кнопкой по ней. Таким образом происходит переход в тело ячейки и данные добавляются без форматов скопированных с сайта. Или, для самых вредных, кто любит делать все в конце работы, сбрасываем форматирование всей таблицы через выделение всех данных и нажатие: «Формат» — «Очистить формат».
Отсутствие форматов данных
Пункт, который дополняет предыдущий, подчеркивая важность общего форматирования таблиц.
Каждый столбец данных, добавленный в таблицу, должен иметь соответствующий ему формат. Если в столбце только числа — «Числовой», для дат и времени — «Дата», для процентов — «Процентный» и другие. Ознакомиться со списком форматов можно в верхнем меню Google Sheets, нажав на «Формат» — «Числа». Однако, остается главный вопрос — зачем это нужно?
Правильное форматирование позволит осуществлять сложные манипуляции с данными: писать формулы, использовать сводные таблицы и другое. Помимо вас, это позволит сторонним специалистам или заказчику работать с данными без лишних упреков и сомнений в вашем профессионализме.
Смешивание букв алфавита разных стран
Тема, которая, частично, уже затрагивалась выше. Одной из постоянных ошибок является смешивание букв алфавита разных стран, например: слово «СОН» с русской Н и «СОH» английской H (эйч). Это приводит к тому, что ячейки считаются разными и возникают ошибки в последующей обработке данных.
В DataQA существует правило разметки валидных ячеек через «X» (английский). Это позволяет приучить начинающих специалистов отслеживать эти параметры в бою, на своих ошибках, а также имеет ряд других преимуществ, но это тема для отдельной статьи.
Формат добавления ссылок
Добавление ссылок — отдельная головная боль, которая отличается от задачи к задаче. Многие сторонние специалисты не уделяют параметру достаточно времени, хотя он позволяет отслеживать повторы в многотысячных датасетах, из-за уникальности каждой ссылки. В результате работы получаются данные, которые могут повторяться не один десяток раз, и, что еще хуже, на их заполнение было потрачено уйма лишнего времени.
Важно заметить, что формат ссылок, в большинстве случаев, используется именно для выявления дубликатов в столбце. Уже второстепенно он носит декоративную функцию, чтобы радовать себя и заказчиков.
Правила форматирования ссылок используемые в DataQA:
- В случае отслеживания дубликатов:
- Только главные страницы сайтов
- Без протоколов http:// и https://
- Без www.
- Без / в конце (не используется в особых случаях)
- В случае НЕ отслеживания дубликатов:
- Придерживаться единого формата оформления ссылок при сборе с одного сайта. Например, данные в ячейках, типа «www.facebook.com» и «facebook.com» — недопустимы.
Общий набор советов для оформления Google Sheets
Помимо функциональных требований мы выработали стандарты и для оформления датасетов. Все мелочи перечислять не имеет смысла, но подметим наиболее важные:
- Не использовать яркие цвета в разметке документа! Люди, работающие в таблицах весь день, чувствуют сильное напряжение на глаза, из-за просмотра однотипной разметки. Оставляя яркие цвета и пометки, вы усугубляете ситуацию и ухудшаете восприятие содержимого, а также снижаете общую производительность остальных сотрудников или коллег
- Закрепляйте заглавные строки и столбцы. При прокрутке больших документов заголовки всегда должны оставаться сверху, а ключевые столбцы слева
- Придерживайтесь строгого оформления заглавной строки. Один раз выберите формат ее оформления и используйте постоянно
- Придерживайтесь строгого оформления в названии документа. Один раз выберите шаблон-структуру, по которой будете создавать каждую новую таблицу, и используйте его постоянно. В DataQA мы используем шаблон «Название документ / DataQA», иногда добавляя дату создания, если этого требует задача
- Уделяйте внимание мелочам. Пусть столбцы, по возможности, будут одного размера или при переключении листов в Google Sheets все таблицы будут оформлены одинаково, и другие параметры, отвечающие за визуальный результат работы
Зачем применять правила оформления таблиц и датасетов?
Существует ряд объективных причин, почему оформление данных в таблицах является важным параметром, а именно:
- Вы показываете свой профессионализм в работе с данными
- Качество данных и их оформление выделяет вас на фоне прочих исполнителей, коллег и компаний
- Заказчики данных, будь то начальник на работе или клиент компании, с большей вероятностью обратится к вам, чем к тем, кто этого не делает
Рассмотренные правила оформления таблиц и датасетов не исчерпывающие и могут меняться от требований задач и правил внутри компании.