ru24.pro
Новости по-русски
Апрель
2021

Что такое журналистика данных

0

За последние годы в открытом доступе накопилось столько данных, что понадобились специалисты, которые смогли бы из этого массива извлечь полезную информацию и представить ее в удобном виде. Этих специалистов стали называть дата-журналистами, а их направление работы – журналистикой данных. Разбираемся, что это такое и зачем нужно.

Что такое журналистика данных

Любой журналистский материал должен опираться на факты и доказательства: официальную статистику, финансовые отчеты, исследования, законодательство. Иначе он превратится в личное суждение автора, которое можно оспорить. Пользы от такого материала не будет.

Тем не менее, людей больше интересует не сам факт, а объяснение его значимости – как определенное событие повлияет на их жизнь. Они не хотят читать «сухие» отчеты госорганов, сравнивать прибыль компаний и самостоятельно разбираться в строительных норматива. Аудитории нужен материал, где информация структурирована и написана на понятном языке. Для этого и существует data-журналистика.

Задача дата-журналиста – собрать, обработать и представить данные в удобном для читателя виде.

Неважно, работает специалист с тысячами документов или с 20-30 источниками – любая работа с информацией считается журналистикой данных. А вот под журналистикой больших данных уже понимают обработку серьезных массивов информации.

##READMORE_BLOCK_90904##

Главное отличие от классической журналистики здесь в навыках, которые нужны специалисту, чтобы работать с большим объемом данных. Для сбора информации из тысяч документов потребуется знание языка программирования. Для сбора результатов в увлекательной форме без специальных сервисов тоже не обойтись.

Провести четкую границу между дата-журналистикой и классической журналистикой довольно сложно. Это не отдельная профессия, а набор дополнительных навыков для работы с данными. С развитием технологий ее выделили как отдельное направление, хотя по факту этим занимались и раньше, просто без автоматизации.

Обычно к сбору информации журналисты приступают, когда уже известна тема материала. Есть и обратный вариант, когда интересная идея рождается при изучении данных. Например, зная статистику по ДТП, можно сделать интерактивную карту города с обозначением наиболее аварийных участков дороги.

Само понятие «data-журналистика» как отдельное направление возникло в 2010 году на международной конференции в Амстердаме.

Издания работали с массивами данных и раньше. Например, британская газета Guardian еще в 1821 году опубликовала список школ в Манчестере, собранный по количеству учеников и стоимости обучения. Журналисты хотели определить, сколько детей получают бесплатное образование. Для этого опросили более 10 тыс. человек, а полученные результаты представили в формате таблицы.

Журналистикой данных занимаются не только новостные СМИ, но и редакции отраслевых журналов, корпоративных блогов, исследовательских бюро. В крупных изданиях над проектом работает целая команда data-журналистов. В компаниях поменьше сбором, анализом и визуализацией данных часто занимается 1 специалист.

Дата-журналистика – это в первую очередь набор навыков, а не отдельная профессия. От классической журналистики она принципиально отличается тем, что работа над материалом опирается не на отдельные документы, а на большие массивы информации.

В мире каждую секунду генерируется огромное количество информации. Если раньше журналисту достаточно было изучить 2-3 источника, то теперь их могут быть тысячи. Чтобы обрабатывать эти массивы, журналист должен владеть специальными инструментами (как минимум, Microsoft Excel и Python). Также ему нужно уметь использовать различные средства визуализации – графические редакторы и программы для создания анимации. Для их освоения придется потратить десятки, если не сотни часов.

Поясню на примере. Вы готовите материал на тему «10 самых посещаемых блогов рунета». Чтобы рейтинг был объективными, нужно собрать данные о посещаемости сайтов за определенный период. Затем их нужно проанализировать: отсечь переходы по контекстной рекламе, нецелевой трафик. Вам предстоит изучить аналитику по сотням сайтов, а результат свести в единую таблицу. Это простой пример. Есть сложнее.

Например, некое издание готовит материал про бизнес на Дальнем Востоке.

Во-первых, журналисту предстоит изучить направления для инвестиций с показателями, влияющими на прибыль.

Во-вторых, привести рынки сбыта продукции.

В-третьих, представить налоги, административные барьеры и программы господдержки бизнеса.

Не лишним будет еще показать успешные и провальные проекты, поговорив с предпринимателями.

Такой материал потребует изучения огромного массива данных: законов, статистики Росстата, географии, отчетов компаний, новостных сводок и многое другое. И все это задача дата-журналиста.

Спецпроект агентства «РИА Новости» про создание бизнеса на Дальнем Востоке

Что такое данные в журналистике

Под данными понимается любая исходная информация для журналистского материала: статистика Росстата, отчеты государственных органов, видеофайлы, показатели сервисов онлайн-аналитики, результаты опросов, финансовые отчеты компаний. С каждым днем данных становится все больше.

Данные – такой же источник информации для журналиста, как, например, интервью. Возможно, даже более ценный, чем любой другой вид экспертного контента.

Задача дата-журналистики – преобразовать данные в доступную для широкой аудитории информацию: обработать, обобщить и проинтерпретировать.

  • Данные могут достаться журналисту уже готовыми. Компания SEMrush, например, использует данные о поведении интернет-пользователей, чтобы регулярно питчить журналистов. В результате чего получает по 6 тыс. контролируемых медиаупоминаний в год.

Онлайн-лекция Pressfeed и SEMrush об использовании приемов дата-журналистики

  • Журналист может собрать данные самостоятельно. Например, вручную посчитав упоминания, заполнив таблицу на основе наблюдений и опросов и т.п.
  • Есть данные, которые можно получить только с помощью IT. Если необходимо выгрузить информацию из соцсетей или собрать данные с сайтов, нужно писать автоматизированные запросы.

Данные – это вообще все. В дата-журналистике мы просто анализируем одинаковые свойства объектов и делаем какие-то выводы.

Например, есть джинсы. У джинсов есть карманы. Мы можем измерить их размеры и выпустить материал о том, что в женских джинсах карманы меньше, чем в мужских. Или, допустим, есть тексты. В текстах есть слова, и можно сравнить, сколько раз эти слова употреблялись в текстах. Например, Dekoder посчитали, как часто говорили на какие-то темы наши президенты.

Или гораздо более прозаично: можно взять в Росстате табличку с количеством транспортных средств России и узнать, как изменилось количество каждого из их видов. Правда, перед тем, как данные попали в табличку на Росстате, кто-то это все считал. Например, компании, которые продают автомобили, сложили все свои продажи, отправили в Росстат, а потом местные аналитики это все суммировали.

Объектов, которые мы будем анализировать, может быть вообще немного. Крайне некорректно говорить, что дата-журналисты работают с большими данными. В редких случаях к нам в руки попадают наборы данных с миллионами объектов. Их может быть даже несколько десятков. РБК, например, анализировали жанры групп, выступающих на митингах. Там чуть больше 20 концертов.

Данные могут быть числовыми, категориальными (это текстовые значения – мужчины и женщины, названия стран), логическими (есть ли в регионе губернатор, есть ли в школе компьютерный класс) или географическими (координаты объектов), а также датой и временем.

Порядок работы дата-журналиста над материалом выглядит следующим образом:

  1. сбор данных;
  2. их обработка и анализ;
  3. визуализация;
  4. публикация.

Вот примеры того, как выглядит готовый материал data-журналистов в российских и зарубежных изданиях.

Газета Financial Times посчитала количество погибших от COVID-19 в Великобритании за первые месяцы пандемии. Для этого журналисты изучили десятки тысяч медицинских заключений о причине смерти больных

«РБК» опубликовал рейтинг городов России по комфорту и доступности жилья. Журналисты сравнили статистику Росстата по средней зарплате, стоимости квартир, цене на бензин, количеству экологических катастроф и другим показателям за 2020 год

Один из спецпроектов «РИА Новости» посвящен производству и потреблению лапши быстрого приготовления. Авторы получили комментарии экспертов, собрали данные «Всемирной ассоциации лапши быстрого приготовления» и отчеты исследований, опросили людей

«Т–Ж» выявил основные причины разводов в России на основании официальной статистики и мнений специалистов

Исследование «Текстерры» об отношении россиян к нетрадиционной рекламе. Мы опросили 602 человека по всей России, а результаты представили в виде наглядных графиков

##READMORE_BLOCK_93410##

Сбор и анализ данных

В России действует закон об открытости данных: все государственные службы должны размещать свои отчеты в открытом доступе. Речь идет не только о налоговых декларациях чиновников. В свободном доступе находятся все реестры, указы, распределение бюджета, результаты анализов городской воды, тарифы на услуги ЖКХ и многое другое. Любой человек может узнать, например, сколько объектов недвижимости построила та или иная организация за последний год.

Вот некоторые источники данных госорганов:

В крупных городах открытые данные загружены на специальные порталы. Такие порталы есть, например, в Москве и Екатеринбурге. Кроме этого, «Яндекс» собрал перечень полезных ресурсов для работы с данными.

Среди прочих источников данных – соцсети, поисковые запросы, сервисы интернет-аналитики, видеозаписи, опросы, анализ хештегов, комментарии. Массу интересного можно узнать, если проанализировать судебные решения.

Увы, не все данные находятся в открытом доступе или в машиночитаемом формате. Для некоторых проектов нужно знать язык программирования. Например, Python или JavaScript.

Данные можно получать по-разному. Есть открытые данные – это машиночитаемые датасеты. По сути, таблички, которые можно сразу использовать в анализе. Есть статистика, над расшифровкой которой приходится работать. Например, фотографии или сканы документов. Иногда данные можно запрашивать у компаний и государственных органов. Иногда – получать с каких-то сайтов при помощи скрейпинга или API.

Если у сайта есть API, программисты могут написать запросы определенной формы, чтобы получить с него данные. Например, API есть у социальной сети «ВКонтакте», и можно написать код, который выгрузит все сообщения, в которых содержится слово «собака», и которые были опубликованы в марте 2020 года. Далеко не все API бесплатны, а еще всегда ограничены по числу запросов. Не стоит питать иллюзий, что вы легко выгрузите всю социальную сеть, но сотни тысяч сообщений – вполне.

Если API нет, то сайты еще можно скрейпить. Для этого нужно написать скрипт, который будет заходить на каждую страницу сайта, как это делали бы вы, и забирать оттуда необходимую информацию. Слишком «подозрительные» скрипты сайты могут забанить, поэтому процесс скрейпинга обычно занимает часы и даже дни.

После сбора данных нужно провести их обработку и анализ. Например, из общей статистики налоговой службы выбрать только данные по конкретному региону или виду деятельности. Это удобно сделать с помощью обычных офисных редакторов.

В начале «нулевых» годов от журналистов ожидалось максимум умений: создание медиатекста, разработка дизайна, программирование и т.д. Сейчас, с усложнением технологий, я вижу это как тупиковый путь развития, поскольку невозможно одинаково хорошо делать всю работу. Многие СМИ постепенно переходят от штатной организации работы к проектной, когда часть задач передается фрилансерам – специалистам в определенной области. К примеру, графическим дизайнерам.

Для дата-журналистики самым передовым опытом является использование искусственного интеллекта, который может обрабатывать значительные массивы информации, находить в них закономерности, перепроверять результаты и т.д. Сегодня ряд западных СМИ, например, Associated Press, отдали на откуп ИИ создание около 20 % всех своих медиатекстов.

Однако, ИИ – это нечто большее, чем просто программирование. Здесь нужны специалисты по коммуникации между всеми участниками процесса. Именно эту роль «переводчиков» и должны взять на себя журналисты. Они должны понимать, что нужно их читателям / зрителям, и чего хочет редакция. При это, чтобы говорить на одном языке с разработчиками ИИ, без знания современных IT-технологий не обойтись.

Визуализация данных

Визуализация – наглядное представление данных в удобном для читателя виде. Она должна быть понятна любому человеку, который впервые ее увидел. С помощью визуализации читатель сможет сразу извлечь нужную информацию, не вдаваясь в расчеты, сравнение показателей, анализ данных. Другими словами, визуализация в data-журналистике – это упаковка готового материала.

##READMORE_BLOCK_182##

Вот некоторые способы визуализации:

  • графики, диаграммы, гистограммы;
  • инфографика;
  • схемы;
  • интерактивные карты;
  • сторителлинг;
  • 3D-визуализация;
  • матрицы;
  • дашборды;
  • игры и тесты.
Научитесь писать захватывающие истории на курсе «Сторителлинг» от Teachline.

Спецпроект «РИА Новости» про источники питьевой воды в Москве. Инфографика воспринимается легче, чем лонгрид со скучными картинками

Публикация газеты «Аргументы и факты». Такая карта понятна любому читателю

Атлас газификации в России в спецпроекте «Новой Газеты»

Визуализацию можно сделать c помощью специальных программ: MS Excel, Google Data Studio, Tableau, Flourish, RawGraphs, Google Docs и другие. Некоторые дата-журналисты с нуля программируют визуализацию, используя JavaScript или Python.

Есть определенное количество наборов данных, с которыми можно работать без программирования, и выпускать на основе этой работы материалы. Но все-таки неумение программировать сильно сужает спектр возможностей: не получится работать с большими объемами данных, делать анализ текстов. Не всякий сайт можно скрейпить без программирования.

В общем, желательно, чтобы в команде был хотя бы один человек, который умеет кодить. Если такой человек есть, остальные могут обойтись без программирования.

Например, платформа Tableau позволяет работать с большим объемом данных, представляя результат в интерактивном формате. Данные собираются с облачных или файловых систем. Над одним проектом могут работать сразу несколько специалистов.

##READMORE_BLOCK_92450##

Где учиться на дата-журналиста

По мнению «РБК», профессия data-журналиста входит в топ самых востребованных в ближайшие годы. При этом в государственных вузах специальных программ по дата-журналистике нет. В НИУ «Высшая школа экономики» есть магистерская программа продолжительностью 2 года. О том, как работать с данными для материала, частично учат на журфаке.

##READMORE_BLOCK_62672##

Кроме вузов получить профессию дата-журналиста можно в онлайн-школах, хотя и здесь найти подходящий курс будет непросто. Они есть, например, в «Нетологии» и «Стрелке».

Раньше, когда информация была в дефиците, она ценилась сама по себе. Сейчас информации, наоборот, слишком много, поэтому ценится умение правильно ее анализировать, структурировать и представлять аудитории.

Потенциал для создания материалов, основанных на данных, практически неограничен. Поэтому очень нужны люди, которые умеют с этим работать: разбираются в методах обработки и анализа, программировании и графическом дизайне. Надо или журналистов учить работать с данными, или искать специалистов по данным, которые умеют рассказывать истории. И то, и другое – задачи не из легких.

Специалисты по работе с данными (они же «сенсмейкеры», «визуальные аналитики», «инфомейкеры») нужны не только в СМИ, но и в других сферах. В производстве дата-контента заинтересованы госструктуры, вузы, финансовый сектор, рекламные и маркетинговые агентства и т.д. Каждый бизнес располагает огромным объемом данных. Важно уметь эти данные извлекать. В России на профессиональном рынке таких специалистов очень мало. Зайти в эту профессию сейчас очень просто: можно «сделать имя», пока конкуренции практически нет.