Введение
1.Теоретические аспекты визуализации данных
1.1 Современные тенденции визуализации данных
1.2 Особенности восприятия визуальной информации
1.3 Анализ подходов визуализации данных в истории
2. Анализ методов визуализации многомерных данных
2.1 Методы визуализации многомерных данных
2.2 Обзор инструментов визуализации многомерных данных
3 Реализация методов визуализации многомерных данных
3.1 Описание библиотек для визуализации данных в R
3.2 Описание выбранных наборов данных
3.3 Реализация методов визуального представления многомерных данных в среде R
Заключение
Список использованных источников
В современный период развития нельзя не отметить возрастающую важность информации для общества. Согласно исследованию, проведенному аналитической компанией IDC объем данных за 2025 год составит 163 зеттабайта (ЗБ), что в 10 раз больше общего объема данных за 2016 год [16].
Создание и аккумулирование больших объемов данных привело к проблеме их адекватного восприятия, снижению скорости их обработки, в том числе трудоемкими стали процессы выявления закономерностей и паттернов, и как следствие, это приводит к принятию неверных управленческих решений. В связи с этим, возникла потребность в понятном представлении данных, их визуализации. Различные графические формы упрощают процесс анализа и понимания полученных результатов. В настоящее время, рынок предлагает различные инструменты для визуального анализа, но существует проблема выбора верной формы представления, которая донесет необходимую информацию и не запутает зрителя.
Концептуальные основы визуализации данных и некоторые аспекты практического использования методов рассмотрены в трудах таких зарубежных авторов, как Х. Викхэм, Дж. Желязны, А. Инзельберг, Р. Леглер, Д. Роем, М. Френдли, Г. Чернов, М. Эпплер, Н. Яу.
Вопросами визуализации данных, в том числе и в среде R, занимаются разные авторы, но существует свидетельства о сложности этого процесса. Именно недостаточность изученности этого вопроса в русскоязычной литературе послужила выбором темы диссертационного исследования.
Объектом исследования настоящей работы является процесс визуализации данных.
Предмет исследования – методы визуализации многомерных данных в среде R.
Цель исследования – решение практической задачи, связанной с развитием методов визуализации данных в среде R, с учетом значимости преобразований в рамках цифровой экономики.
Для достижения цели исследования поставлены следующие задачи:
- выделить современные тенденции в визуальной аналитике;
- исследовать подходы к визуализации данных в историческом контексте;
- выделить и проанализировать специфические методы визуализации многомерных данных;
- разработать графические модели в среде R на примере открытых данных.
Теоретико-методологическую основу исследования составили основные концепции и труды отечественных и зарубежных авторов в сфере анализа и визуализации данных. Информационной базой стали общедоступные ресурсы сети Интернет.
В процессе проведения исследования применены такие методы, как:
- наблюдение;
- сравнение;
- восхождение от абстрактного к конкретному;
- формализация;
- классификация;
- анализ;
- визуальное моделирование.
Помимо общенаучных методов, которые были перечислены выше, в работе применяются такие специальные методы, как:
- метод главных компонент;
- метод параллельных координат.
Научная новизна заключается в разработке инструментальных моделей с использованием специфических методов визуализации на примере открытых данных, а также формализации и систематизации информации в области методов визуализации данных, в частности в среде R.
Практическая значимость исследования состоит в том, что выводы и рекомендации, содержащиеся в работе, могут быть использованы для дальнейших исследований в области визуализации данных и при подготовке программ дисциплин.
В соответствии с поставленной целью и задачами состоит из введения, 3 глав, состоящих из 8 параграфов, заключения и списка использованных источников (40 наименований). В первой главе «Теоретические аспекты визуализации данных» представлены современные тренды в визуальной аналитике, особенности восприятия визуальной информации человеком, также проведен анализ подходов представления данных в истории. Во второй главе «Анализ методов визуализации многомерных данных» описаны специфические методы визуализации многомерных данных и представлен обзор современных инструментов, используемых в визуальной аналитике. В третьей главе «Реализация методов визуализации многомерных данных» рассматриваются библиотеки, использующиеся для визуализации данных в среде R, приводится описание и структура выбранных наборов данных и примеры реализации методов, описанных во второй главе исследования. Работа представлена на 50 страницах, содержит 28 рисунков.
1. ТЕОРЕТИЧЕСКие аспекты визуализации данных
1.1 Современные тенденции визуализации данных
В настоящее время визуализация данных – это глобальный тренд. Опрос компании BARC, опубликованный в 2017 г. показал, что функция визуализации данных является одной из самых приоритетных в аналитических системах. Инструменты визуализации данных позволяют компаниям получить конкурентное преимущество на рынке, т.к. визуальные формы упрощают и ускоряют процесс восприятия информации, выявление новых фактов, скрытых в больших массивах данных, это дает руководству возможность оперативно принимать решения и ориентироваться в текущей ситуации.
За последнее десятилетие внимание к визуализации данных растет со стороны специалистов из различных сфер деятельности, технологии в этой области постоянно улучшаются и развиваются. В связи с чем можно выделить некоторые значительные тенденции, которые появились в визуальной аналитике за последнее время.
Компания IBM прогнозирует увеличение спроса на специалистов в области анализа данных к 2020 г. на 39% [30]. В связи с ростом потребности в подобных специалистах инструменты визуальной аналитики постоянно развивают, и постепенно становятся доступны широкой аудитории, т.е. позволяют без специфических знаний и навыков, например, языков программирования, создавать графические формы: графики, диаграммы, карты и т.д. Важно отметить, что эта тенденция привела к появлению различных ресурсов, например, DataVizProject.com [28]. Этот сайт объединяет более 100 видов визуализации данных, с описанием целей использования и яркими примерами.
Еще одна тенденция, о которой говорят эксперты – это рост источников и ресурсов открытых данных. Можно выделить некоторые из них.
Во-первых, открытые государственные данные. Многие страны мира поддержали международный проект Открытое правительство, цель которого обеспечить максимальную прозрачность работы органов государственной власти для расширения возможностей граждан по борьбе с коррупцией и использования новых технологий для укрепления управления [34]. Порталы открытых данных государств содержат данные из различных сфер деятельности – от сельского хозяйства и промышленности, до климата и образования. В 2016 году журнал Forbes опубликовал список лучших ресурсов с открытыми данными [24], в нем присутствовали также и государственные порталы:
- https://www.data.gov/ – Открытые данные Соединенных Штатов Америки;
- http://open-data.europa.eu/en/data/ – Портал открытых данных Европейского союза;
- https://data.gov.uk/ – данные правительства Великобритании, которые также включают информацию о всех британских книгах и публикациях с 1950 г.
- http://open.canada.ca/en – открытые данные Канады.
Из российских ресурсов можно выделить:
- http://open.gov.ru – открытое правительство Российской Федерации;
- http://data.gov.ru – портал открытых данных Российской Федерации.
Важным источником данных являются в том числе и интернет - порталы глобальных организаций (Global organizations):
- https://www.unicef.org/reports – международная организация ЮНИСЕФ показывает данные о положении детей и женщин во всем мире;
- http://www.who.int/gho/en/ – Всемирная организация здравоохранения предлагает данные о болезнях, голоде, потреблении табака, алкоголя и т.д.;
- http://data.uis.unesco.org/ – ЮНЕСКО предлагает познакомиться с информацией об уровне образования, количеством фильмов, снятых в той или стране и т.д.
Источником открытых данных также являются частные компании и организации. Они делятся информацией неохотно, помимо официальных заявлений и новостей. Однако существуют порталы, которые аккумулируют информацию о компаниях из национальных общедоступных источников и различных реестров. Примером такого ресурса служит сайт https://opencorporates.com, который был разработан на базе Института Открытых Данных (Open Data University) [34] и содержит информацию о более чем 100 миллионах компаний.
Сервисы поисковой системы Google – Public Data и Google Trends также работают с открытыми данными. Они объединяют информацию с популярных официальных ресурсов и предлагают ее в визуальной форме.
Научное сообщество также занимается продвижением концепции открытых данных. Сегодня существует множество порталов, которые аккумулируют данные из разных областей науки. Яркий пример, сайт Национального центра экологической информации (National center of environmental information). Коллекция центра содержит метеорологические, климатические, экологические данные из Национального центра климатических данных США и является одним из самых крупных архивов данных о погоде [33].
На сегодняшний день, открытые данные стали фундаментом для многих проектов и исследований, так, например, появились различные социально-значимые веб-сервисы и приложения.
Активное использование интерактивных средств визуализации, в частности интерактивных карт, также является трендом в визуализации данных. Портал Carto сделал подборку 80 примеров подобных карт, которые показывают информацию из абсолютно разных областей [20]. Активно используют карты и некоторые другие методы визуализации крупные новостные издания, такие как The Guardian, The New York Times, The Washington Post и многие другие.
Использование технологий виртуальной реальности для визуализации данных – еще один тренд. По данных исследования, проведенного аналитической компании IDC, затраты на развитие технологий виртуальной реальности вырастут с 5,2 млрд долларов США в 2016 г. до 162 млрд долларов США к 2020 г. [29] Виртуальная реальность обеспечивает легкое восприятие больших наборов данных, т.к. у человека появляется возможность рассмотреть данные в нескольких плоскостях.
Еще одно важное направление в визуализации данных – это развитие систем мобильной аналитики [18]. В связи с увеличением мобильного трафика, важной становится визуализация данных, полученных с мобильных устройств. Крупные компании начинают запускать для этого сервисы, например, Firebase Analytics от Google, AppMetrica от Яндекс и многие другие.
Организации по всему миру стремятся получить максимально полную информацию о своей деятельности и на основании нее принять быстрые и эффективные решения. Современные технологии визуализации упрощают этот процесс, в связи с чем интерес к ним в ближайшем будущем будет расти.
- Особенности восприятия визуальной информации
Прежде чем рассматривать различные методы представления данных, необходимо учесть назначение визуализации, как метода познания для человека и выделить особенности восприятия визуальной информации.
Человек воспринимает информацию через пять основных каналов: зрительный, слуховой, тактильный, вкусовой и обонятельный. Психологи выделяют такой термин как «репрезентативная система», который обозначает преимущественный способ получения информации. Тип репрезентативной системы человека определяется на основании того, какие органы чувств он использует для восприятия информации [2]. Выделяют несколько типов людей в зависимости от того, какая система является наиболее значимой:
- визуалы – зрительная система обработки информации является доминирующей, в связи с чем, они обращают внимание на цвета, формы, изображения и т.д. Запоминание информации идет быстрее и качественнее в том случае, если она проиллюстрирована и подана наглядно;
- аудиалы – для них, соответственно, слуховая система является наиболее значимой, обращают внимание на громкость звуков, тембр, тон и др. У таких людей отмечается высокая способность к запоминанию информации через прослушивание;