ВКР|Информатика

Современные методы визуализации многомерных данных с использованием языка R

По всем вопросам пишите нам на topwork2424@gmail.com или в Телеграм  Telegram

Авторство: antiplagiatpro

Год: 2021 | Страниц: 49

Цена: 2 290
Купить работу

Введение

1.Теоретические аспекты визуализации данных

1.1       Современные тенденции визуализации данных

1.2       Особенности восприятия визуальной информации

1.3       Анализ подходов визуализации данных в истории

2. Анализ методов визуализации многомерных данных

2.1       Методы визуализации многомерных данных

2.2       Обзор инструментов визуализации многомерных данных

3     Реализация методов визуализации многомерных данных

3.1       Описание библиотек для визуализации данных в R

3.2       Описание выбранных наборов данных

3.3       Реализация методов визуального представления многомерных данных в среде R  

Заключение

Список использованных источников

В современный период развития нельзя не отметить возрастающую важность информации для общества. Согласно исследованию, проведенному аналитической компанией IDC объем данных за 2025 год составит 163 зеттабайта (ЗБ), что в 10 раз больше общего объема данных за 2016 год [16].

Создание и аккумулирование больших объемов данных привело к проблеме их адекватного восприятия, снижению скорости их обработки, в том числе трудоемкими стали процессы выявления закономерностей и паттернов, и как следствие, это приводит к принятию неверных управленческих решений. В связи с этим, возникла потребность в понятном представлении данных, их визуализации. Различные графические формы упрощают процесс анализа и понимания полученных результатов. В настоящее время, рынок предлагает различные инструменты для визуального анализа, но существует проблема выбора верной формы представления, которая донесет необходимую информацию и не запутает зрителя.

Концептуальные основы визуализации данных и некоторые аспекты практического использования методов рассмотрены в трудах таких зарубежных авторов, как Х. Викхэм, Дж. Желязны, А. Инзельберг, Р. Леглер, Д. Роем, М. Френдли, Г. Чернов, М. Эпплер, Н. Яу.

Вопросами визуализации данных, в том числе и в среде R, занимаются разные авторы, но существует свидетельства о сложности этого процесса. Именно недостаточность изученности этого вопроса в русскоязычной литературе послужила выбором темы диссертационного исследования.

Объектом исследования настоящей работы является процесс визуализации данных.

Предмет исследования – методы визуализации многомерных данных в среде R.

Цель исследования – решение практической задачи, связанной с развитием методов визуализации данных в среде R, с учетом значимости преобразований в рамках цифровой экономики.

Для достижения цели исследования поставлены следующие задачи:

  • выделить современные тенденции в визуальной аналитике;
  • исследовать подходы к визуализации данных в историческом контексте;
  • выделить и проанализировать специфические методы визуализации многомерных данных;
  • разработать графические модели в среде R на примере открытых данных.

Теоретико-методологическую основу исследования составили основные концепции и труды отечественных и зарубежных авторов в сфере анализа и визуализации данных. Информационной базой стали общедоступные ресурсы сети Интернет.

В процессе проведения исследования применены такие методы, как:

  • наблюдение;
  • сравнение;
  • восхождение от абстрактного к конкретному;
  • формализация;
  • классификация;
  • анализ;
  • визуальное моделирование.

Помимо общенаучных методов, которые были перечислены выше, в работе применяются такие специальные методы, как:

  • метод главных компонент;
  • метод параллельных координат.

Научная новизна заключается в разработке инструментальных моделей с использованием специфических методов визуализации на примере открытых данных, а также формализации и систематизации информации в области методов визуализации данных, в частности в среде R.

Практическая значимость исследования состоит в том, что выводы и рекомендации, содержащиеся в работе, могут быть использованы для дальнейших исследований в области визуализации данных и при подготовке программ дисциплин.

В соответствии с поставленной целью и задачами состоит из введения, 3 глав, состоящих из 8 параграфов, заключения и списка использованных источников (40 наименований). В первой главе «Теоретические аспекты визуализации данных» представлены современные тренды в визуальной аналитике, особенности восприятия визуальной информации человеком, также проведен анализ подходов представления данных в истории. Во второй главе «Анализ методов визуализации многомерных данных» описаны специфические методы визуализации многомерных данных и представлен обзор современных инструментов, используемых в визуальной аналитике. В третьей главе «Реализация методов визуализации многомерных данных» рассматриваются библиотеки, использующиеся для визуализации данных в среде R, приводится описание и структура выбранных наборов данных и примеры реализации методов, описанных во второй главе исследования. Работа представлена на 50 страницах, содержит 28 рисунков.

 

1. ТЕОРЕТИЧЕСКие аспекты визуализации данных

1.1 Современные тенденции визуализации данных

В настоящее время визуализация данных – это глобальный тренд. Опрос компании BARC, опубликованный в 2017 г. показал, что функция визуализации данных является одной из самых приоритетных в аналитических системах. Инструменты визуализации данных позволяют компаниям получить конкурентное преимущество на рынке, т.к. визуальные формы упрощают и ускоряют процесс восприятия информации, выявление новых фактов, скрытых в больших массивах данных, это дает руководству возможность оперативно принимать решения и ориентироваться в текущей ситуации.

За последнее десятилетие внимание к визуализации данных растет со стороны специалистов из различных сфер деятельности, технологии в этой области постоянно улучшаются и развиваются. В связи с чем можно выделить некоторые значительные тенденции, которые появились в визуальной аналитике за последнее время.

Компания IBM прогнозирует увеличение спроса на специалистов в области анализа данных к 2020 г. на 39% [30]. В связи с ростом потребности в подобных специалистах инструменты визуальной аналитики постоянно развивают, и постепенно становятся доступны широкой аудитории, т.е. позволяют без специфических знаний и навыков, например, языков программирования, создавать графические формы: графики, диаграммы, карты и т.д. Важно отметить, что эта тенденция привела к появлению различных ресурсов, например, DataVizProject.com [28]. Этот сайт объединяет более 100 видов визуализации данных, с описанием целей использования и яркими примерами.

Еще одна тенденция, о которой говорят эксперты – это рост источников и ресурсов открытых данных. Можно выделить некоторые из них.

Во-первых, открытые государственные данные. Многие страны мира поддержали международный проект Открытое правительство, цель которого обеспечить максимальную прозрачность работы органов государственной власти для расширения возможностей граждан по борьбе с коррупцией и использования новых технологий для укрепления управления [34]. Порталы открытых данных государств содержат данные из различных сфер деятельности – от сельского хозяйства и промышленности, до климата и образования. В 2016 году журнал Forbes опубликовал список лучших ресурсов с открытыми данными [24], в нем присутствовали также и государственные порталы:

  • https://www.data.gov/ – Открытые данные Соединенных Штатов Америки;
  • http://open-data.europa.eu/en/data/ – Портал открытых данных Европейского союза;
  • https://data.gov.uk/ – данные правительства Великобритании, которые также включают информацию о всех британских книгах и публикациях с 1950 г.
  • http://open.canada.ca/en – открытые данные Канады.

Из российских ресурсов можно выделить:

  • http://open.gov.ru – открытое правительство Российской Федерации;
  • http://data.gov.ru – портал открытых данных Российской Федерации.

Важным источником данных являются в том числе и интернет - порталы глобальных организаций (Global organizations):

  • https://www.unicef.org/reports – международная организация ЮНИСЕФ показывает данные о положении детей и женщин во всем мире;
  • http://www.who.int/gho/en/ – Всемирная организация здравоохранения предлагает данные о болезнях, голоде, потреблении табака, алкоголя и т.д.;
  • http://data.uis.unesco.org/ – ЮНЕСКО предлагает познакомиться с информацией об уровне образования, количеством фильмов, снятых в той или стране и т.д.

Источником открытых данных также являются частные компании и организации. Они делятся информацией неохотно, помимо официальных заявлений и новостей. Однако существуют порталы, которые аккумулируют информацию о компаниях из национальных общедоступных источников и различных реестров. Примером такого ресурса служит сайт  https://opencorporates.com, который был разработан на базе Института Открытых Данных (Open Data University) [34] и содержит информацию о более чем 100 миллионах компаний.

Сервисы поисковой системы Google – Public Data и Google Trends также работают с открытыми данными. Они объединяют информацию с популярных официальных ресурсов и предлагают ее в визуальной форме.

Научное сообщество также занимается продвижением концепции открытых данных. Сегодня существует множество порталов, которые аккумулируют данные из разных областей науки. Яркий пример, сайт Национального центра экологической информации (National center of environmental information). Коллекция центра содержит метеорологические, климатические, экологические данные из Национального центра климатических данных США и является одним из самых крупных архивов данных о погоде [33].

На сегодняшний день, открытые данные стали фундаментом для многих проектов и исследований, так, например, появились различные социально-значимые веб-сервисы и приложения.

Активное использование интерактивных средств визуализации, в частности интерактивных карт, также является трендом в визуализации данных. Портал Carto сделал подборку 80 примеров подобных карт, которые показывают информацию из абсолютно разных областей [20]. Активно используют карты и некоторые другие методы визуализации крупные новостные издания, такие как The Guardian, The New York Times, The Washington Post и многие другие.

Использование технологий виртуальной реальности для визуализации данных – еще один тренд. По данных исследования, проведенного аналитической компании IDC, затраты на развитие технологий виртуальной реальности вырастут с 5,2 млрд долларов США в 2016 г. до 162 млрд долларов США к 2020 г. [29] Виртуальная реальность обеспечивает легкое восприятие больших наборов данных, т.к. у человека появляется возможность рассмотреть данные в нескольких плоскостях.

Еще одно важное направление в визуализации данных – это развитие систем мобильной аналитики [18]. В связи с увеличением мобильного трафика, важной становится визуализация данных, полученных с мобильных устройств. Крупные компании начинают запускать для этого сервисы, например, Firebase Analytics от Google, AppMetrica от Яндекс и многие другие.

Организации по всему миру стремятся получить максимально полную информацию о своей деятельности и на основании нее принять быстрые и эффективные решения. Современные технологии визуализации упрощают этот процесс, в связи с чем интерес к ним в ближайшем будущем будет расти.

  • Особенности восприятия визуальной информации

Прежде чем рассматривать различные методы представления данных, необходимо учесть назначение визуализации, как метода познания для человека и выделить особенности восприятия визуальной информации.

Человек воспринимает информацию через пять основных каналов: зрительный, слуховой, тактильный, вкусовой и обонятельный. Психологи выделяют такой термин как «репрезентативная система», который обозначает преимущественный способ получения информации. Тип репрезентативной системы человека определяется на основании того, какие органы чувств он использует для восприятия информации [2]. Выделяют несколько типов людей в зависимости от того, какая система является наиболее значимой:

  • визуалы – зрительная система обработки информации является доминирующей, в связи с чем, они обращают внимание на цвета, формы, изображения и т.д. Запоминание информации идет быстрее и качественнее в том случае, если она проиллюстрирована и подана наглядно;
  • аудиалы – для них, соответственно, слуховая система является наиболее значимой, обращают внимание на громкость звуков, тембр, тон и др. У таких людей отмечается высокая способность к запоминанию информации через прослушивание;
  1. Барсегян А. Анализ данных и процессов. 3 изд. [Текст] / А. Берсегян. – БХВ-Петербург, 2009 – 512 с.
  2. Дергунов Т. Формула менеджмента. Практическое пособие начинающего руководителя [Текст] / Т. Дергунов. – М.: Манн, Иванов и Фербер, 2015. – 224 с.
  3. Желязны Д. Говори на языке диаграмм: Пособие по визуальным коммуникациям для руководителей [Текст] / Д. Желязны. – М.: Институт комплексных стратегических исследований, 2004. – 220 с.
  4. Калугина М.И., Бегичева С.В. Современные возможности визуализации результатов исследований в среде R [Текст] // BI-технологии и корпоративные информационные системы в оптимизации бизнес-процессов: материалы IV Междунар. науч.-практ. очно-заоч. конф. (Екатеринбург, 1 декабря 2016) / [отв. за вып. : Д.М. Назаров, С.В. Бегичева, Е.В. Зубкова]; М-во образования и науки Рос. Федерации, Урал. гос. экон. ун-т. – Екатеринбург : Изд-во Урал. гос. экон. ун-та, 2016. – С. 51-55.
  5. Мастицкий С.Э., Шитиков, В.К. Статистический анализ и визуализация данных с помощью R [Электронный ресурс] / С.Э. Мастицкий, В.К. Шитиков. – Режим доступа: http://r-analytics.blogspot.ru/, свободный.
  6. Нейтан Яу. Искусство визуализации в бизнесе [Текст] / Яу. Нейтан. – М. : Манн, Иванов и Фербер, 2013. – 338 c.
  7. Паклин Н.Б., Орешков В.И. Бизнес-аналитика от данных к знаниям (+CD) [Текст]: учеб. / Н.Б. Паклин, В.И. Орешков. – 2-е изд., испр. – СПб: Питер, 2013. – 704 с.
  8. Смикиклас М. Инфографика. Коммуникация и влияние при помощи изображений [Текст] / Смикиклас Марк – Питер, 2013 г. – 152 с.
  9. Шипунов А. Наглядная статистика. Используем R! [Текст] / А. Шипунов – М.: ДМК Пресс, 2014. – 298 с.
  10. Dzemyda G.. Multidimensional data visualization [Текст] / G. Dzemyda, O. Kurasova, J. Zilinkas. – Springer Science & Business Media, 2012. – P. 252.
  11. Inselberg A. Parallel Coordinates: Visual Multidimensional Geometry and Its Applications / A. Inselberg. – Springer Science & Business Media, 2009. – 554 c.
  12. Winn W.D. Recall of the pattern, sequence and names of concepts presented in instructional diagrams // J. of Research in Science Teaching, 1988. – 25. – P.375 – 386.
  13. Герасимова И. С. Зарубежный опыт визуализации научной информации в массмедиа [Электронный ресурс] / И.С. Герасимова // Медиаскоп. – 2016. – № 4. – Режим доступа: http://www.mediascope.ru/node/2185 (Дата обращения: 28.09.2017)
  14. Визуализация данных 100 лет назад и сейчас, 9 примеров, как это было и как стало [Электронный ресурс] // Теплица социальных технологий – Режим доступа: https://te-st.ru/2014/06/18/how-weve-been-visualising-big-data-over-the-centuries/ (дата обращения 30.04.2017).
  15. Мейтина Э. Б. Особенности восприятия визуальной информации в опосредованной компьютером коммуникации [Электронный ресурс] / Э.Б. Мейтина // Вестник СПбГУ. – 2006. – №2. – Режим доступа: http://cyberleninka.ru/article/n/osobennosti-vospriyatiya-vizualnoy-informatsii-v-oposredovannoy-kompyuterom-kommunikatsii-1 (дата обращения: 28.10.2017).
  16. Новые подходы для эры новых данных [Электронный ресурс]. – Режим доступа: https://www.seagate.com/ru/ru/our-story/data-age-2025/ (Дата обращения: 02.10.2017).
  17. Ресурс для визуализации данных [Электронный ресурс]. – Режим доступа: https://plot.ly/ (дата обращения 01.05.2017).
  18. Способы визуального представления данных. Методы визуализации [Электронный ресурс] // Интуит. Национальный открытый институт. – Режим доступа: http://www.intuit.ru/studies/courses/6/6/lecture/188?page=2 (дата обращения 05.05.2017).
  19. Тренды 2017 в digital-аналитике: мнения экспертов [Электронный ресурс] // Tceh. – 2017. – Режим доступа: http://tceh.com/post/2017-digital-analytics-trends/ (дата обращения 05.10.2017).
  20. 2016 Data Science Salary Survey [Электронный ресурс] // O`Reilly – 2016. – Режим доступа: https://www.oreilly.com/ideas/2016-data-science-salary-survey-results (дата обращения 11.05.2017).
  21. 80 Data Visualization Examples Using Location Data and Maps [Электронный ресурс] // Carto. – 2017. https://carto.com/blog/eighty-data-visualizations-examples-using-location-data-maps/ (дата обращения 02.11.2017).
  22. A Quick Illustrated History of Visualisation [Электронный ресурс] // DataArt with BBC Backstage. – Режим доступа: http://data-art.net/resources/history_of_vis.php (дата обращения04.2017).
  23. Best Data Visualization Projects of 2016 [Электронный ресурс]. – Режим доступа: https://flowingdata.com/2016/12/29/best-data-visualization-projects-of-2016/ (дата обращения 30.09.2017).
  24. Big Data: 33 Brilliant And Free Data Sources For 2016 [Электронный ресурс] // Forbes – 2016.. – Режим доступа: https://www.forbes.com/sites/bernardmarr/2016/02/12/big-data-35-brilliant-and-free-data-sources-for-2016/#2079da38b54d (дата обращения10.2017).
  25. Bloomberg Graphics [Электронный ресурс]. – Режим доступа: https://www.bloomberg.com/graphics/infographics/ (дата обращения 30.09.2017).
  26. Data Science for All: It's a Whole New Game [Электронный ресурс] // IBM Analytics – Режим доступа: https://www.ibm.com/analytics/us/en/technology/data-science/quant-crunch.html (дата обращения: 20.10.2017).
  27. Data visualizations [Электронный ресурс]. – Режим доступа: https://www.theguardian.com/technology/data-visualisation (дата обращения 30.09.2017).
  28. Data Viz Project [Электронный ресурс]. – Режим доступа: http://datavizproject.com/ (дата обращения 01.11.2017).
  29. Data Visualization Top Trends For 2017 [Электронный ресурс] // .The innovation enterprise. – 2017. – https://channels.theinnovationenterprise.com/articles/data-visualization-top-trends-for-2017 (дата обращения10.2017).
  30. Friendly M. A Brief History of Data Visualization [Электронный ресурс] // by M. Friendly. – 2006. – Режим доступа: http://www.datavis.ca/papers/hbook.pdf (дата обращения: 10.09.2017).
  31. John Snow's data journalism: the cholera map that changed the world [Электронный ресурс] // The Guardian. – 2013. – Режим доступа: https://www.theguardian.com/news/datablog/2013/mar/15/john-snow-cholera-map (дата обращения04.2017).
  32. Lengler R., Eppler M. Towards A Periodic Table of Visualization Methods for Management [Электронный ресурс] / by R. Lengler, M. J. Eppler. – 2007. – Режим доступа: http://www.visual-literacy.org/periodic_table/periodic_table.pdf (Дата обращения: 06.09.2017).
  33. National Centers for Environmental information [Электронный ресурс]. – Режим доступа: https://www.ncdc.noaa.gov/data-access (дата обращения 02.10.2017).
  34. Open Data Institute [Электронный ресурс]. – Режим доступа: https://theodi.org/ (дата обращения 02.10.2017).
  35. Open Government Partnershiphttps [Электронный ресурс]. – Режим доступа: www.opengovpartnership.org (дата обращения 02.10.2017).
  36. RStudio официальный сайт [Электронный ресурс]. – Режим доступа: https://www.rstudio.com/ (дата обращения 05.05.2017).
  37. Swedish Crime Rate [Электронный ресурс] / Kaggle. – Режим доступа: https://www.kaggle.com/mguzmann/swedishcrime (дата обращения 30.10.2017).
  38. TIOBE index for R [Электронный ресурс]. – Режим доступа: https://www.tiobe.com/tiobe-index/r/ (дата обращения 08.05.2017).
  39. The 2016 Top Programming Languages. // IEEE Spectrum – 2016 [Электронный ресурс]. – Режим доступа: http://spectrum.ieee.org/computing/software/the-2016-top-programming-languages (дата обращения 09.05.2017).
  40. Why R is the best data science language to learn today. // R-bloggers – 2017. [Электронный ресурс]. – Режим доступа: https://www.r-bloggers.com/why-r-is-the-best-data-science-language-to-learn-today/ (дата обращения 10.05.2017).

Эта работа не подходит?

Если данная работа вам не подошла, вы можете заказать помощь у наших экспертов.
Оформите заказ и узнайте стоимость помощи по вашей работе в ближайшее время! Это бесплатно!


Заказать помощь

Похожие работы

ВКР Информатика
2020 год 51 стр.
Глобальные компьютерные сети в системе НПО
antiplagiatpro
ВКР Информатика
2020 год 73 стр.
ВКР Создание сайта для салона красоты
antiplagiatpro

Дипломная работа

от 2900 руб. / от 3 дней

Курсовая работа

от 690 руб. / от 2 дней

Контрольная работа

от 200 руб. / от 3 часов

Оформите заказ, и эксперты начнут откликаться уже через 10 минут!

Узнай стоимость помощи по твоей работе! Бесплатно!

Укажите дату, когда нужно получить выполненный заказ, время московское