Дипломная работа|Программирование

Разработка web-портала (парсингового сайта) по сбору и обработке данных игровой статистики спортивных команд и вывод их в табличном виде при помощи SQL

Уточняйте оригинальность работы ДО покупки, пишите нам на topwork2424@gmail.com

Авторство: gotovoe

Год: 2021 | Страниц: 73

Цена: 2 700
Купить работу

ВВЕДЕНИЕ. 

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ WEB-ПОРТАЛА (ПАРСИНГА) 

1.1 Основные сферы применения парсера. 

1.2 Синтаксический анализ (парсинг) и использование семантических сетей в парсинге  

1.3 Регулярные выражения. 

1.4 Синтаксис регулярных выражений. 

1.5 Инструмент анализа Html-страниц HtmlAgilityPack. 

ГЛАВА 2. ОБЗОР ПРОГРАММНЫХ СРЕДСТВ РЕАЛИЗАЦИИ ПАРСЕРА.

2.1 Среда разработки Visual Studio .NET. 

2.2 Язык программирования JavaScript 

2.3 Средства ввода-вывода и пространство имен System.IO.

2.4 Сетевые возможности и использование Internet 

2.5 Использование регулярных выражений в .NET. 

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ТЕМАТИЧЕСКОГО WEB-ПОРТАЛА (ПАРСИНГА) 

3.1 Постановка задачи на проектирование. 

3.2 Алгоритмы работы программы. 

3.3 Обработка исключений в JS. 

3.4 Тестирование и результаты работы программы

ЗАКЛЮЧЕНИЕ. 

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ.

ПРИЛОЖЕНИЕ А: ЛИСТИНГ ПРОГРАММНОГО КОДА.

Актуальность работы. Постоянный рост Интернета, увеличение ресурсов и накопление информации требуют постоянных средств автоматизации ее обработки и приема. В настоящее время существование полноценной информационной системы невозможно без Интернета, поскольку он прочно вторгся в жизнь домашних и деловых пользователей. Размер сети увеличивается на 7-10% каждый месяц. Поэтому задача автоматического сбора информации из определенных источников актуальна как никогда.

Автоматический сбор, анализ и сбор информации используется в следующих областях:

  • практически на каждом сайте при проверке входных данных: электронная почта, номер телефона, номер кредитной карты;
  • в SEO (реклама ресурса) для получения статистики поискового запроса;
  • в SMO (Social Media Promotion) для сбора информации о пользователях;
  • в веб-разработке для автоматического заполнения контента;
  • для контроля и мониторинга работы удаленных устройств - запросы к удаленным ресурсам.

Парсинг контента очень популярен и используется небольшими и развивающимися владельцами веб-сайтов, а также крупными предприятиями для сбора контента, отслеживания тематических статей и создания основы для переписывания. Даже такие крупные компании, как Google, в основном используют для новостей информацию со специализированных порталов информационных агентств - Lenta.ru, РИА Новости, РБК, Утро.ру и др.

Хотя некоторые веб-сайты могут иногда закрывать свое содержимое, статья 1259 посвящена синтаксическому анализу сообщений. «Объекты авторского права» Гражданского кодекса Российской Федерации являются законными. Согласно Гражданскому кодексу Российской Федерации, новости о событиях и фактах, носящие чисто информативный характер (новости дня, телепрограммы, расписания транспортных средств и т. Д.), Не подлежат авторскому праву. Однако правильнее ссылаться на источник информации. Кроме того, многие новостные сайты публикуют только анонсы основных новостей, поэтому ссылки на подробную информацию остаются в источнике.

Что касается синтаксического анализа контента в целом, законность зависит от позиции правообладателя, выраженной в виде условий на исходной странице. Некоторые веб-сайты могут быть скопированы, другие - без письменного разрешения, многие веб-сайты - без разрешения, но со ссылкой. В целом, однако, за исключением этого примера, авторское право в этой области часто бывает трудно определить и вызывает споры.

Цель работы заключается в разработке web-портала (парсингового сайта) по сбору и обработке данных игровой статистики спортивных команд и вывод их в табличном виде при помощи SQL. Для достижения поставленной цели перед работой, необходимо решить следующие задачи:

  • Сделать теоретический анализ понятия и выявление основных задач парсинга;
  • Провести обзор программных средств для реализации проекта и описание выбранных языков программирования;
  • Сделать непосредственно программную реализацию, выявить все недочеты и провести тестирование;

 

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ WEB-ПОРТАЛА (ПАРСИНГА)

1.1 Основные сферы применения парсера

Парсер — это программа, служба или сценарий, который собирает данные с определенных веб-ресурсов, анализирует их и выводит в требуемом формате.

С парсерами можно выполнять множество полезных задач:

  • Цены. Актуальная задача для интернет-магазинов. Например, вы можете использовать парсинг, чтобы регулярно отслеживать цены конкурентов на продаваемые вам товары. Или обновите цены на своем веб-сайте, чтобы они соответствовали ценам поставщиков (если у них есть собственный веб-сайт).
  • Товарные позиции: названия, артикулы, описания, характеристики и фотографии. Например, если у вашего поставщика есть веб-сайт с каталогом, но ваш магазин не выгружается, вы можете проанализировать все нужные вам товары вместо того, чтобы добавлять их вручную. Это экономит время.
  • Метаданные: специалисты по SEO могут анализировать содержание тегов заголовка, описания и других метаданных.
  • Анализ страницы. Это быстрый способ найти страницы с ошибками 404, перенаправления, неработающие ссылки и многое другое.
  • Серый анализ. Это включает загрузку контента с конкурентов или целых веб-сайтов. Или собрать контактную информацию от агрегаторов и сервисов, таких как Яндекс.Карты или 2Гис (для спам-рассылок и звонков). Мы будем говорить только о синтаксическом анализе, так что у вас не будет никаких проблем.

1.2 Синтаксический анализ (парсинг) и использование семантических сетей в парсинге

Синтаксический анализ (парсинг) — преобразование последовательности символов на естественном или искусственном языке в соответствии с формальной грамматикой. Англоязычный термин parsing образован от латинского pars ōrātiōnis, означающего «часть речи».

Семантические сети могут помочь синтаксическому анализатору разрешить семантическую неоднозначность. Без этого типа представления все бремя языкового анализа возлагается на синтаксические правила и семантические тесты. Структура семантической сети наглядно показывает, как взаимосвязаны отдельные понятия. Если синтаксический анализатор обнаруживает двусмысленность, он может выбрать тот или иной вариант через семантическую сеть. При работе с семантическими сетями используются различные методы анализа. [1, стр. 128]

Разбор на основе синтаксиса. Работа парсера контролируется грамматикой непосредственных компонентов и операторов построения и тестирования структур. Пока входные данные анализируются, операторы структурирования создают семантическую сеть, а операторы тестирования проверяют ограничения для частично построенной сети. Если ограничений не обнаружено, используемое правило грамматики отклоняется, и синтаксический анализатор проверяет другой вариант. Это наиболее распространенный подход.

Парсер с семантикой. Синтаксический анализатор, использующий семантику, работает так же, как синтаксический анализатор, основанный на синтаксисе. Однако он работает не с синтаксическими категориями, такими как группа субъектов и группа предикатов, а с концепциями более высокого уровня, такими как SHIP и CARRY.

Концептуальный анализ. Семантическая сеть Web предсказывает возможные ограничения, которые могут появиться в отношениях между словами, а также слова, которые могут появиться позже в предложении. Например, глагол, который нужно дать, требует агента анимации, а также предсказывает способность получателя и объект, который должен быть дан. Шенк был одним из самых активных сторонников концептуального анализа.

Анализ на основе анализа слов. Из-за существования большого количества неправильных образований в естественном языке многие люди вместо того, чтобы прибегать к универсальным обобщениям, используют специальные словари, которые представляют собой собрание некоторых независимых практик, называемых экспертами по словам. Анализ предложений рассматривается как процесс, выполняемый совместно разными экспертами по лексике. Кляйн был главным сторонником этого подхода.

Аргументы за и против различных методов синтаксического анализа часто основывались не на конкретных данных, а, скорее, на уже сложившемся мнении. И только один проект на практике сравнивал разные виды анализа - это язык семантических представлений, проект, который был разработан в Берлинском университете. В течение нескольких лет они создали четыре различных типа парсеров для анализа немецкого языка и записи на языке семантических представлений, которым является сеть.

Первым парсером был парсер, основанный на концептуальном парсере Шенка. Было обнаружено, что, хотя добавлять новые слова в его лексикон было довольно легко, анализ можно было провести только с использованием простых предложений и только относительных предложений. Оказалось, что сложно расширить область анализа этого парсера. [1, стр. 167]

Второй синтаксический анализатор был семантически ориентированными расширенными переходными сетями. Синтаксис было проще обобщить, но механизм синтаксиса был медленнее, чем первый анализатор, который мы рассмотрели.

Затем работу с парсером проводили знатоки словарей. Здесь было легко обрабатывать особые случаи, но разбросанная грамматика между каждым компонентом делала это практически невозможным для общего понимания, поддержки и модификации.

Относительно молодой синтаксический анализатор — это синтаксически ориентированный синтаксический анализатор, основанный на общей грамматике структуры фразы. Это самый систематический, общий и относительно быстрый.

Эти результаты в принципе согласуются с мнением других лингвистов: синтаксически ориентированные синтаксические анализаторы являются наиболее полными, но требуют определенной группы сетевых операторов для плавного взаимодействия между грамматикой и семантическими сетями.

Создание языка в Семантической паутине — это обратный синтаксический анализ. Вместо того, чтобы анализировать определенную строку символов для создания сети, синтезатор речи анализирует сеть, чтобы получить конкретную цепочку. Есть два способа создания языка из семантической сети.

  1. Генератор речи просто следует по сети и преобразует концепции в слова, а отношения, указанные рядом с дугами, в отношения естественного языка. Этот метод имеет множество ограничений.
  2. Подходы, ориентированные на синтаксис, управляют созданием языка с помощью грамматических правил, которые сеть использует, чтобы определить, какое следующее правило применить. На практике, однако, оба метода имеют много общего: например, первый метод представляет собой последовательность узлов, которые обрабатываются синтаксически-ориентированным генератором речи.
  1. Ben, Henick HTML & CSS – The Good Parts / Ben Henick. - Москва: РГГУ, 2010. - 350 c.
  2. Mario, Andres Pagella Making Isometric Social Real–Time Games: With HTML5, CSS3 and JavaScript / Mario Andres Pagella. - М.: O'Reilly, 2011. - 156 c.
  3. Альфред, В. Ахо Компиляторы. Принципы, технологии и инструментарий / Альфред В. Ахо и др. - М.: Вильямс, 2015. - 689 c.
  4. Берд, Барри Java для чайников / Барри Берд. - М.: Диалектика / Вильямс, 2013. - 521 c.
  5. Вейл, Эстель HTML Разработка приложений для мобильных устройств / Эстель Вейл. - М.: "Издательство "Питер", 2015. - 480 c.
  6. Гарнаев, Андрей WEB-программирование на Java и JavaScript / Андрей Гарнаев , Сергей Гарнаев. - Москва: СПб. [и др.] : Питер, 2017. - 718 c.
  7. Голдстайн, Алексис HTML5 и CSS3 для всех / Алексис Голдстайн , Луис Лазарис , Эстель Уэйл. - М.: Питер, 2012. - 368 c.
  8. Гонсалвес, Энтони Изучаем Java EE 7 / Энтони Гонсалвес. - М.: Питер, 2016. - 640 c.
  9. Гончаров, Алексей Самоучитель HTML / Алексей Гончаров. - М.: Питер, 2000. - 240 c.
  10. Гоше, Х. Д. HTML Для профессионалов / Х.Д. Гоше. - М.: Питер, 2014. - 560 c.
  11. Гупта, Арун Java EE Основы / Арун Гупта. - М.: Вильямс, 2014. - 336 c.
  12. Дакетт, Джон Основы веб-программирования с использованием HTML, XHTML и CSS / Джон Дакетт. - М.: Эксмо, 2010. - 768 c.
  13. Джереми, Кит HTML5 для веб-дизайнеров / Кит Джереми. - М.: Манн, Иванов и Фербер, 2012. - 305 c.
  14. Дронов, Владимир HTML 5, CSS 3 и Web0. Разработка современных Web-сайтов / Владимир Дронов. - М.: БХВ-Петербург, 2011. - 416 c.
  15. Дунаев, В.В. (Х)HTML, скрипты и стили. Самое необходимое / В.В. Дунаев. - М.: Книга по Требованию, 2009. - 488 c.
  16. Дунаев, Вадим HTML, скрипты и стили / Вадим Дунаев. - М.: Книга по Требованию, 2008. - 329 c.
  17. Квинт, Игорь Создаем сайты с помощью HTML, XHTML и CSS на 100% / Игорь Квинт. - М.: Питер, 2012. - 448 c.
  18. Клименко, Роман Веб-мастеринг на 100% / Роман Клименко. - М.: "Издательство "Питер", 2015. - 560 c.
  19. Комолова, Н. HTML. Самоучитель / Н. Комолова, Е. Яковлева. - М.: Книга по Требованию, 2011. - 288 c.
  20. Лоусон, Б. Изучаем HTML Библиотека специалиста / Б. Лоусон, Р. Шарп. - М.: Питер, 2012. - 304 c.
  21. Мак-Дональд, Мэтью HTML Недостающее руководство / Мэтью Мак-Дональд. - М.: БХВ-Петербург, 2012. - 480 c.
  22. Мак-Дональд, Мэтью Создание Web-сайта. Недостающее руководство / Мэтью Мак-Дональд. - М.: БХВ-Петербург, 2013. - 624 c.
  23. Монахов, В. Язык программирования Java и среда NetBeans (+ CD-ROM) / В. Монахов. - М.: БХВ-Петербург, 2012. - 720 c.
  24. Мэтью, Дэвид HTML Разработка веб-приложений / Дэвид Мэтью. - М.: Рид Групп, 2012. - 320 c.
  25. Основы разработки электронных учебных изданий / Г.В. Алексеев и др. - М.: Проспект Науки, 2010. - 144 c.
  26. Петцольд, Чарльз Эспозито Д. Программирование для Microsoft Windows Разработка приложений для Windows 8 на HTML5 и JavaScript (комплект из 2 книг) / Петцольд Чарльз , Эспозито Д., Ф. Эспозито. - М.: Питер, 2014. - 492 c.
  27. Петюшкин, А. HTML в Web-дизайне / А. Петюшкин. - М.: Книга по Требованию, 2004. - 400 c.
  28. Петюшкин, Алексей HTML в Web-дизайне / Алексей Петюшкин. - М.: БХВ-Петербург, 2005. - 400 c.
  29. Прохоренок, Николай HTML, JavaScript, PHP и MySQL. Джентльменский набор Web-мастера (+ CD-ROM) / Николай Прохоренок. - М.: БХВ-Петербург, 2010. - 912 c.
  30. Пьюривал, Сэмми Основы разработки веб-приложений / Сэмми Пьюривал. - М.: Питер, 2015. - 272 c.
  31. Роббинс, Дженнифер HTML Карманный справочник / Дженнифер Роббинс. - М.: Вильямс, 2015. - 192 c.
  32. Савитч, Уолтер Язык Java. Курс программирования / Уолтер Савитч. - М.: Вильямс, 2015. - 928 c.
  33. Седерхольм, Дэн Пуленепробиваемый веб-дизайн. Библиотека специалиста / Дэн Седерхольм. - М.: Питер, 2012. - 304 c.
  34. Ташков, Петр Веб-мастеринг HTML, CSS, JavaScript, PHP, CMS, AJAX, раскрутка / Петр Ташков. - М.: Книга по Требованию, 2010. - 512 c.
  35. уванов, А. А. Web-конструирование. DHTML / А.А. Дуванов. - М.: БХВ-Петербург, 2003. - 504 c.
  36. Хабибуллин, Ильдар Самоучитель Java / Ильдар Хабибуллин. - М.: БХВ-Петербург, 2014. - 768 c.
  37. Шапошников, И. Интернет-программирование / И. Шапошников. - М.: БХВ-Петербург, 2000. - 368 c.
  38. Шилдт, Герберт Java Руководство для начинающих / Герберт Шилдт. - М.: Вильямс, 2015. - 720 c.
  39. Шмитт, Кристофер HTML Рецепты программирования / Кристофер Шмитт , Кайл Симпсон. - М.: Питер, 2012. - 288 c.
  40. Эккель, Брюс Философия Java / Брюс Эккель. - М.: Питер, 2016. - 809 c.

Эта работа не подходит?

Если данная работа вам не подошла, вы можете заказать помощь у наших экспертов.
Оформите заказ и узнайте стоимость помощи по вашей работе в ближайшее время! Это бесплатно!


Заказать помощь

Похожие работы

Дипломная работа Программирование
2012 год 67 стр.
Дипломная Автоматизация документооборота компьютерного магазина
antiplagiatpro
Дипломная работа Программирование
2016 год 59 стр.
Дипломная Разработка сайта транспортной компании
antiplagiatpro
Дипломная работа Программирование
2020 год 56 стр.
Разработка автоматизированной информационной системы «Документооборот»
antiplagiatpro
Дипломная работа Программирование
2019 год 48 стр.
Разработка чат-бота системы для привлечение клиентов
antiplagiatpro
Дипломная работа Программирование
2015 год 64 стр.
Разработка программного обеспечения интернет-магазина
gotovoe

Дипломная работа

от 2900 руб. / от 3 дней

Курсовая работа

от 690 руб. / от 2 дней

Контрольная работа

от 200 руб. / от 3 часов

Оформите заказ, и эксперты начнут откликаться уже через 10 минут!

Узнай стоимость помощи по твоей работе! Бесплатно!

Укажите дату, когда нужно получить выполненный заказ, время московское