ВВЕДЕНИЕ.
ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ WEB-ПОРТАЛА (ПАРСИНГА)
1.1 Основные сферы применения парсера.
1.2 Синтаксический анализ (парсинг) и использование семантических сетей в парсинге
1.3 Регулярные выражения.
1.4 Синтаксис регулярных выражений.
1.5 Инструмент анализа Html-страниц HtmlAgilityPack.
ГЛАВА 2. ОБЗОР ПРОГРАММНЫХ СРЕДСТВ РЕАЛИЗАЦИИ ПАРСЕРА.
2.1 Среда разработки Visual Studio .NET.
2.2 Язык программирования JavaScript
2.3 Средства ввода-вывода и пространство имен System.IO.
2.4 Сетевые возможности и использование Internet
2.5 Использование регулярных выражений в .NET.
ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ТЕМАТИЧЕСКОГО WEB-ПОРТАЛА (ПАРСИНГА)
3.1 Постановка задачи на проектирование.
3.2 Алгоритмы работы программы.
3.3 Обработка исключений в JS.
3.4 Тестирование и результаты работы программы
ЗАКЛЮЧЕНИЕ.
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ.
ПРИЛОЖЕНИЕ А: ЛИСТИНГ ПРОГРАММНОГО КОДА.
Актуальность работы. Постоянный рост Интернета, увеличение ресурсов и накопление информации требуют постоянных средств автоматизации ее обработки и приема. В настоящее время существование полноценной информационной системы невозможно без Интернета, поскольку он прочно вторгся в жизнь домашних и деловых пользователей. Размер сети увеличивается на 7-10% каждый месяц. Поэтому задача автоматического сбора информации из определенных источников актуальна как никогда.
Автоматический сбор, анализ и сбор информации используется в следующих областях:
- практически на каждом сайте при проверке входных данных: электронная почта, номер телефона, номер кредитной карты;
- в SEO (реклама ресурса) для получения статистики поискового запроса;
- в SMO (Social Media Promotion) для сбора информации о пользователях;
- в веб-разработке для автоматического заполнения контента;
- для контроля и мониторинга работы удаленных устройств - запросы к удаленным ресурсам.
Парсинг контента очень популярен и используется небольшими и развивающимися владельцами веб-сайтов, а также крупными предприятиями для сбора контента, отслеживания тематических статей и создания основы для переписывания. Даже такие крупные компании, как Google, в основном используют для новостей информацию со специализированных порталов информационных агентств - Lenta.ru, РИА Новости, РБК, Утро.ру и др.
Хотя некоторые веб-сайты могут иногда закрывать свое содержимое, статья 1259 посвящена синтаксическому анализу сообщений. «Объекты авторского права» Гражданского кодекса Российской Федерации являются законными. Согласно Гражданскому кодексу Российской Федерации, новости о событиях и фактах, носящие чисто информативный характер (новости дня, телепрограммы, расписания транспортных средств и т. Д.), Не подлежат авторскому праву. Однако правильнее ссылаться на источник информации. Кроме того, многие новостные сайты публикуют только анонсы основных новостей, поэтому ссылки на подробную информацию остаются в источнике.
Что касается синтаксического анализа контента в целом, законность зависит от позиции правообладателя, выраженной в виде условий на исходной странице. Некоторые веб-сайты могут быть скопированы, другие - без письменного разрешения, многие веб-сайты - без разрешения, но со ссылкой. В целом, однако, за исключением этого примера, авторское право в этой области часто бывает трудно определить и вызывает споры.
Цель работы заключается в разработке web-портала (парсингового сайта) по сбору и обработке данных игровой статистики спортивных команд и вывод их в табличном виде при помощи SQL. Для достижения поставленной цели перед работой, необходимо решить следующие задачи:
- Сделать теоретический анализ понятия и выявление основных задач парсинга;
- Провести обзор программных средств для реализации проекта и описание выбранных языков программирования;
- Сделать непосредственно программную реализацию, выявить все недочеты и провести тестирование;
ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ WEB-ПОРТАЛА (ПАРСИНГА)
1.1 Основные сферы применения парсера
Парсер — это программа, служба или сценарий, который собирает данные с определенных веб-ресурсов, анализирует их и выводит в требуемом формате.
С парсерами можно выполнять множество полезных задач:
- Цены. Актуальная задача для интернет-магазинов. Например, вы можете использовать парсинг, чтобы регулярно отслеживать цены конкурентов на продаваемые вам товары. Или обновите цены на своем веб-сайте, чтобы они соответствовали ценам поставщиков (если у них есть собственный веб-сайт).
- Товарные позиции: названия, артикулы, описания, характеристики и фотографии. Например, если у вашего поставщика есть веб-сайт с каталогом, но ваш магазин не выгружается, вы можете проанализировать все нужные вам товары вместо того, чтобы добавлять их вручную. Это экономит время.
- Метаданные: специалисты по SEO могут анализировать содержание тегов заголовка, описания и других метаданных.
- Анализ страницы. Это быстрый способ найти страницы с ошибками 404, перенаправления, неработающие ссылки и многое другое.
- Серый анализ. Это включает загрузку контента с конкурентов или целых веб-сайтов. Или собрать контактную информацию от агрегаторов и сервисов, таких как Яндекс.Карты или 2Гис (для спам-рассылок и звонков). Мы будем говорить только о синтаксическом анализе, так что у вас не будет никаких проблем.
1.2 Синтаксический анализ (парсинг) и использование семантических сетей в парсинге
Синтаксический анализ (парсинг) — преобразование последовательности символов на естественном или искусственном языке в соответствии с формальной грамматикой. Англоязычный термин parsing образован от латинского pars ōrātiōnis, означающего «часть речи».
Семантические сети могут помочь синтаксическому анализатору разрешить семантическую неоднозначность. Без этого типа представления все бремя языкового анализа возлагается на синтаксические правила и семантические тесты. Структура семантической сети наглядно показывает, как взаимосвязаны отдельные понятия. Если синтаксический анализатор обнаруживает двусмысленность, он может выбрать тот или иной вариант через семантическую сеть. При работе с семантическими сетями используются различные методы анализа. [1, стр. 128]
Разбор на основе синтаксиса. Работа парсера контролируется грамматикой непосредственных компонентов и операторов построения и тестирования структур. Пока входные данные анализируются, операторы структурирования создают семантическую сеть, а операторы тестирования проверяют ограничения для частично построенной сети. Если ограничений не обнаружено, используемое правило грамматики отклоняется, и синтаксический анализатор проверяет другой вариант. Это наиболее распространенный подход.
Парсер с семантикой. Синтаксический анализатор, использующий семантику, работает так же, как синтаксический анализатор, основанный на синтаксисе. Однако он работает не с синтаксическими категориями, такими как группа субъектов и группа предикатов, а с концепциями более высокого уровня, такими как SHIP и CARRY.
Концептуальный анализ. Семантическая сеть Web предсказывает возможные ограничения, которые могут появиться в отношениях между словами, а также слова, которые могут появиться позже в предложении. Например, глагол, который нужно дать, требует агента анимации, а также предсказывает способность получателя и объект, который должен быть дан. Шенк был одним из самых активных сторонников концептуального анализа.
Анализ на основе анализа слов. Из-за существования большого количества неправильных образований в естественном языке многие люди вместо того, чтобы прибегать к универсальным обобщениям, используют специальные словари, которые представляют собой собрание некоторых независимых практик, называемых экспертами по словам. Анализ предложений рассматривается как процесс, выполняемый совместно разными экспертами по лексике. Кляйн был главным сторонником этого подхода.
Аргументы за и против различных методов синтаксического анализа часто основывались не на конкретных данных, а, скорее, на уже сложившемся мнении. И только один проект на практике сравнивал разные виды анализа - это язык семантических представлений, проект, который был разработан в Берлинском университете. В течение нескольких лет они создали четыре различных типа парсеров для анализа немецкого языка и записи на языке семантических представлений, которым является сеть.
Первым парсером был парсер, основанный на концептуальном парсере Шенка. Было обнаружено, что, хотя добавлять новые слова в его лексикон было довольно легко, анализ можно было провести только с использованием простых предложений и только относительных предложений. Оказалось, что сложно расширить область анализа этого парсера. [1, стр. 167]
Второй синтаксический анализатор был семантически ориентированными расширенными переходными сетями. Синтаксис было проще обобщить, но механизм синтаксиса был медленнее, чем первый анализатор, который мы рассмотрели.
Затем работу с парсером проводили знатоки словарей. Здесь было легко обрабатывать особые случаи, но разбросанная грамматика между каждым компонентом делала это практически невозможным для общего понимания, поддержки и модификации.
Относительно молодой синтаксический анализатор — это синтаксически ориентированный синтаксический анализатор, основанный на общей грамматике структуры фразы. Это самый систематический, общий и относительно быстрый.
Эти результаты в принципе согласуются с мнением других лингвистов: синтаксически ориентированные синтаксические анализаторы являются наиболее полными, но требуют определенной группы сетевых операторов для плавного взаимодействия между грамматикой и семантическими сетями.
Создание языка в Семантической паутине — это обратный синтаксический анализ. Вместо того, чтобы анализировать определенную строку символов для создания сети, синтезатор речи анализирует сеть, чтобы получить конкретную цепочку. Есть два способа создания языка из семантической сети.
- Генератор речи просто следует по сети и преобразует концепции в слова, а отношения, указанные рядом с дугами, в отношения естественного языка. Этот метод имеет множество ограничений.
- Подходы, ориентированные на синтаксис, управляют созданием языка с помощью грамматических правил, которые сеть использует, чтобы определить, какое следующее правило применить. На практике, однако, оба метода имеют много общего: например, первый метод представляет собой последовательность узлов, которые обрабатываются синтаксически-ориентированным генератором речи.