Анализ HTML XML-веб-службами, созданными с помощью ASP.NET
Этот раздел посвящен технологии прежних версий. Веб-службы XML и клиенты веб-служб XML должны создаваться с использованием Windows Communication Foundation.
В Интернете в настоящее время предоставляется огромное количество информации. К сожалению, большинство этих данных легко интерпретируется только глазами человека при просмотре из обозревателя. Веб-службы, созданные с помощью ASP.NET, помогают улучшить интерпретацию данных, предоставляя решение по выполнению анализа HTML, позволяющее разработчикам анализировать содержимое удаленной HTML-страницы и программно представлять получаемые данные. При условии получения разрешения от издателя контента веб-сайта и предположении о неизменности структуры этого контента можно выполнить анализ HTML для представления веб-служб, которые могут использоваться клиентами. Дополнительные сведения об анализе HTML см. в разделе Как создать веб-службы, анализирующие содержимое страницы.
При создании веб-службы, анализирующей содержимое страницы, используется модель, отличная от модели, применяемой при создании обычной веб-службы. Веб-служба, анализирующая HTML-страницу, реализуется путем создания описания службы, представляющего собой документ XML, написанный на языке описания веб-служб (WSDL). В описании службы добавляются элементы XML для указания входных параметров и данных, которые требуется вернуть с анализируемой HTML-страницы.
Если анализируемая HTML-страница допускает параметры, влияющие на содержимое возвращаемой HTML-страницы, входные параметры могут быть переданы на веб-сервер.
Указание данных, возвращаемых с анализируемой HTML-страницы, составляет основную часть реализации, так как определяет инструкции для анализа содержимого HTML. Чтобы добавить элементы XML и, таким образом, создать веб-службу, анализирующую HTML-страницу, разработчик должен понимать структуру документа XML, написанного на языке WSDL. Подробные сведения о языке WSDL см. в спецификации WSDL на веб-сайте W3C (http://www.w3.org/TR/wsdl).
Данные, которые должны возвращаться с анализируемой HTML-страницы, представляются в описании службы с помощью ряда элементов XML, содержащих регулярные выражения для анализа конкретных блоков данных с указанием имени каждого блока. Фактическое регулярное выражение платформы .NET Framework указывается в элементе XML match. Регулярные выражения обеспечивают исчерпывающую нотацию для сопоставления с шаблонами, позволяющую быстро анализировать большие объемы текста для поиска конкретных комбинаций символов. Подробные сведения о синтаксисе регулярных выражений платформы .NET Framework см. в разделе .NET Framework Regular Expressions.
Элемент <match>
Ниже перечислены атрибуты, с помощью которых может быть задан элемент match.
Атрибут | Описание |
---|---|
name |
Имя класса или свойства, представляющее возвращаемый блок данных. Если элемент XML match имеет дочерние элементы match, прокси-класс, созданный с помощью средства Wsdl.exe, связывает атрибут имени с классом. Дочерние элементы match сопоставляются со свойствами этого класса. |
Pattern |
Шаблон регулярного выражения, который должен использоваться для получения блока данных. Подробные сведения о синтаксисе регулярных выражений платформы .NET Framework см. в разделе .NET Framework Regular Expressions. |
ignoreCase |
Определяет, должен ли в регулярном выражении учитываться регистр. По умолчанию регистр учитывается. |
Repeats |
Определяет количество значений, которые должны быть возвращены из регулярного выражения, если на HTML-странице имеется несколько совпадений с этим выражением. Значение 1 соответствует возврату только первого совпадения. При значении -1 возвращаются все совпадения. Значение -1 эквивалентно символу '*' в регулярном выражении. Значение по умолчанию — -1. |
Group |
Задает группирование связанных совпадений. |
Capture |
Задает индекс совпадения в группе. |
type |
Прокси-классы, созданные с помощью средства Wsdl.exe, используют атрибут type в качестве имени возвращаемого класса для элемента match, содержащего дочерние элементы match. По умолчанию прокси-класс, созданный с помощью средства Wsdl.exe, задает имя возвращаемого класса для имени, указанного в атрибуте name. |
См. также
Задачи
Как создать веб-службы, анализирующие содержимое страницы
Справочник
MatchAttribute Class
Инструмент языка описания веб-служб (Wsdl.exe)
Другие ресурсы
.NET Framework Regular Expressions
XML-веб-службы с использованием ASP.NET