Поделиться через


Практическое руководство. Идентификация текста в строке HTML в Visual Basic

В данном примере демонстрируется использование простого регулярного выражения для удаления тегов из HTML-документа.

Пример

Теги HTML могут соответствовать регулярному выражению \<[^\>]+\>, что означает:

  1. Символ "<", за которым следует

  2. Набор одного или нескольких символов, не включая символ ">", за которым следует

  3. Символ ">".

В этом примере используется общий метод Regex.Replace для замены всех совпадений регулярного выражения на пустую строку.

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

В этом примере необходимо использовать инструкцию Imports для импорта пространства имен System.Text.RegularExpressions. Дополнительные сведения см. в разделе Оператор Imports (пространство имен .NET и тип).

См. также

Задачи

Практическое руководство. Идентификация гиперссылок в строке HTML в Visual Basic

Практическое руководство. Исключение недопустимых символов из строки

Другие ресурсы

Анализ строк в Visual Basic