Практическое руководство. Идентификация текста в строке HTML в Visual Basic
В данном примере демонстрируется использование простого регулярного выражения для удаления тегов из HTML-документа.
Пример
Теги HTML могут соответствовать регулярному выражению \<[^\>]+\>, что означает:
Символ "<", за которым следует
Набор одного или нескольких символов, не включая символ ">", за которым следует
Символ ">".
В этом примере используется общий метод Regex.Replace для замены всех совпадений регулярного выражения на пустую строку.
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
В этом примере необходимо использовать инструкцию Imports для импорта пространства имен System.Text.RegularExpressions. Дополнительные сведения см. в разделе Оператор Imports (пространство имен .NET и тип).
См. также
Задачи
Практическое руководство. Идентификация гиперссылок в строке HTML в Visual Basic
Практическое руководство. Исключение недопустимых символов из строки