Partilhar via


Como: Identificar o texto em uma cadeia de caracteres HTML no Visual Basic

Este exemplo demonstra como usar uma expressão regular simples para remover as Rótulos de um documento HTML.

Exemplo

Rótulos HTML coincide com a expressão regular \<[^\>]+\>, que significa que:

  1. O caractere "<", seguido pela

  2. Um conjunto de caracteres de um ou mais, não incluindo o ">" caractere, seguido por

  3. O caractere ">".

Este exemplo usa o compartilhada Regex.Replace método para substituir todas as correspondências de expressão regular de marca por uma seqüência de caracteres vazia.

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

Esse exemplo exige que você use a declaração Imports para importar o namespace System.Text.RegularExpressions.Para obter mais informações, consulte Declaração Imports (Tipo e Namespace .NET).

Consulte também

Tarefas

Como: Identificar hyperlinks em uma cadeia de caracteres HTML no Visual Basic

Como: Faixa de caracteres inválida de uma Cadeia de Caracteres

Outros recursos

Analisando Sequências de Caracteres em Visual Basic