Поделиться через


Потоковая передача фрагментов XML из XmlReader (LINQ to XML)

При необходимости обработать большой XML-файл загрузка в память полного XML-дерева, возможно, будет неосуществима. В этой статье показано, как передавать фрагменты с помощью XmlReader C# и Visual Basic.

Одним из самых эффективных способов использования XmlReader для чтения объектов XElement является написание собственного метода оси. Метод оси обычно возвращает коллекцию, например IEnumerable<T> XElement, как показано в примере в этой статье. В пользовательском методе оси после создания XML-фрагмента с помощью вызова метода ReadFrom возвратите коллекцию, используя yield return. Тем самым в пользовательском методе оси обеспечивается семантика отложенного выполнения.

При создании XML-дерева из объекта XmlReader модулю чтения XmlReader должен быть указан обрабатываемый элемент. Метод ReadFrom не возвращается, пока он не считывает закрывающий тег элемента.

Если нужно создать частичное дерево, можно создать экземпляр XmlReader, указать для модуля чтения узел, который должен быть преобразован в дерево XElement, и создать объект XElement.

Статья О том, как передавать фрагменты XML с доступом к сведениям заголовка, содержит сведения о потоковой передаче более сложного документа.

Статья О том, как выполнять потоковое преобразование больших XML-документов, содержит пример использования LINQ to XML для преобразования очень больших XML-документов при сохранении небольшого объема памяти.

Пример. Создание пользовательского метода оси

В следующем примере создается пользовательский метод оси. Его можно запросить с помощью запроса LINQ. Метод пользовательской оси StreamRootChildDoc может считывать документ с повторяющимся Child элементом.

using System.Xml;
using System.Xml.Linq;

static IEnumerable<XElement> StreamRootChildDoc(StringReader stringReader)
{
    using XmlReader reader = XmlReader.Create(stringReader);

    reader.MoveToContent();

    // Parse the file and display each of the nodes.
    while (true)
    {
        // If the current node is an element and named "Child"
        if (reader.NodeType == XmlNodeType.Element && reader.Name == "Child")
        {
            // Get the current node and advance the reader to the next
            if (XNode.ReadFrom(reader) is XElement el)
                yield return el;

        }
        else if (!reader.Read())
            break;
    }
}

string markup = """
                <Root>
                  <Child Key="01">
                    <GrandChild>aaa</GrandChild>
                  </Child>
                  <Child Key="02">
                    <GrandChild>bbb</GrandChild>
                  </Child>
                  <Child Key="03">
                    <GrandChild>ccc</GrandChild>
                  </Child>
                </Root>
                """;

IEnumerable<string> grandChildData =
    from el in StreamRootChildDoc(new StringReader(markup))
    where (int)el.Attribute("Key") > 1
    select (string)el.Element("GrandChild");

foreach (string str in grandChildData)
    Console.WriteLine(str);
Imports System.Xml

Module Module1

    Public Iterator Function StreamRootChildDoc(stringReader As IO.StringReader) As IEnumerable(Of XElement)
        Using reader As XmlReader = XmlReader.Create(stringReader)
            reader.MoveToContent()

            ' Parse the file and display each of the nodes.
            While True

                ' If the current node is an element and named "Child"
                If reader.NodeType = XmlNodeType.Element And reader.Name = "Child" Then

                    ' Get the current node and advance the reader to the next
                    Dim el As XElement = TryCast(XNode.ReadFrom(reader), XElement)

                    If (el IsNot Nothing) Then
                        Yield el
                    End If

                ElseIf Not reader.Read() Then
                    Exit While
                End If

            End While
        End Using
    End Function

    Sub Main()

        Dim markup = "<Root>
                       <Child Key=""01"">
                         <GrandChild>aaa</GrandChild>
                       </Child>
                       <Child Key=""02"">
                         <GrandChild>bbb</GrandChild>
                       </Child>
                       <Child Key=""03"">
                         <GrandChild>ccc</GrandChild>
                       </Child>
                     </Root>"

        Dim grandChildData =
             From el In StreamRootChildDoc(New IO.StringReader(markup))
             Where CInt(el.@Key) > 1
             Select el.<GrandChild>.Value

        For Each s In grandChildData
            Console.WriteLine(s)
        Next

    End Sub
End Module

В примере получается следующий вывод.

bbb
ccc

Метод, используемый в этом примере, поддерживает небольшой объем памяти даже для миллионов Child элементов.

См. также