Анализ и чтение большого документа электронной таблицы

Статья
01/21/2025

В этом разделе показано, как использовать классы в пакете SDK Open XML для Office для программного чтения большого файла Excel. Дополнительные сведения об основной SpreadsheetML структуре документа см. в разделе Структура документа SpreadsheetML.

Примечание.

Хотите создавать решения, которые расширяют возможности Office на разнообразных платформах? Ознакомьтесь с новой моделью надстроек Office. Надстройки Office занимают меньше места по сравнению с надстройками и решениями VSTO, и вы можете создавать их, используя практически любую технологию веб-программирования, например HTML5, JavaScript, CSS3 и XML.

Подходы к анализу файлов Open XML

Пакет Open XML SDK обеспечивает два подхода к анализу файлов Open XML. Можно использовать функции чтения и записи объектной модели документов SDK (DOM) или программного интерфейса Simple API для XML (SAX). Объектная модель SDK DOM предназначена для простой обработки файлов Open XML с помощью строго типизированных классов. Однако подход DOM требует загрузки всех частей Open XML в память, что может вызвать Out of Memory исключение при работе с очень большими файлами. При использовании SAX можно применять OpenXMLReader для чтения XML в файле по одному элементу за раз, не загружая весь файл в память. SAX следует использовать при обработке очень больших файлов.

Следующий фрагмент кода используется для чтения большого файла Excel с помощью объектной модели DOM.

C#
Visual Basic

WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();
SheetData sheetData = worksheetPart.Worksheet.Elements<SheetData>().First();
string? text;

foreach (Row r in sheetData.Elements<Row>())
{
    foreach (Cell c in r.Elements<Cell>())
    {
        text = c?.CellValue?.Text;
        Console.Write(text + " ");
    }
}

Dim workbookPart As WorkbookPart = If(spreadsheetDocument.WorkbookPart, spreadsheetDocument.AddWorkbookPart())
Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()
Dim sheetData As SheetData = worksheetPart.Worksheet.Elements(Of SheetData)().First()
Dim text As String = Nothing

For Each r As Row In sheetData.Elements(Of Row)()
    For Each c As Cell In r.Elements(Of Cell)()
        text = c?.CellValue?.Text
        Console.Write(text & " ")
    Next
Next

Указанный ниже пример кода выполняет ту же задачу, что и предыдущий (чтение большого файла Excel), но при этом используется подход SAX. Это рекомендуемый подход для чтения очень больших файлов.

C#
Visual Basic

WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();

OpenXmlReader reader = OpenXmlReader.Create(worksheetPart);
string text;
while (reader.Read())
{
    if (reader.ElementType == typeof(CellValue))
    {
        text = reader.GetText();
        Console.Write(text + " ");
    }
}

Dim workbookPart As WorkbookPart = If(spreadsheetDocument.WorkbookPart, spreadsheetDocument.AddWorkbookPart())
Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()

Dim reader As OpenXmlReader = OpenXmlReader.Create(worksheetPart)
Dim text As String
While reader.Read()
    If reader.ElementType = GetType(CellValue) Then
        text = reader.GetText()
        Console.Write(text & " ")
    End If
End While

Пример кода

Можно представить ситуацию, когда пользователь работает в финансовой организации, обрабатывающей очень большие таблицы Excel. Эти таблицы обновляются ежедневно, и их размер может быстро достичь сотен мегабайт. Требуется решение для чтения и извлечения нужных данных из каждой таблицы. Указанный ниже пример кода содержит два метода, соответствующих каждому из двух подходов, DOM и SAX. Последний способ позволяет избежать исключений нехватки памяти при работе с очень большими файлами. Можно вызвать каждый из методов в коде последовательно или отдельно, закомментировав вызов ненужного метода.

C#
Visual Basic

// Comment one of the following lines to test the method separately.
ReadExcelFileDOM(args[0]);    // DOM
ReadExcelFileSAX(args[0]);    // SAX

' Comment one of the following lines to test the method separately.
ReadExcelFileDOM(args(0))    ' DOM
ReadExcelFileSAX(args(0))    ' SAX

Ниже приведен полный пример кода на языках C# и Visual Basic.

C#
Visual Basic

// The DOM approach.
// Note that the code below works only for cells that contain numeric values
static void ReadExcelFileDOM(string fileName)
{
    using (SpreadsheetDocument spreadsheetDocument = SpreadsheetDocument.Open(fileName, false))
    {
        WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
        WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();
        SheetData sheetData = worksheetPart.Worksheet.Elements<SheetData>().First();
        string? text;

        foreach (Row r in sheetData.Elements<Row>())
        {
            foreach (Cell c in r.Elements<Cell>())
            {
                text = c?.CellValue?.Text;
                Console.Write(text + " ");
            }
        }

        Console.WriteLine();
        Console.ReadKey();
    }
}

// The SAX approach.
static void ReadExcelFileSAX(string fileName)
{
    using (SpreadsheetDocument spreadsheetDocument = SpreadsheetDocument.Open(fileName, false))
    {
        WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
        WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();

        OpenXmlReader reader = OpenXmlReader.Create(worksheetPart);
        string text;
        while (reader.Read())
        {
            if (reader.ElementType == typeof(CellValue))
            {
                text = reader.GetText();
                Console.Write(text + " ");
            }
        }


        Console.WriteLine();
        Console.ReadKey();
    }
}

' The DOM approach.
' Note that the code below works only for cells that contain numeric values
Sub ReadExcelFileDOM(fileName As String)
    Using spreadsheetDocument As SpreadsheetDocument = SpreadsheetDocument.Open(fileName, False)
        Dim workbookPart As WorkbookPart = If(spreadsheetDocument.WorkbookPart, spreadsheetDocument.AddWorkbookPart())
        Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()
        Dim sheetData As SheetData = worksheetPart.Worksheet.Elements(Of SheetData)().First()
        Dim text As String = Nothing

        For Each r As Row In sheetData.Elements(Of Row)()
            For Each c As Cell In r.Elements(Of Cell)()
                text = c?.CellValue?.Text
                Console.Write(text & " ")
            Next
        Next

        Console.WriteLine()
        Console.ReadKey()
    End Using
End Sub

' The SAX approach.
Sub ReadExcelFileSAX(fileName As String)
    Using spreadsheetDocument As SpreadsheetDocument = SpreadsheetDocument.Open(fileName, False)
        Dim workbookPart As WorkbookPart = If(spreadsheetDocument.WorkbookPart, spreadsheetDocument.AddWorkbookPart())
        Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()

        Dim reader As OpenXmlReader = OpenXmlReader.Create(worksheetPart)
        Dim text As String
        While reader.Read()
            If reader.ElementType = GetType(CellValue) Then
                text = reader.GetText()
                Console.Write(text & " ")
            End If
        End While

        Console.WriteLine()
        Console.ReadKey()
    End Using
End Sub

См. также

Структура документа SpreadsheetML

Справочник по библиотеке классов пакета SDK Open XML

Поделиться через

Анализ и чтение большого документа электронной таблицы

Подходы к анализу файлов Open XML

Пример кода

См. также

Дополнительные ресурсы