Analysieren und Lesen eines großen Tabellenkalkulationsdokuments

Artikel
01/18/2024

In diesem Thema wird gezeigt, wie Sie die Klassen im Open XML SDK für Office verwenden, um eine große Excel-Datei programmgesteuert zu lesen. Weitere Informationen zur grundlegenden Struktur eines SpreadsheetML-Dokuments finden Sie unter Struktur eines SpreadsheetML-Dokuments.

Hinweis

Haben Sie Interesse an der Entwicklung von Lösungen, mit denen die Funktionen von Office über mehrere Plattformen erweitert werden können? Schauen Sie sich das neue Office-Add-In-Modell an. Office-Add-Ins haben im Vergleich zu VSTO-Add-Ins und -Lösungen einen geringen Platzbedarf. Sie können sie mit fast jeder Web-Programmiertechnologie erstellen, z. B. HTML5, JavaScript, CSS3 und XML.

Ansätze zum Analysieren von Open XML-Dateien

Das Open XML SDK bietet zwei Vorgehensweisen zum Analysieren von Open XML-Dateien. You can use the SDK Document Object Model (DOM), or the Simple API for XML (SAX) reading and writing features. Das SDK-DOM ist so konzipiert, dass das Abfragen und Analysieren von Open XML-Dateien durch Verwendung stark typisierter Klassen vereinfacht wird. Für den DOM-Ansatz müssen jedoch gesamte Open XML-Teile in den Speicher geladen werden, was zu der Ausnahme Nicht genügend Arbeitsspeicher führen kann, wenn Sie mit sehr großen Dateien arbeiten. Unter Verwendung des SAX-Ansatzes können Sie einen OpenXMLReader verwenden, um die XML in der Datei Element für Element zu lesen, ohne die gesamte Datei in den Speicher laden zu müssen. Consider using SAX when you need to handle very large files.

Mit dem folgenden Codesegment wird eine sehr umfangreiche Excel-Datei mithilfe des DOM-Ansatzes gelesen.

C#
Visual Basic


WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();
SheetData sheetData = worksheetPart.Worksheet.Elements<SheetData>().First();
string? text;

foreach (Row r in sheetData.Elements<Row>())
{
    foreach (Cell c in r.Elements<Cell>())
    {
        text = c?.CellValue?.Text;
        Console.Write(text + " ");
    }
}


Dim workbookPart As WorkbookPart = spreadsheetDocument.WorkbookPart
Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()
Dim sheetData As SheetData = worksheetPart.Worksheet.Elements(Of SheetData)().First()
Dim text As String
For Each r As Row In sheetData.Elements(Of Row)()
    For Each c As Cell In r.Elements(Of Cell)()
        text = c.CellValue.Text
        Console.Write(text & " ")
    Next
Next

Das folgende Codesegment führt eine identische Aufgabe mit dem vorherigen Beispiel aus (liest eine sehr große Excel-Datei), verwendet jedoch den SAX-Ansatz. Dies ist der empfohlene Ansatz zum Lesen sehr großer Dateien.

C#
Visual Basic


WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();

OpenXmlReader reader = OpenXmlReader.Create(worksheetPart);
string text;
while (reader.Read())
{
    if (reader.ElementType == typeof(CellValue))
    {
        text = reader.GetText();
        Console.Write(text + " ");
    }
}


Using spreadsheetDocument As SpreadsheetDocument = SpreadsheetDocument.Open(fileName, False)
    Dim workbookPart As WorkbookPart = spreadsheetDocument.WorkbookPart
    Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()

    Dim reader As OpenXmlReader = OpenXmlReader.Create(worksheetPart)
    Dim text As String
    While reader.Read()
        If reader.ElementType = GetType(CellValue) Then
            text = reader.GetText()
            Console.Write(text & " ")
        End If
    End While

Beispielcode

Stellen Sie sich ein Szenario vor, in dem Sie für ein Finanzunternehmen arbeiten, von dem sehr umfangreiche Excel-Tabellenkalkulationen verwendet werden. Diese Tabellenkalkulationen werden täglich von Analysten aktualisiert und können leicht eine Größe von mehreren Hundert MB erreichen. Sie benötigen eine Lösung zum Lesen und Extrahieren von relevanten Daten aus jeder Tabellenkalkulation. Das folgende Codebeispiel enthält zwei Methoden, die den beiden Ansätzen DOM und SAX entsprechen. Bei der zuletzt genannten Technik werden Ausnahmen bezüglich des Arbeitsspeichers bei Verwendung von sehr umfangreichen Dateien vermieden. Zum Testen dieser Methoden können Sie diese im Code nacheinander aufrufen, oder Sie können jede Methode separat aufrufen, indem Sie den Aufruf der auszuschließenden Methode auskommentieren.

C#
Visual Basic

// Comment one of the following lines to test the method separately.
ReadExcelFileDOM(args[0]);    // DOM
ReadExcelFileSAX(args[0]);    // SAX


' Comment one of the following lines to test each method separately.
ReadExcelFileDOM(args(0))    ' DOM
ReadExcelFileSAX(args(0))    ' SAX

Nachstehend ist der vollständige Beispielcode in C# und Visual Basic aufgeführt.

C#
Visual Basic

using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Spreadsheet;
using System;
using System.Linq;

// The DOM approach.
// Note that the code below works only for cells that contain numeric values.
// 
static void ReadExcelFileDOM(string fileName)
{
    using (SpreadsheetDocument spreadsheetDocument = SpreadsheetDocument.Open(fileName, false))
    {
        
        WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
        WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();
        SheetData sheetData = worksheetPart.Worksheet.Elements<SheetData>().First();
        string? text;

        foreach (Row r in sheetData.Elements<Row>())
        {
            foreach (Cell c in r.Elements<Cell>())
            {
                text = c?.CellValue?.Text;
                Console.Write(text + " ");
            }
        }
        

        Console.WriteLine();
        Console.ReadKey();
    }
}

// The SAX approach.
static void ReadExcelFileSAX(string fileName)
{
    using (SpreadsheetDocument spreadsheetDocument = SpreadsheetDocument.Open(fileName, false))
    {

        WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart ?? spreadsheetDocument.AddWorkbookPart();
        WorksheetPart worksheetPart = workbookPart.WorksheetParts.First();

        OpenXmlReader reader = OpenXmlReader.Create(worksheetPart);
        string text;
        while (reader.Read())
        {
            if (reader.ElementType == typeof(CellValue))
            {
                text = reader.GetText();
                Console.Write(text + " ");
            }
        }


        Console.WriteLine();
        Console.ReadKey();
    }
}

Imports DocumentFormat.OpenXml
Imports DocumentFormat.OpenXml.Packaging
Imports DocumentFormat.OpenXml.Spreadsheet

Module Program
    Sub Main(args As String())


        ' Comment one of the following lines to test each method separately.
        ReadExcelFileDOM(args(0))    ' DOM
        ReadExcelFileSAX(args(0))    ' SAX

    End Sub


    ' The DOM approach.
    ' Note that the this code works only for cells that contain numeric values.


    Private Sub ReadExcelFileDOM(ByVal fileName As String)
        Using spreadsheetDocument As SpreadsheetDocument = SpreadsheetDocument.Open(fileName, False)


            Dim workbookPart As WorkbookPart = spreadsheetDocument.WorkbookPart
            Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()
            Dim sheetData As SheetData = worksheetPart.Worksheet.Elements(Of SheetData)().First()
            Dim text As String
            For Each r As Row In sheetData.Elements(Of Row)()
                For Each c As Cell In r.Elements(Of Cell)()
                    text = c.CellValue.Text
                    Console.Write(text & " ")
                Next
            Next


            Console.WriteLine()
            Console.ReadKey()
        End Using
    End Sub

    ' The SAX approach.
    Private Sub ReadExcelFileSAX(ByVal fileName As String)


        Using spreadsheetDocument As SpreadsheetDocument = SpreadsheetDocument.Open(fileName, False)
            Dim workbookPart As WorkbookPart = spreadsheetDocument.WorkbookPart
            Dim worksheetPart As WorksheetPart = workbookPart.WorksheetParts.First()

            Dim reader As OpenXmlReader = OpenXmlReader.Create(worksheetPart)
            Dim text As String
            While reader.Read()
                If reader.ElementType = GetType(CellValue) Then
                    text = reader.GetText()
                    Console.Write(text & " ")
                End If
            End While


            Console.WriteLine()
            Console.ReadKey()
        End Using
    End Sub
End Module

Siehe auch

Struktur eines SpreadsheetML-Dokuments

Referenz zur Open XML SDK-Klassenbibliothek

Freigeben über

Analysieren und Lesen eines großen Tabellenkalkulationsdokuments

Ansätze zum Analysieren von Open XML-Dateien

Beispielcode

Siehe auch

Zusätzliche Ressourcen