Python: Excel-Dateien laden mit pandas und openpyxl

1 1. Einführung
2 2. Vorbereitung zum Umgang mit Excel-Dateien in Python
- 2.1 Python-Entwicklungsumgebung
- 2.2 Installation der notwendigen Bibliotheken
3 3. Lesen von Excel-Dateien mit openpyxl
- 3.1 Laden des Workbooks
- 3.2 Auswahl des Sheets und Abruf der Zellwerte
4 4. Das Lesen von Excel-Dateien mit pandas
- 4.1 Excel-Datei in ein DataFrame umwandeln
- 4.2 Spezifische Blätter oder Bereiche lesen
5 5. Die Abgrenzung der Verwendung von openpyxl und pandas
- 5.1 Beispiele für die Abgrenzung
6 6. Praktisches Beispiel: Bearbeitung und Speicherung von Excel-Daten
- 6.1 Datenbearbeitung
7 7. Zusammenfassung

1. Einführung

Python ist eine der beliebtesten Programmiersprachen und wird in den Bereichen Datenanalyse und Automatisierung weit verbreitet eingesetzt. Besonders beim Umgang mit Excel-Dateien ermöglicht die Verwendung von Python-Bibliotheken eine effiziente Datenmanipulation. In diesem Artikel erklären wir detailliert, wie man Excel-Dateien mit Python von Grund auf liest.

2. Vorbereitung zum Umgang mit Excel-Dateien in Python

Um Excel in Python zu handhaben, benötigen Sie eine spezielle Bibliothek. In diesem Abschnitt wird erklärt, wie man die notwendigen Bibliotheken installiert und die Entwicklungsumgebung vorbereitet.

Python-Entwicklungsumgebung

Zuerst stellen Sie sicher, dass Python installiert ist. Geben Sie den folgenden Befehl in das Terminal oder die Eingabeaufforderung ein, um die Python-Version zu überprüfen.

python --version

Die empfohlene Version ist 3.7 oder höher.

Installation der notwendigen Bibliotheken

Die repräsentativen Bibliotheken zum Manipulieren von Excel sind die folgenden zwei.

openpyxl: Ermöglicht das Lesen und Schreiben von Excel-Dateien (.xlsx).
pandas: Ermöglicht die Manipulation von Daten im DataFrame-Format und ist praktisch für die Datenanalyse.

Installationsbefehl:

pip install openpyxl pandas

Wenn die Installation erfolgreich ist, können Sie mit diesen Bibliotheken Excel in Python manipulieren.

3. Lesen von Excel-Dateien mit openpyxl

openpyxl ist eine Bibliothek zur direkten Bearbeitung von Excel-Dateien. In diesem Abschnitt werden die grundlegenden Bedienungsmethoden erläutert.

Laden des Workbooks

Zuerst schauen wir uns an, wie man eine Excel-Datei öffnet.

from openpyxl import load_workbook

# Excel-Datei laden
workbook = load_workbook("example.xlsx")

# Sheet-Namen überprüfen
print(workbook.sheetnames)

Im obigen Code öffnen wir die Datei example.xlsx und rufen die darin enthaltenen Sheet-Namen ab.

Auswahl des Sheets und Abruf der Zellwerte

So wählt man ein bestimmtes Sheet aus und liest Daten ein.

# Sheet auswählen
sheet = workbook["Sheet1"]

# Wert einer bestimmten Zelle abrufen
value = sheet["A1"].value
print(f"Wert der Zelle A1: {value}")

Die Angabe der Zelle erfolgt durch „Spalte + Zeile“ (z. B. A1).

4. Das Lesen von Excel-Dateien mit pandas

pandas ist eine Bibliothek, die speziell für die Datenanalyse entwickelt wurde und Excel-Dateien einfach in das DataFrame-Format umwandeln kann.

Excel-Datei in ein DataFrame umwandeln

Hier wird die Methode zum Lesen von Excel-Dateien mit der read_excel-Funktion von pandas vorgestellt.

import pandas as pd

# Excel-Datei laden
df = pd.read_excel("example.xlsx")

# Die ersten 5 Zeilen des DataFrames anzeigen
print(df.head())

Bei der Ausführung dieses Codes wird die Excel-Daten in Tabellenform angezeigt.

Spezifische Blätter oder Bereiche lesen

Durch die Angabe eines spezifischen Blatts oder Bereichs können die Daten effizient manipuliert werden.

# Spezifisches Blatt laden
df = pd.read_excel("example.xlsx", sheet_name="Sheet1")

# Nur spezifische Spalten abrufen
df = pd.read_excel("example.xlsx", usecols="A:C")
print(df)

5. Die Abgrenzung der Verwendung von openpyxl und pandas

openpyxl und pandas werden jeweils für unterschiedliche Zwecke eingesetzt. In diesem Abschnitt vergleichen wir die Merkmale beider und geben Empfehlungen für eine angemessene Unterscheidung.

Bibliothek	Merkmale	Anwendungsfälle
openpyxl	Erlaubt detaillierte Manipulation von Excel-Dateien	Bearbeitung auf Zellebene, Formatierung
pandas	Spezialisiert auf Datenanalyse und -manipulation	Datenaggregation, Filterung

Beispiele für die Abgrenzung

openpyxl: Wenn Excel-Formatierungen beim Bearbeiten beibehalten werden sollen.
pandas: Bei der effizienten Verarbeitung großer Datenmengen.

6. Praktisches Beispiel: Bearbeitung und Speicherung von Excel-Daten

Hier stellen wir die Methode vor, Excel-Daten tatsächlich zu bearbeiten und zu speichern.

Datenbearbeitung

Der folgende Code ist ein Beispiel dafür, Daten zu filtern und in eine neue Excel-Datei zu speichern.

import pandas as pd

# Excel-Daten laden
df = pd.read_excel("example.xlsx")

# Daten nach bestimmten Bedingungen filtern
filtered_df = df[df["Umsatz"] > 1000]

# Bearbeitete Daten in neue Datei speichern
filtered_df.to_excel("filtered.xlsx", index=False)
print("Neue Datei gespeichert")

In diesem Code werden nur Daten extrahiert, bei denen der Umsatz 1000 übersteigt.

7. Zusammenfassung

In diesem Artikel haben wir detailliert erklärt, wie man mit Python Excel-Dateien liest. Sie sollten die grundlegenden Operationen von openpyxl und pandas verstanden haben und in der Lage sein, sie je nach Verwendungszweck unterschiedlich einzusetzen. Probieren Sie den Code aus und gewöhnen Sie sich an die Excel-Operationen mit Python.