Python: Manipula ng Excel file gamit ang Pandas at OpenPyXL

1 1. Ang kaginhawaan ng pag-manipula ng mga Excel file gamit ang Python
- 1.1 1.1 Likuran
- 1.2 1.2 Lakas ng Python
2 2. Pagpapakilala sa mga pangunahing library para basahin ang Excel gamit ang Python
- 2.1 2.1 Pagbabasa ng Excel gamit ang Pandas
  - 2.1.1 Pag-manipula ng Maramihang Sheet
- 2.2 2.2 Pagbabasa ng Excel gamit ang OpenPyXL
3 3. Pandas vs OpenPyXL: Alin ang dapat piliin?
- 3.1 3.1 Pagkakaiba sa performance
- 3.2 3.2 Mga tampok at pangkalahatang gamit
4 4. Aktwal na Halimbawa: Mula sa Pagbabasa ng Excel File hanggang sa Pagproseso ng Data
5 5. Mga Paalala at Pinakamahuhusay na Kasanayan sa Pag-manipula ng Excel File
6 6. Konklusyon: Pagpapahusay ng Operasyon ng Excel gamit ang Python

1. Ang kaginhawaan ng pag-manipula ng mga Excel file gamit ang Python

1.1 Likuran

Ang Excel ay malawakang ginagamit para sa pamamahala ng datos at paggawa ng mga ulat sa negosyo, at nagsisilbing mahalagang kasangkapan para sa epektibong pagproseso ng datos. Gayunpaman, kapag manu-manong hinahawakan ang datos, ito ay nagiging matagal at madaling magkamali. Kaya, sa pamamagitan ng paggamit ng mga automation script ng Python para basahin at i-proseso ang mga Excel data, posible ang pagpapabilis ng trabaho at pagpapabuti ng katumpakan.

1.2 Lakas ng Python

Ang Python ay isang programming language na maaaring magsagawa ng komplikadong operasyon gamit ang maikling code, at sa pamamagitan ng paggamit ng mga library tulad ng Pandas at OpenPyXL, madali mong mababasa at ma-eedit ang mga Excel file. Sa pag‑utilisa ng kaginhawaan ng Python, malaki ang pag‑taas ng awtomasyon at pagiging epektibo ng mga gawain.

2. Pagpapakilala sa mga pangunahing library para basahin ang Excel gamit ang Python

2.1 Pagbabasa ng Excel gamit ang Pandas

Ang Pandas ay isang Python library na nakatuon sa pagsusuri at pag-manipula ng data, na nagpapadali ng pagbasa ng mga Excel file. Sa paggamit ng function na read_excel(), maaaring basahin ang Excel data bilang DataFrame, na kapaki-pakinabang para sa pagproseso at pagsusuri.

import pandas as pd

# Pagbasa ng Excel file
df = pd.read_excel('example.xlsx')
print(df)

Pag-manipula ng Maramihang Sheet

Maaari ring madaling basahin ng Pandas ang mga Excel file na may maraming sheet. Sa paggamit ng sheet_name=None, makukuha ang lahat ng sheet sa anyong dictionary.

df_sheets = pd.read_excel('example.xlsx', sheet_name=None)
for sheet_name, df in df_sheets.items():
    print(f"Sheet: {sheet_name}")
    print(df)

2.2 Pagbabasa ng Excel gamit ang OpenPyXL

Ang OpenPyXL ay isang library na sumusuporta sa pag-edit at pag-format ng mga Excel file, na angkop kapag nais mong direktang manipulahin ang mga partikular na selula o hilera. Maaari rin nitong panatilihin ang layout at mga grap ng Excel, kaya angkop ito para sa awtomatikong paglikha ng mga business document.

from openpyxl import load_workbook

# Pagbasa ng Excel file
wb = load_workbook('example.xlsx')
ws = wb['Sheet1']

# Kunin ang halaga ng selula
cell_value = ws['A1'].value
print(cell_value)

3. Pandas vs OpenPyXL: Alin ang dapat piliin?

3.1 Pagkakaiba sa performance

Pandas Ang Pandas ay napakaepektibo sa pag-aggregate at pag-filter ng malalaking datos, ngunit maaaring tumaas ang konsumo ng memorya kapag nag-ooperate sa malalaking Excel file. Samantala, OpenPyXL ay mahusay sa memory efficiency, at sa paggamit ng read_only=True na opsyon, maaaring basahin nang epektibo ang Excel file.

# OpenPyXL read-only mode
wb = load_workbook('large_file.xlsx', read_only=True)

3.2 Mga tampok at pangkalahatang gamit

Pandas Ang Pandas ay napaka-kapaki-pakinabang kapag nagsasagawa ng pagsusuri ng datos at estadistikal na pagproseso. Madali ang pag-manipula sa format na data frame, at mabilis na maisasagawa ang pagproseso at pagsusuri ng datos. Samantala, OpenPyXL ay sumusuporta sa pag-edit ng Excel file, pagpapanatili ng VBA code, paggawa ng grap, at iba pang mga tampok, kaya ito ay perpekto para sa pag-manipula mismo ng Excel file.

4. Aktwal na Halimbawa: Mula sa Pagbabasa ng Excel File hanggang sa Pagproseso ng Data

4.1 Pangunahing Pagbabasa ng Excel File

Isang simpleng halimbawa ng pagbabasa ng Excel file gamit ang Pandas.

df = pd.read_excel('sales_data.xlsx')
print(df)

4.2 Pag-manipula ng mga tiyak na sheet at cell

Gamit ang OpenPyXL, kinukuha ang data mula sa mga tiyak na sheet at cell, at nagsusulat ng bagong data.

from openpyxl import load_workbook

wb = load_workbook('sales_data.xlsx')
ws = wb['2023']
print(ws['A1'].value)

# Isulat ang bagong halaga
ws['B1'] = 'Bagong datos'
wb.save('updated_sales_data.xlsx')

4.3 Pag-filter at Pag-aggregate ng Data

Gamit ang Pandas, nagsasagawa ng pag-filter at pag-aggregate ng data batay sa mga tiyak na kondisyon.

filtered_df = df[df['Petsa'].between('2023-09-01', '2023-09-30')]
total_sales = filtered_df['Bilang ng benta'].sum()
print(f"Kabuuang benta ng Setyembre: {total_sales}")

5. Mga Paalala at Pinakamahuhusay na Kasanayan sa Pag-manipula ng Excel File

5.1 Pagpapatupad ng Error Handling

Mahalagang magpatupad ng error handling kapag nagbabasa ng Excel file, upang harapin ang mga kaso kung saan ang file ay hindi umiiral o ang format ng data ay iba.

try:
    df = pd.read_excel('non_existent_file.xlsx')
except FileNotFoundError as e:
    print(f"Error: Hindi mahanap ang file: {e}")

5.2 Mga Paalala tungkol sa Character Encoding at Format

Kung ang Excel file ay naglalaman ng Japanese, mahalagang itakda ang tamang encoding upang maiwasan ang pagkasira ng mga karakter.

df = pd.read_csv('data.csv', encoding='utf-8')

5.3 Epektibong Pagproseso ng Malaking Datasets

Gamitin ang chunksize na opsyon ng Pandas at ang read_only na mode ng OpenPyXL upang epektibong maproseso ang malaking data.

# Pandas chunksize na opsyon
chunks = pd.read_csv('large_data.csv', chunksize=1000)
for chunk in chunks:
    print(chunk)

5.4 Pagpapanatili ng Format at Paglikha ng Grapiko gamit ang OpenPyXL

Sa OpenPyXL, maaaring magdagdag o mag-edit ng data habang pinapanatili ang format ng mga selula. Mayroon din itong kakayahang lumikha ng mga grapiko sa Excel.

from openpyxl.chart import BarChart, Reference

# Paglikha ng grapiko
chart = BarChart()
data = Reference(ws, min_col=2, min_row=1, max_col=2, max_row=10)
chart.add_data(data, titles_from_data=True)
ws.add_chart(chart, "E5")

6. Konklusyon: Pagpapahusay ng Operasyon ng Excel gamit ang Python

Pandas at OpenPyXL ay mga makapangyarihang tool na angkop sa magkaibang gamit. Ang Pandas ay angkop para sa data analysis, habang ang OpenPyXL ay angkop para sa mismong pag-manipula ng mga Excel file, at ang tamang pagpili ng tool ayon sa layunin ay nagdudulot ng epektibong operasyon ng Excel. Sa paggamit ng Python, ang awtomatisasyon ng trabaho at pagproseso ng data ay lubos na umuunlad, na nagpapahintulot na mapataas ang produktibidad.