เชี่ยวชาญ NumPy np.array: พื้นฐานถึงการวิเคราะห์ข้อมูลขั้นสูง

1. บทนำ

Python เป็นภาษาการเขียนโปรแกรมที่ได้รับความนิยมอย่างมากสำหรับการวิเคราะห์ข้อมูล, การเรียนรู้ของเครื่อง, และการคำนวณเชิงวิทยาศาสตร์. ในบรรดานั้น, ไลบรารี numpy (NumPy) เป็นเครื่องมือที่ทรงพลังสำหรับการทำให้การคำนวณเชิงตัวเลขเป็นไปอย่างราบรื่น. บทความนี้ให้คำอธิบายโดยละเอียดเกี่ยวกับ “np.array” ของ Python, ตั้งแต่พื้นฐานจนถึงการประยุกต์ใช้งานจริง, และแนะนำเทคนิคที่เป็นประโยชน์สำหรับการประมวลผลและวิเคราะห์ข้อมูลเชิงตัวเลข.

หน้าอย่างเป็นทางการ

2. numpy คืออะไร?

numpy เป็นไลบรารีการคำนวณเชิงตัวเลขที่ให้การใช้งานอาเรย์หลายมิติ (ndarray), การดำเนินการเมทริกซ์, และฟีเจอร์การวิเคราะห์สถิติ, ทำหน้าที่เป็นพื้นฐานสำหรับการวิเคราะห์ข้อมูล. เมื่อทำงานร่วมกับไลบรารี Python อื่น ๆ, มันทำให้การประมวลผลข้อมูลที่ซับซ้อนเป็นเรื่องง่ายและเร็ว.

วิธีการติดตั้ง numpy

การติดตั้ง numpy ทำได้ง่าย. เพียงรันคำสั่งด้านล่าง.

pip install numpy

ทำไมต้องเลือก numpy

ความสามารถในการประมวลผลข้อมูลที่เร็วและมีประสิทธิภาพของ numpy เป็นสิ่งจำเป็นสำหรับการคำนวณเชิงวิทยาศาสตร์และวิทยาศาสตร์ข้อมูล. สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับ numpy, ดูที่ เอกสารอย่างเป็นทางการ.

Why NumPy? Powerful n-dimensional arrays. Numerical computin…

侍エンジニア塾

3. พื้นฐานของ np.array

np.array ของ Python เป็นโครงสร้างข้อมูลหลักของ numpy และรวมฟังก์ชันการทำงานสำหรับการจัดการข้อมูลเชิงตัวเลขอย่างมีประสิทธิภาพ. ตัวอย่างเช่น, นี่คือตัวอย่างการสร้างอาเรย์หนึ่งมิติ.

import numpy as np
array_1d = np.array([1, 2, 3, 4, 5])
print(array_1d)

เคล็ดลับ: การระบุประเภทข้อมูลของ np.array สามารถเพิ่มประสิทธิภาพการใช้หน่วยความจำได้. ใช้พารามิเตอร์ dtype เพื่อระบุประเภทจำนวนเต็ม (เช่น int32) หรือประเภทจำนวนทศนิยม.

4. การสร้างอาเรย์หลายมิติ

np.array ยังรองรับอาเรย์หลายมิติ. ตัวอย่างเช่น, โค้ดต่อไปนี้สร้างอาเรย์สองมิติ.

array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(array_2d)

คำถามที่พบบ่อย
ถาม: ฉันจะสร้างอาเรย์ที่มีสามมิติหรือมากกว่านั้นได้อย่างไร?
ตอบ: คุณสามารถสร้างได้โดยส่งรายการซ้อนเพิ่มเติมให้กับ np.array.

5. การดำเนินการกับอาเรย์

np.array ให้คุณดึงเอาองค์ประกอบและทำการดำเนินการบางส่วนโดยใช้การเข้าถึงด้วยดัชนีและการตัดส่วน. ด้านล่างเป็นตัวอย่างพื้นฐานของการเข้าถึงด้วยดัชนี.

array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(array_2d[1, 2])  # Output: 6

โดยใช้การตัดส่วน, คุณสามารถดึงแถวหรือคอลัมน์เฉพาะได้อย่างง่ายดาย.

6. การปรับรูปแบบอาเรย์

ในการวิเคราะห์ข้อมูล, คุณมักต้องการเปลี่ยนรูปแบบของอาเรย์; การใช้เมธอด reshape ช่วยให้คุณปรับรูปแบบได้อย่างมีประสิทธิภาพ.

array_1d = np.array([1, 2, 3, 4, 5, 6])
array_2d = array_1d.reshape(2, 3)
print(array_2d)

เคล็ดลับ: คุณยังสามารถใช้เมธอด resize เพื่อปรับรูปแบบ, แต่ต้องระวังเพราะมันจะแก้ไขอาเรย์ต้นฉบับโดยตรง.

7. การดำเนินการกับอาเรย์

การใช้ความสามารถเชิงคณิตศาสตร์ของ numpy ทำให้การดำเนินการระหว่างอาเรย์เป็นเรื่องง่าย. ตัวอย่างด้านล่างทำการบวกแบบองค์ประกอบต่อองค์ประกอบของสองอาเรย์.

array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])
print(array1 + array2)  # Output: [5 7 9]

คำถามที่พบบ่อย
ถาม: ฉันสามารถทำการดำเนินการเมื่ออาเรย์มีรูปแบบที่แตกต่างกันได้หรือไม่?
ตอบ: โดยใช้ฟีเจอร์ broadcasting ของ numpy, คุณสามารถทำการดำเนินการบนอาเรย์ที่มีรูปแบบต่างกันได้อย่างถูกต้อง.

8. การใช้ฟังก์ชันสถิติ

ในการวิเคราะห์ข้อมูล, การตรวจสอบมาตรการสถิติเช่นค่าเฉลี่ย, ค่าสูงสุดและค่าต่ำสุด, และความแปรปรวนของอาเรย์เป็นสิ่งสำคัญ. ตัวอย่างเช่น, ด้านล่างเป็นวิธีการคำนวณค่าเฉลี่ยของอาเรย์.

array = np.array([1, 2, 3, 4, 5])
print(array.mean())  # Output: 3.0

9. ตัวอย่างการประยุกต์ใช้งานจริง: การประยุกต์ใช้กับการวิเคราะห์ข้อมูล

ที่นี่, โดยใช้ข้อมูลการขายสมมติ, เราจะวิเคราะห์อัตราการเติบโตของการขายและตรวจสอบแนวโน้มการขายรายเดือน.

import numpy as np
import matplotlib.pyplot as plt

sales_data = np.array([120, 150, 170, 200, 220, 180, 190, 210, 230, 250, 240, 260])

# Monthly sales growth rate
growth_rate = (sales_data[1:] - sales_data[:-1]) / sales_data[:-1] * 100
print("Monthly growth rate:", growth_rate)

# Plotting the sales data
plt.plot(range(1, 13), sales_data, marker='o')
plt.title("Monthly Sales Trend")
plt.xlabel("Month")
plt.ylabel("Sales (thousands)")
plt.grid(True)
plt.show()

เคล็ดลับ: การทำภาพข้อมูลทำให้ระบุจุดสูงสุดของการเติบโตและแนวโน้มได้อย่างเข้าใจง่าย ซึ่งเป็นประโยชน์ต่อการวิเคราะห์ธุรกิจ.

10. สรุป

บทความนี้อธิบายพื้นฐานการใช้ np.array ใน Python และการประยุกต์ใช้ในการวิเคราะห์ข้อมูล จุดสำคัญมีดังต่อไปนี้

  1. การใช้งานพื้นฐาน : การสร้าง np.array และการระบุประเภทข้อมูล
  2. อาเรย์หลายมิติ : การสร้างและจัดการอาเรย์สองมิติและสามมิติ
  3. การปรับรูปแบบ : วิธีการปรับรูปแบบโดยใช้ reshape และ flatten
  4. การดำเนินการและสถิติ : การดำเนินการแบบองค์ประกอบและการคำนวณมาตรการสถิติ
  5. ตัวอย่างเชิงปฏิบัติ : การคำนวณอัตราการเติบโตและการทำภาพข้อมูลการขาย

แนวคิดเหล่านี้เป็นพื้นฐานสำหรับการวิเคราะห์ข้อมูลและโครงการแมชชีนเลิร์นนิง ดังนั้นควรใช้ประโยชน์จากมัน หากต้องการทำความเข้าใจให้ลึกซึ้งยิ่งขึ้น ควรศึกษาเอกสาร numpy อย่างเป็นทางการและหัวข้อที่เกี่ยวข้องอื่น ๆ

RUNTEQ(ランテック)|超実戦型エンジニア育成スクール