본문 바로가기
BIG DATA/PYTHON

[PYTHON] 데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

by 라일리T 2025. 2. 22.

데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

데이터 분석에서 빠른 연산과 효율적인 데이터 처리는 필수입니다.
파이썬에는 이를 위해 NumPyPandas라는 강력한 라이브러리가 있습니다.

이번 글에서는 NumPy(넘파이)와 Pandas(판다스)의 기본 개념과 활용법을 배워보겠습니다.


1. NumPy란?

1.1 NumPy 소개

**NumPy(Numerical Python)**는 배열(Array) 기반의 수치 연산 라이브러리입니다.

  • 빠른 연산 속도: 리스트보다 속도가 빠름
  • 다차원 배열(행렬) 지원
  • 다양한 수학, 통계 함수 제공

1.2 NumPy 설치

NumPy가 없으면 아래 명령어로 설치할 수 있습니다.

pip install numpy

1.3 NumPy 배열 생성 (np.array())

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
print(arr)  
# [1 2 3 4 5]

1.4 다차원 배열 생성

arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)  
'''
[[1 2 3]
 [4 5 6]]
'''

1.5 배열의 크기 확인 (shape)

print(arr2d.shape)  # (2, 3) -> 2행 3열

1.6 배열 연산

NumPy는 벡터 연산을 지원하여 리스트보다 훨씬 빠르게 연산할 수 있습니다.

arr = np.array([1, 2, 3])
print(arr + 10)  # [11 12 13]
print(arr * 2)   # [ 2  4  6]

2. Pandas란?

2.1 Pandas 소개

**Pandas(판다스)**는 데이터 분석을 위한 라이브러리입니다.

  • 엑셀과 유사한 데이터 처리
  • 표 형태의 데이터(DataFrame) 지원
  • 누락된 데이터 처리 기능

2.2 Pandas 설치

pip install pandas

2.3 데이터프레임(DataFrame) 생성

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['Seoul', 'Busan', 'Incheon']}

df = pd.DataFrame(data)
print(df)

출력:

     Name  Age    City
0   Alice   25   Seoul
1     Bob   30   Busan
2  Charlie   35  Incheon

2.4 CSV 파일 불러오기

df = pd.read_csv("data.csv")
print(df.head())  # 상위 5개 데이터 출력

2.5 데이터 선택하기

print(df['Name'])  # 특정 열 선택
print(df.iloc[0])  # 첫 번째 행 선택

2.6 결측값 처리 (fillna())

df.fillna(0, inplace=True)  # NaN 값을 0으로 채우기

3. NumPy & Pandas 실전 활용

3.1 NumPy로 평균과 표준편차 구하기

arr = np.array([10, 20, 30, 40, 50])
print("평균:", np.mean(arr))  # 30.0
print("표준편차:", np.std(arr))  # 14.14

3.2 Pandas 데이터 분석

print(df.describe())  # 데이터 요약 정보
print(df['Age'].mean())  # 나이 평균

4. 결론

NumPy: 빠른 배열 연산, 다차원 데이터 처리
Pandas: 엑셀 스타일의 데이터 관리, CSV 파일 분석
함께 사용하면 강력한 데이터 분석 도구

다음 글에서는 Matplotlib을 활용한 데이터 시각화에 대해 알아보겠습니다! 🚀