데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

데이터 분석에서 빠른 연산과 효율적인 데이터 처리는 필수입니다.
파이썬에는 이를 위해 NumPy와 Pandas라는 강력한 라이브러리가 있습니다.

이번 글에서는 NumPy(넘파이)와 Pandas(판다스)의 기본 개념과 활용법을 배워보겠습니다.

1. NumPy란?

1.1 NumPy 소개

**NumPy(Numerical Python)**는 배열(Array) 기반의 수치 연산 라이브러리입니다.

빠른 연산 속도: 리스트보다 속도가 빠름
다차원 배열(행렬) 지원
다양한 수학, 통계 함수 제공

1.2 NumPy 설치

NumPy가 없으면 아래 명령어로 설치할 수 있습니다.

pip install numpy

1.3 NumPy 배열 생성 (np.array())

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
print(arr)  
# [1 2 3 4 5]

1.4 다차원 배열 생성

arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)  
'''
[[1 2 3]
 [4 5 6]]
'''

1.5 배열의 크기 확인 (shape)

print(arr2d.shape)  # (2, 3) -> 2행 3열

1.6 배열 연산

NumPy는 벡터 연산을 지원하여 리스트보다 훨씬 빠르게 연산할 수 있습니다.

arr = np.array([1, 2, 3])
print(arr + 10)  # [11 12 13]
print(arr * 2)   # [ 2  4  6]

2. Pandas란?

2.1 Pandas 소개

**Pandas(판다스)**는 데이터 분석을 위한 라이브러리입니다.

엑셀과 유사한 데이터 처리
표 형태의 데이터(DataFrame) 지원
누락된 데이터 처리 기능

2.2 Pandas 설치

pip install pandas

2.3 데이터프레임(DataFrame) 생성

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['Seoul', 'Busan', 'Incheon']}

df = pd.DataFrame(data)
print(df)

출력:

     Name  Age    City
0   Alice   25   Seoul
1     Bob   30   Busan
2  Charlie   35  Incheon

2.4 CSV 파일 불러오기

df = pd.read_csv("data.csv")
print(df.head())  # 상위 5개 데이터 출력

2.5 데이터 선택하기

print(df['Name'])  # 특정 열 선택
print(df.iloc[0])  # 첫 번째 행 선택

2.6 결측값 처리 (fillna())

df.fillna(0, inplace=True)  # NaN 값을 0으로 채우기

3. NumPy & Pandas 실전 활용

3.1 NumPy로 평균과 표준편차 구하기

arr = np.array([10, 20, 30, 40, 50])
print("평균:", np.mean(arr))  # 30.0
print("표준편차:", np.std(arr))  # 14.14

3.2 Pandas 데이터 분석

print(df.describe())  # 데이터 요약 정보
print(df['Age'].mean())  # 나이 평균

4. 결론

✅ NumPy: 빠른 배열 연산, 다차원 데이터 처리
✅ Pandas: 엑셀 스타일의 데이터 관리, CSV 파일 분석
✅ 함께 사용하면 강력한 데이터 분석 도구

다음 글에서는 Matplotlib을 활용한 데이터 시각화에 대해 알아보겠습니다! 🚀

저작자표시 비영리 동일조건 (새창열림)

'BIG DATA > PYTHON' 카테고리의 다른 글

[PYTHON] 파이썬을 활용한 웹 크롤링(Web Crawling) 기초 (0)	2025.02.22
[PYTHON] 파이썬 데이터 시각화: Matplotlib과 Seaborn 기초 (0)	2025.02.22
[PYTHON] 파이썬 모듈과 패키지 완벽 정리 (0)	2025.02.22
[PYTHON] 파이썬 객체 지향 프로그래밍(OOP) 완벽 정리 (0)	2025.02.22
[PYTHON] 파이썬 기초: 파일 입출력과 예외 처리 완벽 정리 (0)	2025.02.21

Learn Everything

[PYTHON] 데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

1. NumPy란?

1.1 NumPy 소개

1.2 NumPy 설치

1.3 NumPy 배열 생성 (np.array())

1.4 다차원 배열 생성

1.5 배열의 크기 확인 (shape)

1.6 배열 연산

2. Pandas란?

2.1 Pandas 소개

2.2 Pandas 설치

2.3 데이터프레임(DataFrame) 생성

2.4 CSV 파일 불러오기

2.5 데이터 선택하기

2.6 결측값 처리 (fillna())

3. NumPy & Pandas 실전 활용

3.1 NumPy로 평균과 표준편차 구하기

3.2 Pandas 데이터 분석

4. 결론

'BIG DATA > PYTHON' 카테고리의 다른 글

티스토리툴바

[PYTHON] 데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

데이터 분석을 위한 파이썬 라이브러리: NumPy와 Pandas 기초

1. NumPy란?

1.1 NumPy 소개

1.2 NumPy 설치

1.3 NumPy 배열 생성 (np.array())

1.4 다차원 배열 생성

1.5 배열의 크기 확인 (shape)

1.6 배열 연산

2. Pandas란?

2.1 Pandas 소개

2.2 Pandas 설치

2.3 데이터프레임(DataFrame) 생성

2.4 CSV 파일 불러오기

2.5 데이터 선택하기

2.6 결측값 처리 (fillna())

3. NumPy & Pandas 실전 활용

3.1 NumPy로 평균과 표준편차 구하기

3.2 Pandas 데이터 분석

4. 결론

'BIG DATA > PYTHON' 카테고리의 다른 글

관련글

티스토리툴바