문서:NumPy

분류

NumPy 넘파이
파일:external/www.numpy.org/numpy_logo.png
버전	1.19.0 2020년 9월 20일 업데이트
웹사이트	공식 홈페이지

Python이 대규모 수학 연산을 필요로 하는 경우 느려서 못써먹겠다고?
차라리 좀 프로그램 짜는게 힘들어도 속도 때문에 그냥 C언어로 짜겠다고?

그러지 마. NumPy가 있으니까!

1. 개요2. 다른 Python 패키지와의 관계3. 라이브러리에 포함된 함수

1. 개요

Numarray와 Numeric이라는 오래된 Python 패키지를 계승해서 나온 수학 및 과학 연산을 위한 파이썬 패키지이다. Py는 파이썬을 나타내기 때문에, 일반적으로 넘파이라고 읽는다.

프로그래밍 하기 어려운 C, C++, Fortran [1] 등의 언어에 비하면, NumPy로는 꽤나 편리하게 수치해석을 실행할 수 있다. 게다가 Numpy 내부는 상당부분 C나 포트란으로 작성되어 실행 속도도 꽤 빠른편이다. 기본적으로 array라는 자료를 생성하고 이를 바탕으로 색인, 처리, 연산 등을 하는 기능을 수행한다. 물론 넘파이 자체만으로도 난수생성, 푸리에변환, 행렬연산, 간단한 기술통계 분석 정도는 가능하지만 실제로는 Scipy, Pandas, matplotlib 등 다른 Python 패키지와 함께 쓰이는 경우가 많다.

파이썬으로 수치해석, 통계 관련 기능을 구현한다고 할 때 Numpy는 가장 기본이 되는 모듈이다. 그만큼 Numpy는 수치해석, 통계 관련 작업시 중요한 역할을 하므로, 파이썬으로 관련 분야에 도전하고자 한다면 반드시 이에 대한 기초를 잘 쌓아두고 가자.

하도 기본적으로 쓰이는 모듈이다 보니 Numpy를 보통 np로 호출하는 것이 관례가 되었다. Ex) import numpy as np

2. 다른 Python 패키지와의 관계

Scipy

Numpy와 Scipy는 서로 떨어질 수 없을 정도로 밀접한 관계에 있으며 Scipy를 활용할 때에는 상당히 많이 Numpy를 이용하게 된다. 실제로 Scipy에 관한 책을 구매했을 때 책의 앞부분은 Scipy 관련 내용보다는 오히려 Numpy의 기초에 대한 내용 위주로 보게 되는 경우가 많다.

Scipy는 수치해석을 Numpy를 이용하여 보다 본격적으로 이용할 수 있게 해 준다. 사실 대학 학부 수준의 수치해석 교재에 있는 여러 수치 미분법이나 수치 적분법, 수치미분방정식 해법(룽게-쿠타 방법 등)을 구현하는 데에는 전적으로 Python 기본 메서드와 Numpy 만으로 충분하다. 그렇지만 Scipy를 이용하면 Numpy만으로는 길게 코딩해야 하는 기법들을 단 2~3 줄에 구현할 수 있다. 게다가 Numpy로 구현하기 막막하거나 사실상 불가능한 것들도 Scipy로는 쉽게 결과를 얻을 수 있다. 따라서 Numpy와 Scipy를 적절하게 혼용하게 되면 MATLAB 부럽지 않은 수치해석 툴을 얻은 셈이 된다.

Sympy

Python의 대표적인 기호계산 패키지인 Sympy도 Numpy와 잘 연동된다. 예컨대 Numpy 만으로 구현하기 까다로운 함수의 경우, Sympy로 원하는 함수를 구하고, 이 함수를 바탕으로 Numpy를 이용하여 그 함수를 기반으로 배열형 자료를 구할 수 있다. 어떤 sympy 함수를 일단 구하기만 하면, f = sympy.lambdify(정의역 문자, sympy 함수, 'numpy') 꼴의 간단한 코딩만으로 Numpy에 적용가능한 함수 f를 얻을 수 있다. 여기에서 f(np.linspace(0,1, 101)) 를 입력하면 함수에 대해 0에서 1까지 100등분한 정의역 점들에 대한 함숫값들의 배열을 얻는다. 간혹 Numpy 자체나 Scipy 만으로 구하기 어려운 함수도 Sympy로는 간결하게 구할 수 있는 경우도 많으므로 Numpy와 Sympy를 같이 배워두면 여러모로 쓸모가 많다.

Matplotlib

파이썬에서 널리 사용되는 그래픽 패키지인 Matplotlib에서도 Numpy는 자주 애용된다. 물론 파이썬에 기본적으로 내장된 리스트형 자료로도 충분히 수많은 종류의 데이터를 그래프화할 수 있다. 그러나 아무래도 Numpy를 쓸 때보다는 코드가 굉장히 복잡해지고, 그래프를 얻는 속도도 느리다. 실제로 인터넷 상의 Matplotlib 튜토리얼이나 예제들을 봐도 다들 Numpy의 ndarray 자료형을 쓰지 리스트형은 잘 쓰지 않는다. 당연하지만 Matplotlib 를 기반으로 좀 더 유려한 그래프와 도표를 얻는 seaborn 과 같은 패키지에도 굉장히 유용하게 쓰인다.

Pandas

Pandas는 Numpy보다 더 복잡한 형태의 자료(Series, DataFrame)를 다루지만, Numpy를 이용해 만든 array 자료를 이용해서 Series나 DataFrame 자료를 생성하거나 수정할 수 있다.

실제로는 'Numpy + 다른 한개의 패키지' 조합뿐만 아니라 'Numpy + 여러개의 패키지' 조합을 쓸 때가 많다. 예컨대 Sympy 로 함수의 라플라스 변환 을 구하고, Numpy를 이용해서 변환한 함수의 값들에 대한 배열형 자료를 얻고, 이 배열형 자료를 바탕으로 Matplotlib을 써서 그래프를 그릴 수 있다.

3. 라이브러리에 포함된 함수

.zeros(int) : int 개수만큼의 0으로 이루어진 array를 만들어 준다. Np.zeros(10)은 (10,) 형태의 0으로 이루어진 벡터를 생성한다. 만약 특정한 형상으로 만들길 원한다면 뒤에 .reshape(x,y..)를 더하면 된다.

.arange(): 흔히 쓰이는 range 함수와 유사하다. 범위와 간격 설정이 가능. 원하는 범위의 어레이를 만들 수 있다. 형태와 차원을 원하는 대로 설정하고 싶으면 .reshape()를 쓰자.

.shape : 어떤 어레이 뒤에 이걸 붙이면 그 어레이의 형상을 출력한다.

.size : 차원 정보는 없이 원소의 개수만을 출력한다.

.argmax() 입력 값으로 들어온 매트릭스의 각 행/열별 최댓값의 인덱스를 산출한다. Axis = 를 추가하면 열별(0) 혹은 행별(1) 최댓값 위치를 알 수 있다. 비슷하게 .argmin() 도 존재한다.

.T : 백터의 전치(transpose)를 수행한다. 단 1차원 어레이는 상황에 따라 행백터 혹은 열백터로 바뀌므로 굳이 T를 붙일 이유는 없다.

.linspace(시작값, 종료값, 간격 수) : 시작값과 종료값 사이에 일정한 간격으로 간격 수 만큼의 사이즈의 array을 생성해준다. 예를 들어 어떤 미분방정식을 t = 0 에서 t = 20 으로 60fps씩 풀고 싶다면,
timespan = np.linspace(0, 20, 1200) 하면 생성할 수 있다. 그 다음 scipy.integrate.odeint 같은거에다가 해당 array와 미분방정식을 집어넣으면, 수치해석을 이용하여 각 지점마다 해당하는 값을 반환한다.

.unique : 해당 어레이에 어떤 값들이 있는지 알려준다. 예를 들어 np.unique([1, 2, 2, 3, 5, 5])라면, output으로는 [1, 2, 3, 5] 가 출력된다.

.reshape : ndarray를 원하는 차원/사이즈로 변경해준다. 예를 들자면, 딥 러닝에서 CNN (Convolutional Neural Network) 는 보통 배치 사이즈 * 가로 * 세로 * 색깔 수로 4D array 구조인데, 이를 나중에 evaluation 등에서 활용하기 위해 .flatten이나 .reshape하여 1차원 array로 펼칠 수 있다.

.sin, cos, tan : 삼각함수다. 입력값으로 라디안을 사용하니 주의하도록.

np.sort : array를 입력한 축에 따라 정렬해 준다. 선택으로 정렬 방식을 직접 지정할 수 있다.

[1] 포트란의 속도논란 항목을 참조하라.