Mo!
(Python) 데이터프레임 살펴보기 본문
Python

(Python) 데이터프레임 살펴보기

5사 2022. 2. 24.

df.head()

- 데이터프레임의 맨 앞에 있는 N개의 행을 반환한다.

- 기본 값 5행

- 괄호안에 숫자를 넣어 몇 개를 가지고 올지 정해줄 수 있다. ex) head(3)

- df.tail()은 head()와 반대로 맨 마지막에 있는 N개의 행을 반환한다.

 

df.shape

- 데이터프레임의 행과 열의 크기를 튜플 형태로 반환한다.

- 반환 형태 : (행 개수, 열 개수)

 

df.info

- 총 데이터 건수와 데이터 타입, 컬럼별 NULL 건수를 알 수 있다.

 

ex) 타이타닉호 탑승자 데이터프레임 살펴보기

titanic.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

- 행의 개수 891개, 열 개수 12개

- 컬럼별로 null값이 아닌 데이터의 개수와 데이터 타입을 나타내고 있다.

- Age, Cabin, Embarked의 경우 총 행의 개수인 891이 아닌 다른 숫자를 나타내고 있는데, 이는 null값인 데이터를 제외했기 때문이다. 이를 통해 null값을 가지고 있는 컬럼들이 무엇이 있는지를 알 수 있다.

 

 

df.describe()

- 컬럼별 숫자형 데이터 값의 n-percentile분포도, 평균값, 최대/최솟값을 나타낸다.

- int, float등의 숫자형 데이터인 칼럼의 분포도만 조사하며, 자동으로 object타입은 출력에서 제외한다.

- 숫자형 칼럼에 대한 대략적인 데이터 분포를 확인할 때 사용한다.

 

titanic.describe()

- count : Not Null인 데이터 건수

- mean : 데이터의 평균값

- std : 표준편차

- min/max : 최소값/최대값

- 25% : 25 percentile 값

- 50% : 50 percentile 값

- 75% : 75 percentile 값

 

- describe()를 통해 컬럼 파악하기 : Survived 칼럼은 0과 1로 이루어진 칼럼일 것이다. Pclass는 1, 2, 3으로 이루어진 칼럼일 것이다.

 

 

Series.value_counts()

- 해당 컬럼의 데이터 타입 유형과 건수를 확인할 수 있다.

- 데이터의 분포도를 확인할 때 유용하다.

 

titanic['Pclass'].value_counts()
3    491
1    216
2    184
Name: Pclass, dtype: int64

- 데이터 값이 1인 것이 216개, 2인 것이 184개, 3인 것이 491개임을 나타낸다.

- 건수가 많은 순서로 정렬되어 나타난다.

 

 

Comments