일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- string 모듈
- 코딩테스트
- hackerrank
- 코테
- BM25
- Oracle
- 해커랭크
- TF-IDF
- 자료구조
- streamlit
- ML
- 판다스
- Relation Extraction
- 프로그래머스
- 파이썬
- 코딩
- 컴파일언어
- python
- 구름톤
- 컴파일러
- sql
- NumPy
- 해시
- 프로그래밍
- 인터프리터언어
- xla
- Compiler
- pandas
- 오라클
- 해시테이블
- Today
- Total
df.head()
- 데이터프레임의 맨 앞에 있는 N개의 행을 반환한다.
- 기본 값 5행
- 괄호안에 숫자를 넣어 몇 개를 가지고 올지 정해줄 수 있다. ex) head(3)
- df.tail()은 head()와 반대로 맨 마지막에 있는 N개의 행을 반환한다.
df.shape
- 데이터프레임의 행과 열의 크기를 튜플 형태로 반환한다.
- 반환 형태 : (행 개수, 열 개수)
df.info
- 총 데이터 건수와 데이터 타입, 컬럼별 NULL 건수를 알 수 있다.
ex) 타이타닉호 탑승자 데이터프레임 살펴보기
titanic.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 714 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
- 행의 개수 891개, 열 개수 12개
- 컬럼별로 null값이 아닌 데이터의 개수와 데이터 타입을 나타내고 있다.
- Age, Cabin, Embarked의 경우 총 행의 개수인 891이 아닌 다른 숫자를 나타내고 있는데, 이는 null값인 데이터를 제외했기 때문이다. 이를 통해 null값을 가지고 있는 컬럼들이 무엇이 있는지를 알 수 있다.
df.describe()
- 컬럼별 숫자형 데이터 값의 n-percentile분포도, 평균값, 최대/최솟값을 나타낸다.
- int, float등의 숫자형 데이터인 칼럼의 분포도만 조사하며, 자동으로 object타입은 출력에서 제외한다.
- 숫자형 칼럼에 대한 대략적인 데이터 분포를 확인할 때 사용한다.
titanic.describe()
- count : Not Null인 데이터 건수
- mean : 데이터의 평균값
- std : 표준편차
- min/max : 최소값/최대값
- 25% : 25 percentile 값
- 50% : 50 percentile 값
- 75% : 75 percentile 값
- describe()를 통해 컬럼 파악하기 : Survived 칼럼은 0과 1로 이루어진 칼럼일 것이다. Pclass는 1, 2, 3으로 이루어진 칼럼일 것이다.
Series.value_counts()
- 해당 컬럼의 데이터 타입 유형과 건수를 확인할 수 있다.
- 데이터의 분포도를 확인할 때 유용하다.
titanic['Pclass'].value_counts()
3 491
1 216
2 184
Name: Pclass, dtype: int64
- 데이터 값이 1인 것이 216개, 2인 것이 184개, 3인 것이 491개임을 나타낸다.
- 건수가 많은 순서로 정렬되어 나타난다.
'Python' 카테고리의 다른 글
(Python) 원핫 인코딩 pd.get_dummies로 하기 (0) | 2022.06.15 |
---|---|
(Python) 리스트 순서 뒤집기 - [::-1], reverse(), reversed() (0) | 2022.04.14 |
(Python) np.arange(), np.zeros(), np.ones() (0) | 2022.02.24 |
(Python) 데이터프레임에서 특정 열을 제외하고 선택하기 (0) | 2022.02.22 |
(Python) while문 개념 (3) - 중첩 while문 [구구단 출력하기] (0) | 2021.12.13 |