본문 바로가기
Programming/python

[Python] Pandas 데이터 확인 개념정리

by 그렉그의 2023. 3. 23.

5. 데이터 확인

In [5]:
 
 
 
import pandas as pd
df= pd.read_excel("score.xlsx", index_col="지원번호")
df
Out[5]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번
채치수 북산고 197 90 85 100 95 85 Python
정대만 북산고 184 40 35 50 55 25 Java
송태섭 북산고 168 80 75 70 80 75 Javascript
서태웅 북산고 187 40 60 70 75 80 NaN
강백호 북산고 188 15 20 10 35 10 NaN
변덕규 능남고 202 80 100 95 85 80 C
황태산 능남고 188 55 65 45 40 35 PYTHON
윤대협 능남고 190 100 85 90 95 95 C#

DataFrame 확인

계산 가능한 데이터에 대해 Column 별로 데이터의 갯수, 평균, 표준편차, 최소/최댓값 등의 정보를 보여줌

In [6]:
 
 
 
df.describe()
Out[6]:
키국어영어수학과학사회countmeanstdmin25%50%75%max
8.000000 8.000000 8.000000 8.000000 8.000000 8.000000
188.000000 62.500000 65.625000 66.250000 70.000000 60.625000
9.985704 29.519969 26.917533 30.325614 23.754699 32.120032
168.000000 15.000000 20.000000 10.000000 35.000000 10.000000
186.250000 40.000000 53.750000 48.750000 51.250000 32.500000
188.000000 67.500000 70.000000 70.000000 77.500000 77.500000
191.750000 82.500000 85.000000 91.250000 87.500000 81.250000
202.000000 100.000000 100.000000 100.000000 95.000000 95.000000
In [7]:
 
 
 
df.info()
<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1번 to 8번
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      8 non-null      object
 1   학교      8 non-null      object
 2   키       8 non-null      int64 
 3   국어      8 non-null      int64 
 4   영어      8 non-null      int64 
 5   수학      8 non-null      int64 
 6   과학      8 non-null      int64 
 7   사회      8 non-null      int64 
 8   SW특기    6 non-null      object
dtypes: int64(6), object(3)
memory usage: 640.0+ bytes
In [8]:
 
 
 
df.head() # 처음 5개의 row 가져옴
Out[8]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번
채치수 북산고 197 90 85 100 95 85 Python
정대만 북산고 184 40 35 50 55 25 Java
송태섭 북산고 168 80 75 70 80 75 Javascript
서태웅 북산고 187 40 60 70 75 80 NaN
강백호 북산고 188 15 20 10 35 10 NaN

 

In [9]:
df.head(7) #처음 7개의 row를 가져옴
Out[9]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번
채치수 북산고 197 90 85 100 95 85 Python
정대만 북산고 184 40 35 50 55 25 Java
송태섭 북산고 168 80 75 70 80 75 Javascript
서태웅 북산고 187 40 60 70 75 80 NaN
강백호 북산고 188 15 20 10 35 10 NaN
변덕규 능남고 202 80 100 95 85 80 C
황태산 능남고 188 55 65 45 40 35 PYTHON
In [10]:
 
 
 
df.tail()
Out[10]:
이름학교키국어영어수학과학사회SW특기지원번호4번5번6번7번8번
서태웅 북산고 187 40 60 70 75 80 NaN
강백호 북산고 188 15 20 10 35 10 NaN
변덕규 능남고 202 80 100 95 85 80 C
황태산 능남고 188 55 65 45 40 35 PYTHON
윤대협 능남고 190 100 85 90 95 95 C#
In [11]:
 
 
 
df.tail(3)
Out[11]:
이름학교키국어영어수학과학사회SW특기지원번호6번7번8번
변덕규 능남고 202 80 100 95 85 80 C
황태산 능남고 188 55 65 45 40 35 PYTHON
윤대협 능남고 190 100 85 90 95 95 C#
In [12]:
 
 
 
df.values
#값을 한눈에 볼 수 있도록 해 줌
Out[12]:
array([['채치수', '북산고', 197, 90, 85, 100, 95, 85, 'Python'],
       ['정대만', '북산고', 184, 40, 35, 50, 55, 25, 'Java'],
       ['송태섭', '북산고', 168, 80, 75, 70, 80, 75, 'Javascript'],
       ['서태웅', '북산고', 187, 40, 60, 70, 75, 80, nan],
       ['강백호', '북산고', 188, 15, 20, 10, 35, 10, nan],
       ['변덕규', '능남고', 202, 80, 100, 95, 85, 80, 'C'],
       ['황태산', '능남고', 188, 55, 65, 45, 40, 35, 'PYTHON'],
       ['윤대협', '능남고', 190, 100, 85, 90, 95, 95, 'C#']], dtype=object)
In [13]:
 
 
 
df.index
Out[13]:
Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object', name='지원번호')
In [14]:
 
 
 
df.columns
Out[14]:
Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')
In [15]:
 
 
 
df.shape
Out[15]:
(8, 9)
In [16]:
 
 
 
df
Out[16]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번
채치수 북산고 197 90 85 100 95 85 Python
정대만 북산고 184 40 35 50 55 25 Java
송태섭 북산고 168 80 75 70 80 75 Javascript
서태웅 북산고 187 40 60 70 75 80 NaN
강백호 북산고 188 15 20 10 35 10 NaN
변덕규 능남고 202 80 100 95 85 80 C
황태산 능남고 188 55 65 45 40 35 PYTHON
윤대협 능남고 190 100 85 90 95 95 C#

Series 확인하기

In [17]:
 
 
 
df["키"].describe()
Out[17]:
count      8.000000
mean     188.000000
std        9.985704
min      168.000000
25%      186.250000
50%      188.000000
75%      191.750000
max      202.000000
Name: 키, dtype: float64
In [18]:
 
 
 
df["키"].min()
Out[18]:
168
In [20]:
 
 
 
df["키"].nlargest(3)
Out[20]:
지원번호
6번    202
1번    197
8번    190
Name: 키, dtype: int64
In [21]:
 
 
 
df["키"].mean()
Out[21]:
188.0
In [22]:
 
 
 
df["키"].sum()
Out[22]:
1504
In [24]:
 
 
 
df["SW특기"].count()
Out[24]:
6
In [25]:
 
 
 
df["학교"].unique()
Out[25]:
array(['북산고', '능남고'], dtype=object)
In [26]:
 
df["학교"].nunique()
Out[26]:
2

 

'Programming > python' 카테고리의 다른 글

[matplotlib] 여러 데이터  (0) 2023.03.27
[matplotlib] 텍스트 넣기  (0) 2023.03.27
[Python] Pandas 파일 저장 개념정리  (0) 2023.03.23
[Python] Pandas Index 개념정리  (0) 2023.03.23
[Python] Pandas DataFrame 개념정리  (0) 2023.03.23