5. 데이터 확인

In [5]:

import pandas as pd

df= pd.read_excel("score.xlsx", index_col="지원번호")

df

Out[5]:

이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번

채치수	북산고	197	90	85	100	95	85	Python
정대만	북산고	184	40	35	50	55	25	Java
송태섭	북산고	168	80	75	70	80	75	Javascript
서태웅	북산고	187	40	60	70	75	80	NaN
강백호	북산고	188	15	20	10	35	10	NaN
변덕규	능남고	202	80	100	95	85	80	C
황태산	능남고	188	55	65	45	40	35	PYTHON
윤대협	능남고	190	100	85	90	95	95	C#

DataFrame 확인

계산 가능한 데이터에 대해 Column 별로 데이터의 갯수, 평균, 표준편차, 최소/최댓값 등의 정보를 보여줌

In [6]:

df.describe()

Out[6]:

키국어영어수학과학사회countmeanstdmin25%50%75%max

8.000000	8.000000	8.000000	8.000000	8.000000	8.000000
188.000000	62.500000	65.625000	66.250000	70.000000	60.625000
9.985704	29.519969	26.917533	30.325614	23.754699	32.120032
168.000000	15.000000	20.000000	10.000000	35.000000	10.000000
186.250000	40.000000	53.750000	48.750000	51.250000	32.500000
188.000000	67.500000	70.000000	70.000000	77.500000	77.500000
191.750000	82.500000	85.000000	91.250000	87.500000	81.250000
202.000000	100.000000	100.000000	100.000000	95.000000	95.000000

In [7]:

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1번 to 8번
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      8 non-null      object
 1   학교      8 non-null      object
 2   키       8 non-null      int64 
 3   국어      8 non-null      int64 
 4   영어      8 non-null      int64 
 5   수학      8 non-null      int64 
 6   과학      8 non-null      int64 
 7   사회      8 non-null      int64 
 8   SW특기    6 non-null      object
dtypes: int64(6), object(3)
memory usage: 640.0+ bytes

In [8]:

df.head() # 처음 5개의 row 가져옴

Out[8]:

이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번

채치수	북산고	197	90	85	100	95	85	Python
정대만	북산고	184	40	35	50	55	25	Java
송태섭	북산고	168	80	75	70	80	75	Javascript
서태웅	북산고	187	40	60	70	75	80	NaN
강백호	북산고	188	15	20	10	35	10	NaN

In [9]:

df.head(7) #처음 7개의 row를 가져옴

Out[9]:

이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번

채치수	북산고	197	90	85	100	95	85	Python
정대만	북산고	184	40	35	50	55	25	Java
송태섭	북산고	168	80	75	70	80	75	Javascript
서태웅	북산고	187	40	60	70	75	80	NaN
강백호	북산고	188	15	20	10	35	10	NaN
변덕규	능남고	202	80	100	95	85	80	C
황태산	능남고	188	55	65	45	40	35	PYTHON

In [10]:

df.tail()

Out[10]:

이름학교키국어영어수학과학사회SW특기지원번호4번5번6번7번8번

서태웅	북산고	187	40	60	70	75	80	NaN
강백호	북산고	188	15	20	10	35	10	NaN
변덕규	능남고	202	80	100	95	85	80	C
황태산	능남고	188	55	65	45	40	35	PYTHON
윤대협	능남고	190	100	85	90	95	95	C#

In [11]:

df.tail(3)

Out[11]:

이름학교키국어영어수학과학사회SW특기지원번호6번7번8번

변덕규	능남고	202	80	100	95	85	80	C
황태산	능남고	188	55	65	45	40	35	PYTHON
윤대협	능남고	190	100	85	90	95	95	C#

In [12]:

df.values

#값을 한눈에 볼 수 있도록 해 줌

Out[12]:

array([['채치수', '북산고', 197, 90, 85, 100, 95, 85, 'Python'],
       ['정대만', '북산고', 184, 40, 35, 50, 55, 25, 'Java'],
       ['송태섭', '북산고', 168, 80, 75, 70, 80, 75, 'Javascript'],
       ['서태웅', '북산고', 187, 40, 60, 70, 75, 80, nan],
       ['강백호', '북산고', 188, 15, 20, 10, 35, 10, nan],
       ['변덕규', '능남고', 202, 80, 100, 95, 85, 80, 'C'],
       ['황태산', '능남고', 188, 55, 65, 45, 40, 35, 'PYTHON'],
       ['윤대협', '능남고', 190, 100, 85, 90, 95, 95, 'C#']], dtype=object)

In [13]:

df.index

Out[13]:

Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object', name='지원번호')

In [14]:

df.columns

Out[14]:

Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')

In [15]:

df.shape

Out[15]:

(8, 9)

In [16]:

df

Out[16]:

이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번

채치수	북산고	197	90	85	100	95	85	Python
정대만	북산고	184	40	35	50	55	25	Java
송태섭	북산고	168	80	75	70	80	75	Javascript
서태웅	북산고	187	40	60	70	75	80	NaN
강백호	북산고	188	15	20	10	35	10	NaN
변덕규	능남고	202	80	100	95	85	80	C
황태산	능남고	188	55	65	45	40	35	PYTHON
윤대협	능남고	190	100	85	90	95	95	C#

Series 확인하기

In [17]:

df["키"].describe()

Out[17]:

count      8.000000
mean     188.000000
std        9.985704
min      168.000000
25%      186.250000
50%      188.000000
75%      191.750000
max      202.000000
Name: 키, dtype: float64

In [18]:

df["키"].min()

Out[18]:

In [20]:

df["키"].nlargest(3)

Out[20]:

지원번호
6번    202
1번    197
8번    190
Name: 키, dtype: int64

In [21]:

df["키"].mean()

Out[21]:

188.0

In [22]:

df["키"].sum()

Out[22]:

In [24]:

df["SW특기"].count()

Out[24]:

In [25]:

df["학교"].unique()

Out[25]:

array(['북산고', '능남고'], dtype=object)

In [26]:

df["학교"].nunique()

Out[26]:

'Programming > python' 카테고리의 다른 글

[matplotlib] 여러 데이터 (0)	2023.03.27
[matplotlib] 텍스트 넣기 (0)	2023.03.27
[Python] Pandas 파일 저장 개념정리 (0)	2023.03.23
[Python] Pandas Index 개념정리 (0)	2023.03.23
[Python] Pandas DataFrame 개념정리 (0)	2023.03.23

그렉

[Python] Pandas 데이터 확인 개념정리

5. 데이터 확인

DataFrame 확인

Series 확인하기

'Programming > python' 카테고리의 다른 글

티스토리툴바

[Python] Pandas 데이터 확인 개념정리

5. 데이터 확인

DataFrame 확인

Series 확인하기

'Programming > python' 카테고리의 다른 글

관련글

티스토리툴바