5. 데이터 확인
In [5]:
import pandas as pd
df= pd.read_excel("score.xlsx", index_col="지원번호")
df
Out[5]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번
채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | NaN |
강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | NaN |
변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
DataFrame 확인
계산 가능한 데이터에 대해 Column 별로 데이터의 갯수, 평균, 표준편차, 최소/최댓값 등의 정보를 보여줌
In [6]:
df.describe()
Out[6]:
키국어영어수학과학사회countmeanstdmin25%50%75%max
8.000000 | 8.000000 | 8.000000 | 8.000000 | 8.000000 | 8.000000 |
188.000000 | 62.500000 | 65.625000 | 66.250000 | 70.000000 | 60.625000 |
9.985704 | 29.519969 | 26.917533 | 30.325614 | 23.754699 | 32.120032 |
168.000000 | 15.000000 | 20.000000 | 10.000000 | 35.000000 | 10.000000 |
186.250000 | 40.000000 | 53.750000 | 48.750000 | 51.250000 | 32.500000 |
188.000000 | 67.500000 | 70.000000 | 70.000000 | 77.500000 | 77.500000 |
191.750000 | 82.500000 | 85.000000 | 91.250000 | 87.500000 | 81.250000 |
202.000000 | 100.000000 | 100.000000 | 100.000000 | 95.000000 | 95.000000 |
In [7]:
df.info()
<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1번 to 8번
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 이름 8 non-null object
1 학교 8 non-null object
2 키 8 non-null int64
3 국어 8 non-null int64
4 영어 8 non-null int64
5 수학 8 non-null int64
6 과학 8 non-null int64
7 사회 8 non-null int64
8 SW특기 6 non-null object
dtypes: int64(6), object(3)
memory usage: 640.0+ bytes
In [8]:
df.head() # 처음 5개의 row 가져옴
Out[8]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번
채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | NaN |
강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | NaN |
In [9]:
df.head(7) #처음 7개의 row를 가져옴
Out[9]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번
채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | NaN |
강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | NaN |
변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
In [10]:
df.tail()
Out[10]:
이름학교키국어영어수학과학사회SW특기지원번호4번5번6번7번8번
서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | NaN |
강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | NaN |
변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
In [11]:
df.tail(3)
Out[11]:
이름학교키국어영어수학과학사회SW특기지원번호6번7번8번
변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
In [12]:
df.values
#값을 한눈에 볼 수 있도록 해 줌
Out[12]:
array([['채치수', '북산고', 197, 90, 85, 100, 95, 85, 'Python'],
['정대만', '북산고', 184, 40, 35, 50, 55, 25, 'Java'],
['송태섭', '북산고', 168, 80, 75, 70, 80, 75, 'Javascript'],
['서태웅', '북산고', 187, 40, 60, 70, 75, 80, nan],
['강백호', '북산고', 188, 15, 20, 10, 35, 10, nan],
['변덕규', '능남고', 202, 80, 100, 95, 85, 80, 'C'],
['황태산', '능남고', 188, 55, 65, 45, 40, 35, 'PYTHON'],
['윤대협', '능남고', 190, 100, 85, 90, 95, 95, 'C#']], dtype=object)
In [13]:
df.index
Out[13]:
Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object', name='지원번호')
In [14]:
df.columns
Out[14]:
Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')
In [15]:
df.shape
Out[15]:
(8, 9)
In [16]:
df
Out[16]:
이름학교키국어영어수학과학사회SW특기지원번호1번2번3번4번5번6번7번8번
채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | NaN |
강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | NaN |
변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
Series 확인하기
In [17]:
df["키"].describe()
Out[17]:
count 8.000000
mean 188.000000
std 9.985704
min 168.000000
25% 186.250000
50% 188.000000
75% 191.750000
max 202.000000
Name: 키, dtype: float64
In [18]:
df["키"].min()
Out[18]:
168
In [20]:
df["키"].nlargest(3)
Out[20]:
지원번호
6번 202
1번 197
8번 190
Name: 키, dtype: int64
In [21]:
df["키"].mean()
Out[21]:
188.0
In [22]:
df["키"].sum()
Out[22]:
1504
In [24]:
df["SW특기"].count()
Out[24]:
6
In [25]:
df["학교"].unique()
Out[25]:
array(['북산고', '능남고'], dtype=object)
In [26]:
df["학교"].nunique()
Out[26]:
2
'Programming > python' 카테고리의 다른 글
[matplotlib] 여러 데이터 (0) | 2023.03.27 |
---|---|
[matplotlib] 텍스트 넣기 (0) | 2023.03.27 |
[Python] Pandas 파일 저장 개념정리 (0) | 2023.03.23 |
[Python] Pandas Index 개념정리 (0) | 2023.03.23 |
[Python] Pandas DataFrame 개념정리 (0) | 2023.03.23 |