-
Notifications
You must be signed in to change notification settings - Fork 1
/
EDA.py
67 lines (48 loc) · 1.67 KB
/
EDA.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
import pandas as pd
import pickle
import os
from load_data import *
with open('/opt/ml/input/data/label_type.pkl', 'rb') as f:
label_type = pickle.load(f)
train_dir = "/opt/ml/input/data/train/train.tsv"
train_pd = pd.read_csv(train_dir, delimiter='\t', header=None)
test_dir = "/opt/ml/input/data/test/test.tsv"
test_pd = pd.read_csv(test_dir, delimiter='\t', header=None)
more_dir = "/opt/ml/input/data/train/more.tsv"
more_pd = pd.read_csv(more_dir, delimiter='\t', header=None)
all_dir = "/opt/ml/input/data/train/all.tsv"
# all_dir = "/opt/ml/input/data/my/my_test3.tsv"
# all_pd = pd.read_csv(all_dir, delimiter='\t', header=None, error_bad_lines=False)
all_pd = pd.read_csv(all_dir, delimiter='\t', header=None)
# train, test 데이터 레이블 개수 체크
print(train_pd[8].value_counts())
print(train_pd.shape)
print(train_pd[8].shape[0])
print()
# print(test_pd[8].value_counts())
# -> train 데이터 불균형 심함, test 는 모두 blind 처리
# more 데이터 레이블 개수 체크
print(more_pd[8].value_counts())
print(more_pd.shape)
print(more_pd[8].shape[0])
print()
# all 데이터 레이블 개수 체크
print(all_pd[8].value_counts())
print(all_pd.shape)
print(all_pd[8].shape[0])
print()
# more 각종 유니크 확인
# print(more_pd[1].unique().shape)
# print()
# 레이블 대분류 체크
# train_label = train_pd[8].value_counts().tolist()
# print(train_label)
# 955번째 행의 피쳐들 보기
# print(train_pd.iloc[955])
# print()
# submission 분석
# result_dir = "/opt/ml/code/prediction/submission1.csv"
# result_pd = pd.read_csv(result_dir, delimiter='\t', header=None)
# print(result_pd[0].value_counts())
# print(result_pd.info())
# print()