데이터 3

[Code Solution] 파일을 데이터프레임 형태로 읽기

파일을 데이터프레임 형태로 읽기 pandas 라이브러리에서 제공하는 여러 가지 함수를 사용하여 다양한 형태의 파일들을 데이터프레임 형태로 읽어보겠습니다. pandas 라이브러리는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수들을 제공하고 있습니다. csv, json, html, excel 등 어떠한 형태의 파일이든 데이터프레임의 형태로 저장하고 나면, pandas 라이브러리의 다양한 함수들을 손쉽게 적용할 수 있습니다. 아래의 표는 pandas 라이브러리에서 제공하고 있는 다양한 형태의 파일을 읽는 함수들을 요약한 것입니다. 일반적으로 아래의 함수 안에 파일의 경로를 입력해주면 손쉽게 데이터프레임의 형태로 파일을 읽어 들일 수 있습니다. 파일 형태 함수 CSV read_csv() JS..

[토이 데이터셋] Scikit-Learn 라이브러리의 Datasets 패키지

Scikit-Learn 라이브러리의 Datasets 패키지 일반적으로 모델의 학습에 사용할 데이터는 사용자가 직접 파일 형태로 다운을 받은 후에 코드상으로 불러와야 합니다. 하지만, Scikit-Learn 라이브러리에서는 함수의 형태로 몇개의 데이터를 손쉽게 가져올 수 있습니다. Scikit-Learn 라이브러리는 기계학습(Machine Learning, ML) 모델을 구현하는데 있어서 가장 많이 사용하는 라이브러리 중 하나이며, Scikit-Learn에서 제공하는 데이터에는 Toy Dataset과 Real World Dataset이 있습니다. Toy Dataset은 실제 모델을 학습하여 좋은 성능을 이끌어 내기에는 크기가 작은 데이터셋을 말합니다. 크기가 작기 때문에 일종의 장난감(Toy)처럼 다양한 ..

[데이터 분석_1] Pandas 라이브러리를 사용한 데이터 분석

Pandas 라이브러리를 사용한 데이터 분석¶ 먼저 Pandas 라이브러리를 import해줍니다. In [2]: import pandas as pd Pandas 라이브러리에 내장되어있는 read_csv() 함수를 사용하여 훈련용 데이터를 읽어줍니다. In [3]: train_data = pd.read_csv("./data/train.csv", engine="python") 데이터를 정상적으로 읽었는지를 확인해주기 위해서 데이터의 일부를 출력해보겠습니다. 데이터의 일부를 선택하는 방법은 크게 3가지가 있습니다. head() 함수를 사용하여 불러온 데이터의 앞부분을 선택해주는 방법 tail() 함수를 사용하여 불러온 데이터의 뒷부분을 선택해주는 방법 sample() 함수를 사용하여 불러온 데이터에서 랜덤하게..

반응형