Step B
빅데이터 Bigdata
ABCD Project·데이터
4문항Step B-1데이터 특징 및 속성 정의
아이디어로 제시한 인공지능을 딥러닝으로 구현하기 위해 필요한 데이터를 수집해야 한다. 데이터 수집에 앞서, 다음을 참고하여 데이터가 가져야 할 특징과 세부 속성을 정의해보자. 그리고 왜 그러한 속성이 필요하다고 생각하는지 설명해보자.
Step B-2데이터 수집
- 앞서 정의한 데이터 속성을 바탕으로 본격적으로 딥러닝을 위한 데이터를 수집해보자. 그리고 보고서에 캡쳐하거나 표의 형태로 데이터의 일부를 이곳에 작성해보자.
- 데이터를 직접 수집하는 방법도 있지만 정부나 민간 기관에서 제공하는 데이터를 사용할수 있다. 다음과 같은 데이터 제공 사이트에 방문하여 어떤 데이터가 있는지 살펴보자. 나의 진로와 관련된 데이터도 찾고, 해결하고 싶은 문제에 대한 힌트도 얻을 수 있다. 단, 데이터 수집은 저작권, 개인 정보 보호법 등을 주의하며 수집하도록 한다.
공공데이터포털 CSV 업로드
공공데이터포털에서 받은 CSV 파일을 여러 개 업로드하고, B-2 데이터 수집 근거로 보관합니다.
CSV, 최대 20MB, 한 번에 10개까지업로드 목록을 불러오는 중Step B-3데이터 분석
- 앞서 수집한 데이터는 ‘날것의 데이터(raw data)’이므로 학습을 위해 적절히 가공할 필요가 있는데, 이를 ‘전처리’라고 한다. 예컨대, 여러분이 학습을 위해 구매하는 문제집(데이터) 은 학문적 지식을 학교 선생님들이 잘 가공한 결과물이다.
- 데이터 전처리를 하려면 우선 데이터를 분석하여 데이터의 속성, 특징 등을 파악하고 데이터가 가진 의미를 해석하는 작업이 필요하다. Step B1에서 내가 필요하다고 생각했던 속성들을 가진 데이터를 잘 수집하였는지 확인해보고, 내가 속성을 잘 정의한 것이 맞는지 판단해보자. 또한 수집한 데이터를 시각화하여 데이터의 속성을 파악해보고, 이를 통해 학습에 사용할 속성과 제외할 속성을 결정해보자.
데이터 분석 파일 업로드
데이터 분석 단계에서 작성한 Python 코드와 노트북 파일을 첨부해 보관합니다.
PY, IPYNB, 최대 10MB, 한 번에 10개까지업로드 목록을 불러오는 중Step B-4데이터 전처리
데이터 전처리의 목적은 데이터의 품질과 일관성을 확보하는 데 있다. 데이터 분석 결과를 토대로 데이터를 적절하게 가공해보자.
자동 저장 활성화