3주차 WIL (2024년 4월 29일 ~ 5월 03일)
주제: 엑셀을 이용한 데이터 분석과 캐글
목표:
- 데이터 분석을 위한 엑셀 활용
- 데이터 분석 경진대회 서비스 캐글 활용
- 정규표현식 기초 학습
- 엑셀을 이용한 캐글 데이터 분석
주요 내용:
엑셀 기초 함수
- 합계 : =SUM(Range)
- 개수 : =COUNTA(Range)
- 평균 : =AVERAGE(Range)
- 최소, 최대값 : MIN, MAX
엑셀 피벗테이블
- 대용량의 데이터를 요약하여 간단하고 이해하기 쉬운 형태로 표시
- 단축키
- Alt - N - V - T
캐글이란?
- Alt - N - V - T
- 캐글은 데이터 과학 및 기계 학습 경진대회 플랫폼으로, 데이터 분석가와 기계 학습 엔지니어가 실제 데이터를 사용하여 문제를 해결하고 경쟁할 수 있는 공간을 제공, 캐글을 통해 다양한 데이터셋과 문제에 도전하며 실력을 향상시킬 수 있음.
정규표현식
- 문자열을 검색하고 조작하는 데에 사용되는 패턴 기반의 표현 언어.
- 기초
- 문자 클래스(Character Class):
[abc]
: a, b, c 중 하나의 문자와 일치[a-z]
: 알파벳 소문자 중 하나의 문자와 일치[^abc]
: a, b, c 이외의 문자와 일치
- 특수 문자(Special Characters):
.
: 어떤 한 문자와 일치^
: 문자열의 시작과 일치$
: 문자열의 끝과 일치\b
: 단어 경계와 일치
- 수량자(Quantifiers):
*
: 0회 이상 반복+
: 1회 이상 반복?
: 0회 또는 1회 반복{n}
: n회 반복{n,}
: 최소 n회 이상 반복{n,m}
: 최소 n회부터 최대 m회까지 반복
- 그룹(Grouping):
()
: 그룹화하여 하위 표현식을 지정|
: OR 연산자로, 여러 패턴 중 하나와 일치
- 이스케이프(Escape):
\
: 특수 문자를 일반 문자로 취급
- 문자 클래스(Character Class):
핵심 개념:
- 엑셀 : 엑셀은 마이크로소프트사가 개발한 스프레드시트 프로그램으로, 데이터를 시각화하고 편집하는 도구입니다. 주로 표 형태로 데이터를 관리하고 계산, 분석하는 데 사용됩니다.
- 캐글 : 캐글은 데이터 과학자와 기계 학습 엔지니어가 경쟁하고 협업할 수 있는 온라인 플랫폼입니다. 다양한 데이터셋과 실제 문제에 대한 경진대회를 제공하여 데이터 분석 및 기계 학습 기술을 발전시키는 데 활용됩니다.
- 정규표현식 : 정규표현식은 문자열을 검색하고 처리하기 위한 패턴 기반의 표현 언어입니다. 특정한 패턴을 가진 문자열을 찾거나 변형하는 데 사용되며, 데이터 처리 및 텍스트 분석에서 유용하게 활용됩니다.
개인적인 성찰:
- 왜인지 모를 엑셀에 대한 자신감이 있어 엑셀 학습의 필요성을 느끼지 못하였는데 막상 엑셀을 활용하여 어떠한 결과를 도출해 내려고 하니 어려움이 있었습니다. 자만하지 않아야 겠다는 성찰이 있었습니다.
- 구글 스프레드 시트에서 정규표현식을 사용할 수 있다는 부분을 모르고 있었는데 이젠 정규표현식을 사용하여 생산성을 크게 늘릴 수 있겠다는 생각을 했습니다.
향후 계획:
- 캐글 데이터 분석에 대해 더욱 관심을 가지고 학습할 것입니다.
- 뛰어난 기술보다는 데이터 분석의 본질에 더욱 초점을 맞추고 남은 데이터 분석 데브코스를 수강해 나갈 것입니다.
'Data Analysis' 카테고리의 다른 글
프로그래머스 데이터 분석 데브코스 2주차 WIL (0) | 2024.05.02 |
---|
댓글