내일배움캠프
-
시계열 데이터의 개요내일배움캠프/Python 2024. 9. 24. 19:07
시계열 분석이란 과거의 흐름으로 미래를 예측하는 방법론 중 하나입니다. Meta사의 prophet모델LSTM, RNN, Transformer 등시계열 분석을 위한 여러 모델이 있습니다. 시계열 예측의 이해 시계열 데이터란시간에 따라서 정렬된 데이터로주기적으로 기록되며,동일한 시간단계로 분포되어 있습니다. 일평균기온, 가정의 전기 소비, 주가가대표적인 시계열 데이터입니다. 시계열의 구성요소 시계열 분해를 통해서 다음 구성요소를 쉽게 파악할 수 있습니다. 추세시간이 지남에 따라지속적이고 일관된 방향으로 변화하는 장기적 패턴을 가집니다. 계절성일정한 시간 주기(고정된 주기)에 따라 반복되는 패턴을 가지며보통 연간 주기를 따르고, 반복적인 변동을 보입니다. 여름철 아이스크림 판매량 증가, 블랙프라이데..
-
[아티클] 대시보드 디자인의 10가지 규칙내일배움캠프/Article Study 2024. 9. 16. 00:09
대시보드를 사용하는 목적 복잡하고 추상적인 데이터를사용자들이 이해하기 좋은 형태로시각화하여 간단하게 나타내는 등 사용자들에게 정보를 효과적으로 제공하여시간을 절약해줍니다. 잘 디자인된 대시보드는 한 번 보고 5초 안에 이해할 수 있을 만큼 명확하고,전달하고자 하는 바가 무엇인지 바로 알 수 있고,레이아웃이나 구성, 컨텐츠가 일관성있습니다. 그렇다면대시보드 디자인을 잘 하려면어떻게 해야 할까요? 먼저 누가 이 대시보드를 보고,어떤 정보를 전달해야하는지 알아야합니다. 사용자의 배경지식 수준을 파악하고사용자들의 배경지식 수준이 다양한 만큼사용자를 세분화하여기본/고급 콘텐츠를 제공합니다. 그들이 알고 싶어하는 정보를 알고,그에 따라 적절한 지표를 선택합니다. 이제 대시보드 디자인의 10가지 규칙에 대해서..
-
앱/웹 로그 분석 및 플랫폼 용어 이해하기내일배움캠프 2024. 9. 12. 21:15
데이터 분석의 종류 실무데이터 분석 Gatner의 데이터 분석 성숙 모델이 있습니다.설명적 분석무엇이 일어났는가?Ad-hoc(엑셀 시트 레포트), KPI 기술진단적 분석왜 일어났는가?시각화, A/B test 도입예측적 분석무엇이 일어날 것인가?예측 모델링, A/B test 대시보드 자동화처방적 분석무엇이 최선인가?최적화, ML/DL 플랫폼 4단계로 구성되어있고설명적 분석부터 처방적 분석까지 차례대로 진행합니다. https://brunch.co.kr/@data/9 4개의 데이터 분석 유형Part1. 공공데이터 분석의 개념 | 도메인에 따라 데이터 분석의 형태와 절차가 달라진다. 이번 글부터는 공공(公共) 부문, 특히 도시 문제를 중심으로 서술한다. 이번 글의 주제인 '데이터분석의brunch.co.kr ..
-
[아티클] 고객 세분화내일배움캠프/Article Study 2024. 9. 11. 21:23
고객 세분화란? 고객 세분화는 참여, 구매 및 충성도를 향상시키기 위해서로 다른 특성을 가진 여러 개의 이질적인 집단으로 나누는 과정을 의미합니다. 고객 세분화를 하지 않으면소비자의 필요와 욕구를 이해하지 못하여잘못된 시장을 목표로 잘못된 가격을 책정할 수 있습니다. 세분화를 통해 매출과 이익을 개선할 수 있는 기회가 있음에도 불구하고,많은 마케터들이 제대로 하지 못해서 돈을 낭비하고 있는 현실입니다. 어떤 설문에 의하면 소비자는 관심 상품 제안과 추천을 제공하는 브랜드를 선호한다고 합니다.하지만 설문 조사에 참여했던 소비자의 대부분은 맞춤화된 도움을 받지 못했다고 말합니다. 세분화는 이런 고객들의 니즈를 충족시키는가장 빠르고 간단한 방법입니다. 고객 세분화 준비단계 비즈니스와 프로덕트의 상황에 따..
-
훈련/테스트 데이터 분리내일배움캠프 2024. 8. 16. 21:30
데이터셋을 불러온 후 데이터 전처리를 하기 전에먼저 데이터 분리를 해줍니다. 그리고 훈련 데이터를 통해서 모델을 학습시키고,테스트 데이터를 통해 학습된 모델을 평가합니다. 이렇게 데이터를 분리해주는 이유는과적합 방지를 하기 위함입니다. 과적합이란 모델이 훈련 데이터를 너무 잘 학습을 하여훈련 데이터 외에 다른 데이터를 가지고 평가를 했을 때낮은 점수를 받는 것을 말합니다. 훈련 데이터를 가지고 평가 했을 때 많이 높은 점수를 받는데테스트 데이터는 낮은 점수가 나온다면 과적합을 의심해볼 수 있습니다. from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(titaninc_df[..
-
로지스틱 회귀분석내일배움캠프 2024. 8. 13. 18:55
일반 선형회귀 모델은하나 이상의 독립변수와 연속형 종속변수 간의 통계적 관계를 설명하는 모델입니다. 만약 종속변수가 범주형 자료이거나 정규성을 만족하지 못할 경우에는일반 선형 모델을 사용하지 못하는데요, 이 때 사용하는 게 일반화 선형 모델입니다.일반화 선형 모델 중 하나인 로지스틱회귀에 대해서 알아보려고 합니다. 로지스틱회귀분석 로지스틱회귀분석은 2개의 값만을 가지는 종속변수와 독립변수들 간의 인과관계를로지스틱이라는 연결 함수를 사용하여 추정하는 통계 기법입니다. 선형모델의 경우 (-) 무한대에서부터 (+) 무한대 사이의 값을 가지는데우리가 구하려는 로지스틱회귀분석 모델의 종속변수는 0과 1로 이루어져 있기 때문에로지스틱이라는 연결 함수를 사용하여 0과 1 사이의 값을 가지도록 변환해주는 것입니다...
-
회귀분석내일배움캠프 2024. 8. 12. 19:01
회귀분석 회귀분석은 변수 간의 함수관계를 분석하는 방법 중 하나로독립변수와 종속변수 간의 1차 선형관계를 도출하여 독립변수가 종속변수에 미치는 영향 혹은 예측 정도를 분석하는 방법입니다. 종속변수 예측 및 분석을 위해서수학적 함수식으로 나타내고직선 형태의 추세선을 도출합니다. 오늘은 회귀분석 절차에 대해서 공부해봤습니다.가장 간단한 단순회귀분석으로 설명을 드리겠습니다. 절차 회귀분석 절차로는 크게 회귀 모델 설정 -> 데이터 경향성 확인 -> 회귀계수 추정 -> 회귀계수 유의성 확인-> 회귀식 적합성 확인 -> 회귀식의 영향력 진단 -> 최종 모델 선정 으로 이루어집니다. 회귀 모델 설정 먼저 데이터를 살펴보면서 주요 독립변수와 종속변수를 파악합니다. 데이터 경향성 확인 독립변수와 종속변수..
-
[Python] 자료구조 - 리스트내일배움캠프/Python 2024. 8. 7. 19:16
리스트 리스트는 스택, 큐와는 달리 자료에 대한 접근에 제한이 없습니다.즉, 어느 위치에서든 요소를 삽입하고 삭제할 수 있습니다.요소의 중복도 허용되고, 순서도 있어서 인덱싱으로 자료 접근도 쉬워서자료 구조 중에서 가장 활용이 자유롭고 많이 사용됩니다. 리스트는 크게 배열 구조와 연결된 구조를 가집니다. 배열 구조 배열 구조는 우리가 잘 아는 일반적인 구조로빈자리가 없이 반드시 메모리의 연속된 공간에 저장됩니다. 용량이 고정되어 있어용량을 줄이거나 늘리기 힘들어서메모리 낭비가 되거나 포화상태가 되기 쉽습니다. 요소를 삽입할 때는삽입한 요소의 뒤의 요소들을 모두 한 칸씩 밀어야 하고, 요소를 삭제할 때는삭제하고 생긴 빈 공간을 채우기 위해서삭제한 요소의 뒤의 요소들을 모두 한 칸씩 당겨야 합니..