빅데이터

[빅데이터] 타이타닉 데이터 분석

구글 코랩 환경에서 데이터 분석을 진행하였으며, 이 데이터셋은 seaborn 라이브러리에 포함되어 있어 별도의 다운로드 없이 사용할 수 있다. 타이타닉 데이터셋의 주요 항목은 다음과 같다. 1. 데이터 요약 2. 결측값 3. 기본 통계 정보 간단한 분석 결과 1. 타이타닉 데이터셋 불러오기 import seaborn as sns# 타이타닉 데이터셋 불러오기titanic = sns.load_dataset(‘titanic’)print(titanic.head()) 2. 데이터 정보 확인 # 데이터 […]

[빅데이터] 타이타닉 데이터 분석 더 읽기"

[빅데이터] 소비자 특성 분석

구글 코랩 환경에서 데이터 분석을 진행하였으며, 사용한 데이터의 링크는 여길 눌러 들어가라 각 열(Column)에 대한 간단한 분석을 통해 이 CSV 파일에서 데이터 준비 과정을 아래 항목들을 고려한 데이터 분석 준비 과정을 설명하겠다. 1. ID (고객 식별 번호) 2. Year_Birth (출생 연도) 3. Education (학력 수준) 4. Marital_Status (결혼 상태) 5. Income (연간 소득) 6. Kidhome, Teenhome (어린

[빅데이터] 소비자 특성 분석 더 읽기"

[빅데이터] 와인 데이터 분석

구글 코랩 환경에서 데이터 분석을 진행하였으며, 사용한 데이터의 링크는 여길 눌러 들어가라 이 데이터는 와인의 여러 화학적 성분과 와인의 종류(화이트 와인 또는 레드 와인), 그리고 품질 등급을 포함하고 있다. 주요 열의 내용은 다음과 같다. 먼저 다운받은 데이터 파일을 코랩 환경에 올리고, 다음의 코드를 작성해주고 실행하자. 다음과 같은 결과가 나올 것이다. Unnamed: 0은 원래 인덱스로 사용되었던

[빅데이터] 와인 데이터 분석 더 읽기"

데이터 통계 분석

기술통계학 (Descriptive Statistics) 기술통계학은 데이터의 일반적인 특성을 요약하는 방법으로, 데이터 분석에서 제일 먼저 사용된다. 기술통계는 데이터의 기본적인 특성을 설명하는 데 사용되는 수치다. 다음은 기술통계학적 수치를 나열 한 것이다. 이상치는 데이터 집합에서 다른 관측값들과 확연히 다른 값을 가지는 데이터 포인트를 말한다. 이상치는 측정 오류나 분포의 자연적 변동성 때문에 발생할 수 있고, 데이터 분석 결과에 큰 영향을

데이터 통계 분석 더 읽기"

로지스틱 회귀 원리와 성능 평가방법

로지스틱 회귀와 분류 모델의 성능 평가 지표는 분류 문제에서 중요한 개념들로, 각각을 이해하는 것이 모델의 해석과 성능 개선을 할 수 있다. 1. 로지스틱 회귀(Logistic Regression) 로지스틱 회귀는 회귀 분석과는 달리, 종속 변수가 범주형(이산적 값, 예: 0 또는 1)일 때 사용된다. 예를 들어, 이메일이 스팸인지 아닌지(스팸: 1, 정상: 0)와 같은 2진 분류에서 유용하다. 로지스틱 회귀는 독립

로지스틱 회귀 원리와 성능 평가방법 더 읽기"

위로 스크롤