일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 오블완
- 자원부족
- taint
- PytestPluginManager
- preemption #
- tolerated
- Value too long for column
- 코루틴 컨텍스트
- JanusWebRTC
- 깡돼후
- mp4fpsmod
- PersistenceContext
- vfr video
- python
- 티스토리챌린지
- terminal
- pytest
- 헥사고날아키텍처 #육각형아키텍처 #유스케이스
- k8s #kubernetes #쿠버네티스
- 달인막창
- JanusGateway
- Spring Batch
- JanusWebRTCGateway
- VARCHAR (1)
- kotlin
- 겨울 부산
- JanusWebRTCServer
- table not found
- 개성국밥
- 코루틴 빌더
목록Data Analysis/Machine learning (52)
너와 나의 스토리
ensemble_model.fit(x_train, y_train) 해결 방법: ensemble_model.fit(x_train, y_train.values.ravel())
import numpy as np from keras.models import Sequential from keras import layers #from keras.optimizers import SGD from keras import optimizers from keras.layers import Activation,BatchNormalization, Dropout, Dense from keras.wrappers.scikit_learn import KerasClassifier from sklearn.ensemble import VotingClassifier from mlxtend.classifier import EnsembleVoteClassifier def make_model(dense): N = l..
Bootstrapping 훈련 데이터 셋에서 중복을 허용하여 원래 데이터 셋과 같은 크기의 데이터 셋을 만드는 과정 Bagging Bagging(Bootstrap aggregating)은 bootstrap을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기(base learner)들을 결합(aggregating)시키는 방법이다. 트레이닝 데이터를 선택하는 방법에 따라 Bagging 훈련 세트에서 중복을 허용하여 샘플링하는 방식 예측 모형의 분산을 줄이고 과적합(overfitting)을 피하도록 해준다. 보통 '결정 트리 학습법'이나 '랜덤 포레스트'에만 적용되는 것이 일반적이다 Pasting 중복을 허용하지 않고 샘플링하는 방식 Bagging을 사용하면 왜 분산(Variance)이 줄어드는가? 배..
Background Poisson distribution 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ라고 했을 때, 그 사건이 k회 일어날 확률 더 자세한 내용 - 참조 Bagging N개의 dataset에서 m개를 복원표본추출하여 새로운 데이터 셋을 생성 더 자세한 내용 - 참조 Definition T: 사이즈가 N개인 training dataset M: 표준 batch bagging은 M개의 기본 모델들을 만든다. $L_{b}$: batch learning algorithm Online Bagging 각 모델은 원래 학습 세트에서 임의의 샘플을 중복 추출하여 생성된 N 크기의 bootstrap sample에 $L_{b}$를 호출하여 학습힌다. 기본 모델의 training set에는 ..
Robust random cut trees Random: 우리가 가지고 있는 데이터들로부터 임의로 뽑아냄. Cut: 같은 수의 점들로 부분집합을 만들어서 tree를 구성. Forest: 만들어진 여러 트리들을 모두 고려해서 anomaly 여부를 결정. binary tree이다. Stream data를 처리할 수 있으며, 고차원 데이터에도 적합. 이상치 점수를 매겨 통계적으로 이상치 판단. 포인트 셋에서 이상치(outlier)들을 탐지하는 데 사용할 수 있는 이분 탐색 트리이다. 루트에 가까운 점은 이상치일 가능성이 높다. Amazon SageMaker의 Random Cut Forest(RCF) 알고리즘 트리 만들기: 트리는 숫자 데이터를 순서대로 저장한다. (이진 트리) 이상치 판단: 데이터 'A'가 이..
Amazon SageMake 작동 방식 - 설명 사이트 노트북 인스턴스에서 외부 라이브러리 및 커널 설치 - 설명 사이트 Amazon SageMaker 머신 러닝을 위한 데이터와 알고리즘, 프레임워크를 빠르게 연결하여 손쉽게 머신 러닝 구축이 가능한 신규 클라우드 서비스이다. Jupyter 노트북 셀에서 Theano를 설치하는 법 1. jupyter notebook을 켜서 notebook 하나를 연 후 2. 다음 코드를 타이핑 후 실행 !pip install theano anaconda mxnet 설치 cmd에서 conda install -c anaconda mxnet
feature 1개로 예측하기 1. 데이터 셋 load & library import 데이터 셋: from skgarden import MondrianForestClassifier from sklearn import datasets, cross_validation import numpy as np import pandas as pd import matplotlib.pyplot as plt dataset = pd.read_csv('./input/IBM_2006-01-01_to_2018-01-01.csv', index_col='Date', parse_dates=['Date']) dataset=dataset.fillna(method='ffill') dataset.head() 2. training set과 te..
Mondrain Forest Regressor 위주로 정리를 하였다. skgarden.mondrian.MondrianForestRegressor Parameters n_estimators (integer, optional(default=10)): 포레스트에 있는 트리의 개수 max_depth (integer,optional(default=None)): 각 트리가 자라는 깊이. None이면 트리가 전체 깊이로 자라거나 min_samples_split에 의해 제한됨 min_samples_split (integer, optional (default=2)): 만약 노드의 샘플 수가 min_samples_split보다 작아지만 성장을 멈춤 bootstrap (boolean, optional(default=Fals..