일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- terminal
- 코루틴 컨텍스트
- VARCHAR (1)
- preemption #
- PersistenceContext
- tolerated
- 헥사고날아키텍처 #육각형아키텍처 #유스케이스
- 오블완
- 자원부족
- PytestPluginManager
- 겨울 부산
- taint
- table not found
- 코루틴 빌더
- JanusWebRTC
- vfr video
- pytest
- 티스토리챌린지
- 개성국밥
- python
- Value too long for column
- mp4fpsmod
- JanusGateway
- kotlin
- k8s #kubernetes #쿠버네티스
- JanusWebRTCServer
- JanusWebRTCGateway
- Spring Batch
- 달인막창
- 깡돼후
목록Data Analysis/Data Mining (17)
너와 나의 스토리
개요 Data Reduction 전략 Dimension reduction Wavelet transforms Principal Cmponents Analysis (PCA) Numerosity reduction Log-Linear Model Fourier transform: 거리 기반의 주기 함수를 주파수 time&space 영역의 계수로 변환 Wavelet transform Wavelet transform은 Fourier transform의 한 가지 방법이다. cos과 sin을 대치하는 wavlet이라는 파형이 있다. -> cos과 sin 대신에 wavlet 사용해서 time&space 도메인의 주기 함수를 주파수 도메인의 계수로 변환 임의의 주기함수를 wavlet의 무한급수로 표현 가능하다. 시간적으로 ..
유전 알고리즘이란? Genetic Algorithm: GA 생물학적 진화 원리에 기반한 Directed Search Algorithm 유전 알고리즘의 응용 예 함수 최적화 시스템 최적화 조합적 최적화 분류기 유전 알고리즘의 기본 구조 생물학에서의 의미 4만 개 내외의 유전자를 포함하고 있는 개체들은 교차에 의해 염색체를 부분 결합하고, 돌연변이에 의해 미소하게 변화된 새로운 염색체를 가진 개체를 만들어 낸다. 개체는 환경에 적응하기 유리한 정도에 따라 선택적(경쟁적으로)으로 번성한다. -> 자연 선택, 적자 생존 이러한 생물의 진화 과정을 문제 해결과정으로 옮겨 놓은 것이 유전 알고리즘의 기본 구조 유전 알고리즘의 용어 및 특징 염색체(chromosome) 문제의 임의의 해를 유전 알고리즘이 이해하는 형..
Distance betwwen clusters Single link: MIN distance로 구하기 Complete link: MAX distance로 구하기 Average: 모든 점들 사이(각 cluster간) 거리 평균 Centroid: 각 cluster의 centroid끼리 거리 구함 Medoid: 각 cluster의 medoid끼리 거리 구함 반드시 데이터이여야 함. Centroid ≠ Medoid Cenroid (Cm): cluster 중심 Radius (Rm): centroid와 각 점들(해당 cluster 내의) 사이의 거리 제곱의 평균 Diameter (Dm): cluster 내의 모든 점 사이(모든 pair) 거리 제곱의 평균 A->B, B->A 둘 다 카운트 하니까 n(n-1)로만 나..
Cluster Analysis란? 서로 비슷한 것들을 묶는 것 similar(or related)하면 같은 그룹 Intra-cluster distances(cluster 내에서 거리)를 최소화 different(or unrelated)하면 다른 그룹 Inter-cluster distances(cluster간 거리) 최대화 특징: Unsupervised learning -> label이 없음 거리로 분석 -> feature간의 관계를 고려하지 않는다. Type of Clusterings Clustering은 clusters의 집합 Hierarchical clustering와 Partitional clustering을 구분하는 것은 중요하다. Partitional clustering: 각 데이터 객체는 정확..
* SVM - linearly separable data에 관한 설명 여기 참고 SVM 기본 요약 Soft Margin hyperplane Classifier: Non-linearly Separable Data 위 그림처럼 linear하게 두 클래스를 나눌 수 없다면, 두 가지 방법을 이용하여 분류를 진행할 수 있다. 방법1: slack variable 사용 방법2: 데이터를 고차원으로 매핑 Slack variable 사용 위 그림처럼 linear하게 두 클래스를 나눌 수 없다면, 우리는 비록 cost가 높아질지라도 몇 몇 데이터를 misclassify하는 것을 허락할 수 있다. Soft margin 방법은 여전히 가장 가까이 위치해 있는 제대로 분리되는 자료들의 거리를 최대화하면서, 주어진 자료들을 가..
Support Vector Machine(SVM)이란? 머신 러닝의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델 주로 분류와 회귀 분석(regression)을 위해 사용 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다. 정의 hyperplane: 두 클래스를 나누는 것. 2차원 공간에 있는 데이터는 1차원(선) hyperplane으로 나눠지고, 3차원 공간에 있는 데이터는 2차원(평면) hyperplane으로 나눠진다. margin: hyperplane과 가장 가까운 곳에 위치한 데이터와의 거리 SVM의 목표는 margin을 최대화..
1. categorical_crossentropy 다중 분류 손실 함수 출력 값이 one-hot encoding된 결과로 나온다. -> label(y)을 one-hot encoding해서 넣어줘야 함 클래스가 상호 배타적일 경우(e.g. 각 샘플이 정확히 하나의 클래스에 속하는 경우) 사용 2. sparse_categorical_crossentropy 다중 분류 손실 함수 integer type 클래스 -> one-hot encoding하지 않고 정수 형태로 label(y)을 넣어줌 한 샘플에 여러 클래스가 있거나 label이 soft 확률일 경우 사용 3. binary_crossentropy binary 다중 분류 손실 함수 label들이 독립적일 때 사용
Lecture 3. Backpropagation deep learning의 기본 optimization 알고리즘인 backpropagation과 그 변형 알고리즘들에 대해 알아보자 Train set and test set Machine learning의 궁극적인 목표 트레이넹 셋으로 학습시킨 모델이 테스트 셋에서도 성능이 잘 나오도록 하는 것이 목표 => generalization 트레이닝 데이터를 반복적으로 학습하여 training error을 줄여나감 테스트 데이터: unseen data에 대한 평가를 위한 데이터 generalization error(a.k.a. test error) 측정하는 데 사용 train and test sets 사이의 근본 가정 둘 다 동일한 데이터 생성 분포를 따른다 E(..