'Data Analysis' 카테고리의 글 목록 (2 Page)

Recent Posts

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

관리 메뉴

목록Data Analysis (88)

너와 나의 스토리

[Data Mining] Dimensionality Reduction 다차원 척도법

개요 Data Reduction 전략 Dimension reduction Wavelet transforms Principal Cmponents Analysis (PCA) Numerosity reduction Log-Linear Model Fourier transform: 거리 기반의 주기 함수를 주파수 time&space 영역의 계수로 변환 Wavelet transform Wavelet transform은 Fourier transform의 한 가지 방법이다. cos과 sin을 대치하는 wavlet이라는 파형이 있다. -> cos과 sin 대신에 wavlet 사용해서 time&space 도메인의 주기 함수를 주파수 도메인의 계수로 변환 임의의 주기함수를 wavlet의 무한급수로 표현 가능하다. 시간적으로 ..

Data Analysis/Data Mining 2020. 6. 28. 23:56

[Data Mining] Genetic Algorithm 유전 알고리즘 / 퀴즈

유전 알고리즘이란? Genetic Algorithm: GA 생물학적 진화 원리에 기반한 Directed Search Algorithm 유전 알고리즘의 응용 예 함수 최적화 시스템 최적화 조합적 최적화 분류기 유전 알고리즘의 기본 구조 생물학에서의 의미 4만 개 내외의 유전자를 포함하고 있는 개체들은 교차에 의해 염색체를 부분 결합하고, 돌연변이에 의해 미소하게 변화된 새로운 염색체를 가진 개체를 만들어 낸다. 개체는 환경에 적응하기 유리한 정도에 따라 선택적(경쟁적으로)으로 번성한다. -> 자연 선택, 적자 생존 이러한 생물의 진화 과정을 문제 해결과정으로 옮겨 놓은 것이 유전 알고리즘의 기본 구조 유전 알고리즘의 용어 및 특징 염색체(chromosome) 문제의 임의의 해를 유전 알고리즘이 이해하는 형..

Data Analysis/Data Mining 2020. 6. 26. 00:18

대용량 실시간 데이터 처리 - BigData/BigTable/MapReduce

BigQuery와 BigTable 차이 BigQuery BigQuery는 데이터셋의 쿼리 엔진. -> 변화 거의 없고 조회만 할 때, 사용하기 좋음 Relational DBMS BigTable BigTable은 데이터베이스. Google의 NoSQL 빅데이터 데이터베이스 서비스 방대한 데이터 저장 가능. 여러 서버의 시간별 CPU 사용량 같은 시계열 데이터 쿼리 가능 rowkey, column family, timestamp로 구성됨 RDB같은 느낌인데 친절한 인터페이스가 없음 크롤러가 수집한 방대한 웹 페이지를 저장하기 위한 목적 구글 표준 데이터 포맷인 '프로토콜 버퍼'를 사용하며, 필요에 따라 외부에서 정의하는 구조화된 데이터를 읽고 씀 OLTP vs OLAP OLTP(Online Transacti..

Data Analysis 2020. 6. 4. 15:35

[Data Mining] CH9. Cluster Analysis: Advanced Concepts and Algorithms

Distance betwwen clusters Single link: MIN distance로 구하기 Complete link: MAX distance로 구하기 Average: 모든 점들 사이(각 cluster간) 거리 평균 Centroid: 각 cluster의 centroid끼리 거리 구함 Medoid: 각 cluster의 medoid끼리 거리 구함 반드시 데이터이여야 함. Centroid ≠ Medoid Cenroid (Cm): cluster 중심 Radius (Rm): centroid와 각 점들(해당 cluster 내의) 사이의 거리 제곱의 평균 Diameter (Dm): cluster 내의 모든 점 사이(모든 pair) 거리 제곱의 평균 A->B, B->A 둘 다 카운트 하니까 n(n-1)로만 나..

Data Analysis/Data Mining 2020. 6. 4. 12:12

[Data Mining] CH8. Cluster Analysis: Basic Concepts and Algorithms

Cluster Analysis란? 서로 비슷한 것들을 묶는 것 similar(or related)하면 같은 그룹 Intra-cluster distances(cluster 내에서 거리)를 최소화 different(or unrelated)하면 다른 그룹 Inter-cluster distances(cluster간 거리) 최대화 특징: Unsupervised learning -> label이 없음 거리로 분석 -> feature간의 관계를 고려하지 않는다. Type of Clusterings Clustering은 clusters의 집합 Hierarchical clustering와 Partitional clustering을 구분하는 것은 중요하다. Partitional clustering: 각 데이터 객체는 정확..

Data Analysis/Data Mining 2020. 6. 4. 01:05

[Data Mining] Support Vector Machine (SVM) - Non-linearly Separable Data

* SVM - linearly separable data에 관한 설명 여기 참고 SVM 기본 요약 Soft Margin hyperplane Classifier: Non-linearly Separable Data 위 그림처럼 linear하게 두 클래스를 나눌 수 없다면, 두 가지 방법을 이용하여 분류를 진행할 수 있다. 방법1: slack variable 사용 방법2: 데이터를 고차원으로 매핑 Slack variable 사용 위 그림처럼 linear하게 두 클래스를 나눌 수 없다면, 우리는 비록 cost가 높아질지라도 몇 몇 데이터를 misclassify하는 것을 허락할 수 있다. Soft margin 방법은 여전히 가장 가까이 위치해 있는 제대로 분리되는 자료들의 거리를 최대화하면서, 주어진 자료들을 가..

Data Analysis/Data Mining 2020. 5. 16. 23:20

[Data Mining] Support Vector Machine (SVM) - Linearly Separble Classes

Support Vector Machine(SVM)이란? 머신 러닝의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델 주로 분류와 회귀 분석(regression)을 위해 사용 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다. 정의 hyperplane: 두 클래스를 나누는 것. 2차원 공간에 있는 데이터는 1차원(선) hyperplane으로 나눠지고, 3차원 공간에 있는 데이터는 2차원(평면) hyperplane으로 나눠진다. margin: hyperplane과 가장 가까운 곳에 위치한 데이터와의 거리 SVM의 목표는 margin을 최대화..

Data Analysis/Data Mining 2020. 5. 16. 18:36

[Data Mining] Keras에서 Loss 함수 - sparse_categorical_crossentropy / categorical_crossentropy / binary_crossentropy 비교

1. categorical_crossentropy 다중 분류 손실 함수 출력 값이 one-hot encoding된 결과로 나온다. -> label(y)을 one-hot encoding해서 넣어줘야 함 클래스가 상호 배타적일 경우(e.g. 각 샘플이 정확히 하나의 클래스에 속하는 경우) 사용 2. sparse_categorical_crossentropy 다중 분류 손실 함수 integer type 클래스 -> one-hot encoding하지 않고 정수 형태로 label(y)을 넣어줌 한 샘플에 여러 클래스가 있거나 label이 soft 확률일 경우 사용 3. binary_crossentropy binary 다중 분류 손실 함수 label들이 독립적일 때 사용

Data Analysis/Data Mining 2020. 5. 10. 22:48

Prev 1 2 3 4 5 ··· 11 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

너와 나의 스토리

목록Data Analysis (88)

너와 나의 스토리

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역