일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 코루틴 컨텍스트
- table not found
- 코루틴 빌더
- 개성국밥
- preemption #
- vfr video
- kotlin
- 겨울 부산
- 오블완
- PytestPluginManager
- 헥사고날아키텍처 #육각형아키텍처 #유스케이스
- VARCHAR (1)
- 자원부족
- PersistenceContext
- JanusWebRTC
- JanusWebRTCServer
- Value too long for column
- tolerated
- terminal
- JanusWebRTCGateway
- Spring Batch
- taint
- 깡돼후
- 티스토리챌린지
- JanusGateway
- python
- pytest
- mp4fpsmod
- k8s #kubernetes #쿠버네티스
- 달인막창
목록Data Analysis/Data Mining (17)
너와 나의 스토리
AI(Aritificial Intelligence)란? Strong AI: 인간과 똑같이 생각하는 기계 아직까지는 불가능 자유 의지가 있어야 함 Weak AI 컴퓨터 기반의 인공지능은 인간의 지능을 부분적으로 흉내 내고 있을 뿐 인간 생각의 요소들 기억, 계산, 추론, Knowlege Representation(Expert system), 인지(Pattern recognition), 상식, 계획 기억, 계산, 추론, 계획은 컴퓨터가 잘함 인지, 상식은 컴퓨터가 잘 못 함 -> 점점 잘해지고 있음 인지 -> 개인가 고양이인가 => Deep learning으로 구별 CLASSICAL AI Decision Tree - 고전적인 AI Basic algorithm (그리디 알고리즘) top-down recursi..
Instance-Based Classifiers 모델을 안 만들고 분류하는 방법 미리 저장된 트레이닝 데이터 필요 트레이닝 데이터를 사용해서 label 없는 데이터의 클래스 예측 Example: Rote-learner 트레이닝 데이터를 전부를 기억하고 새로운 데이터의 attribute 값이 트레이닝 셋에 속하는 데이터와 완전히 일치할 때, 클래스를 판단 Nearest neighbor 새로운 데이터가 트레이닝 셋과 가장 근사한 것으로 클래스 분류 Nearest Neighbor Classifiers 기본 아이디어: 오리처럼 뒤뚱뒤뚱 걷고, 꽥꽥 소리 내면, 이것은 아마 오리일 것이다. Nearest-Neighbor Classifiers 기존 트레이닝 셋에 있는 데이터와 현재 새로운 데이터와 유사도를 계산할 ..
Model 평가: 어떻게 performance를 신뢰성 있게 추정할 것인가? 모델의 performance는 알고리즘 외에도 여러 요소에 의해 결정된다. 클래스들에 속하는 데이터들의 분포 잘못 분류한 것에 대한 비용 -> 케이스마다 다름 트레이닝 or 테스트 데이터 셋의 크기(비율) Learning Curve 샘플 사이즈가 클수록 정확도가 높아짐 Learning curve를 보면서 어느 정도의 샘플 사이즈가 적절한지 판단 가능 추정 방법 Holdout 우리가 가지고 있는 데이터의 2/3를 트레이닝 데이터로, 1/3을 테스트 데이터로 사용하는 방법 Random subsampling holdout을 반복하는 방법 Cross validation 데이터를 k개의 서브셋으로 파티션 -> 각 서브셋에 여러 개의 데이..
Gini Index (IBM intelligent miner) 어떤 노드에 대응되는 트레이닝 데이터의 불순도의 정도를 측정하는 지표 이 값이 크면 불순도가 큰 것. 즉, 이 값이 작을수록 분류를 잘했다고 판단 가능 [부모의 gini index(=$gini(T)$)]과 [자식의 gini index(=$gini_{split}(T)$) 차이가 클수록 좋은 것 잘 split 한 것 gain이 최대가 되는 split이 최적의 split Gini 값은 낮을 수록, Gain은 높을수록 좋다. Gini(N1) = 1- $\sum_{j=1}^{클래스 개수}(\frac{N1의 C1 개수}{N의 C1 개수})^2$ 첫 번째 split의 Gini 값이 가장 작으므로, 이렇게 split하는 것이 좋다 Continuous Att..
* 참고 - 2019/08/15 - [Machine learning] - [ML] Decision Tree - classification / regression Classification 정의 목적: 이전에 보지 못했던 데이터들을 최대한 정확히 클래스별로 분류하는 것 이런 분류 작업을 위해서 model이 필요 model을 만들기 위해서는 training set이 필요하다. 모델의 정확도를 측정하기 위해서는 test set이 필요하다 training set과 test set은 같으면 안 된다. 학습(learning) - supervised learning / unsupervised learning supervised learning: 알고리즘에 주입하는 훈련 데이터에 레이블(label)이라는 답이 포함됨...
Data Warehouse란? decision support database로, organization's operational database와는 다르다. 분석을 위한 통합된 과거 데이터(historical data)의 견고한 플랫폼을 제공하여 정보 처리를 지원한다. operational database는 사용되는 곳에 데이터베이스가 분산된 경우가 많은데, data warehouse는 분산되어 있는 데이터를 한 군데로 모아서(consolidataed), 중앙 집중적인 데이터베이스를 구성하여 분석적으로 처리할 수 있는 정보 처리 시스템을 제공 (support information processing) operational database는 데이터가 삽입, 삭제, 갱신된다. Data warehosue는 m..
Data exploration이란? 데이터 특성을 더 잘 이해하기 위한 예비 조사 어떤 패턴이 있는지 찾아야(데이터 탐색) 데이터 마이닝 가능. 데이터 탐색의 주요 동기: 전처리나 분석을 위한 옳은 도구를 선택하는데 도움을 줌 패턴을 인지하는 인간의 능력을 활용 인간은 데이터 분석 도구로 탐지되지 않는 패턴도 인지 가능 Techniques used in data exploration EDA(Exploratory Data Analysis): Tukey가 정의 시각화에 초점을 맞춤 Clustering and anomaly detection은 exploratory techniques으로 보일 수 있다. 데이터 마이닝을 하는 사람들은, Clustering and anomaly detection을 탐색이라고 생각..
Similarity and Dissimilarity Similarity 두 데이터 객체가 얼마나 유사한가 수치적으로 측정 객체들이 서로 비슷할수록 값이 큼 보통 [0,1] 사이의 숫자를 범위로 사용함 Dissimilarity (=distance) 두 데이터 객체가 얼마나 다른지 수치적으로 측정 객체들이 서로 같을수록 값이 작음 보통 최소 dissimilarity를 0으로 둠 상한(upper limit)은 다름 Proximity는 similarity와 dissimilarity를 구분하지 않고 사용하는 것 Similarity/Dissimilarity for simple attributes p와 q는 두 데이터 객체의 attribute 값 Nominal은 categorical 타입이라서 순서가 없고, 같다/틀..