일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- python
- JanusWebRTCServer
- 오블완
- 자원부족
- Value too long for column
- 겨울 부산
- JanusWebRTC
- 티스토리챌린지
- PytestPluginManager
- VARCHAR (1)
- 코루틴 빌더
- k8s #kubernetes #쿠버네티스
- vfr video
- mp4fpsmod
- terminal
- table not found
- pytest
- JanusWebRTCGateway
- JanusGateway
- preemption #
- tolerated
- 깡돼후
- 개성국밥
- taint
- Spring Batch
- 달인막창
- 헥사고날아키텍처 #육각형아키텍처 #유스케이스
- PersistenceContext
- kotlin
- 코루틴 컨텍스트
목록Data Analysis (88)
너와 나의 스토리

Data Warehouse란? decision support database로, organization's operational database와는 다르다. 분석을 위한 통합된 과거 데이터(historical data)의 견고한 플랫폼을 제공하여 정보 처리를 지원한다. operational database는 사용되는 곳에 데이터베이스가 분산된 경우가 많은데, data warehouse는 분산되어 있는 데이터를 한 군데로 모아서(consolidataed), 중앙 집중적인 데이터베이스를 구성하여 분석적으로 처리할 수 있는 정보 처리 시스템을 제공 (support information processing) operational database는 데이터가 삽입, 삭제, 갱신된다. Data warehosue는 m..
Apache Cassandra(아파치 카산드라) 자유-오픈 소스 분산형 NoSQL 데이터베이스 관리 시스템 단일 장애점 없이 고성능을 제공하면서 수많은 서버 간의 대용량의 데이터를 관리하기 위해 설계되었다. 단일 장애점: 시스템의 구성 요소 중에서, 동작하지 않으면 전체 시스템이 중단되는 요소 장점: 카산드라를 이용하면 sharding을 고려할 필요 없고, master-slave와 같은 정책이 없이도 장애에 대응할 수 있다. 단점: join이나 transaction을 지원하지 않고, index 등의 검색을 위한 기능도 매우 단출하다. 카산드라 특징, 데이터 구조 설명 - here 다운로드 [Window 10 Education]에 설치할 예정 카산드라 다운로드 및 설정 여기에서 "http://mirror...

Data exploration이란? 데이터 특성을 더 잘 이해하기 위한 예비 조사 어떤 패턴이 있는지 찾아야(데이터 탐색) 데이터 마이닝 가능. 데이터 탐색의 주요 동기: 전처리나 분석을 위한 옳은 도구를 선택하는데 도움을 줌 패턴을 인지하는 인간의 능력을 활용 인간은 데이터 분석 도구로 탐지되지 않는 패턴도 인지 가능 Techniques used in data exploration EDA(Exploratory Data Analysis): Tukey가 정의 시각화에 초점을 맞춤 Clustering and anomaly detection은 exploratory techniques으로 보일 수 있다. 데이터 마이닝을 하는 사람들은, Clustering and anomaly detection을 탐색이라고 생각..

Similarity and Dissimilarity Similarity 두 데이터 객체가 얼마나 유사한가 수치적으로 측정 객체들이 서로 비슷할수록 값이 큼 보통 [0,1] 사이의 숫자를 범위로 사용함 Dissimilarity (=distance) 두 데이터 객체가 얼마나 다른지 수치적으로 측정 객체들이 서로 같을수록 값이 작음 보통 최소 dissimilarity를 0으로 둠 상한(upper limit)은 다름 Proximity는 similarity와 dissimilarity를 구분하지 않고 사용하는 것 Similarity/Dissimilarity for simple attributes p와 q는 두 데이터 객체의 attribute 값 Nominal은 categorical 타입이라서 순서가 없고, 같다/틀..

Data란? 데이터 objects와 그들의 attributes의 모음 attributes: 데이터를 설명하는 특성. ex) 사람의 눈 색 attribute = variable, field, characteristic, feature 여러 개의 attribute가 하나의 object를 설명함 Attribute Values Attribute values는 attribute에 할당된 숫자나 기호이다. attributes와 attribute values의 차이 같은 attibute는 다른 attribute values와 매핑될 수 있다. ex) 키는 feet나 meters로 측정될 수 있음 키 - attribute, 측정 단위 - attribute value 다른 attributes는 같은 value들의 집합으..
확률질량함수 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수 ex) 주사위를 돌렸을 때, i가 나올 확률 => P(1)=1/6 각 확률은 1보다 작거나 같다. 전체 확률의 합은 1 확률밀도함수 확률 변수의 분포를 나타내는 함수 CDF를 미분한 값 ∫∞−∞f(x)dx=1 p(x1≤X≤x2)=∫x2x1f(x)dx pdf는 확률이 아님. 질량길이 단위이다. 즉, 확률 밀도 함수에서 확률은 f(x)*(구간 길이)로 볼 수 있기 때문에, f(x) 값이 1보다 클 수 있다. 확률은 pdf의 아래 영역이다

Precision: tptp+fp Recall: tptp+fn tp: 해당 클래스가 맞고, 그 클래스라고 예측하는 경우 fp: 해당 클래스가 아닌데, 맞다고 예측하는 경우 fn: 해당 클래스가 아닌데, 아니라고 예측하는 경우 즉, Precison: 해당 클래스인데 제대로 예측한 경우/ 맞든 틀리든 해당 클래스라고 예측한 경우 Recall: 해당 클래스인데 제대로 예측한 경우/ 해당 클래스일 때 예측한 경우 [사진 출처] Cat precison: 4/(4+6+3) recall: 4/(4+1+1) Fish precison: 2/(1+2+0) recall: 2/(6+2+2) Hen precison: 6/(1+2+6) recall: 6/(3+0+6)

연어와 농어를 길이와 밝기로 구분한다고 해보자 경계선을 기준으로 길이가 11cm 보다 작으면 연어, 크면 농어라고 할 때, 오차는 왼쪽에서는 빨간선(농어) 아래 너비와 같다. prior 정보만 가지고 결정 만약 P(w1) > P(w2)이면 w1 결정 class-conditional(=likelihood) 정보 사용 P(x|w1)과 P(x|w2)는 연어와 농어의 개체군 사이의 밝기 차이를 설명한다. P(x|w1) 뜻: 물고기 종류가 w1일 때, 밝기가 x일 확률 Posterior, likelihood, evidence prior probability: P(w) -> 데이터 자체의 분포 Likelihood probability: P(x|w) -> 데이터로 구할 수 있음 Posterior probability..