Data Science
-
Statistics for Data Science: ANOVAData Science 2023. 2. 12. 21:00
1. ANOVA 란? ANOVA는 "분산 분석"을 의미합니다. ANOVA는 실험에서 여러 그룹 또는 처리의 평균을 비교하는 데 사용되는 통계적 방법입니다. ANOVA의 기본 아이디어는 여러 그룹의 평균 차이가 통계적으로 유의한지 또는 우연히 발생할 수 있는지 확인하는 것입니다. ANOVA는 두 개 이상의 그룹 평균 간에 차이가 있는지 테스트하는 데 사용할 수 있습니다. 예를 들어, 연구자가 새로운 교육적 개입이 전통적인 교육 방법보다 더 효과적인지 여부를 확인하려는 경우 참가자를 새로운 개입 또는 기존 교육 방법에 무작위로 할당한 다음 각 그룹의 평균 테스트 점수를 비교합니다. ANOVA는 그룹 간 평균 테스트 점수의 차이가 통계적으로 유의한지 여부를 결정하는 데 사용됩니다. ANOVA는 종속 변수에 대..
-
Statistics for data science: StatisticsData Science 2023. 2. 11. 23:12
1. 모집단과 표본의 차이 모집단은 연구에서 관심 있는 모든 요소 또는 단위의 완전한 집합입니다. 우리가 배우고자 하는 개인, 사물, 사건 또는 측정의 전체 그룹입니다. 예를 들어, 인구는 특정 국가에 거주하는 모든 사람, 특정 회사에서 제조한 모든 제품 또는 특정 기간 동안 발생한 모든 판매가 될 수 있습니다. 반면에 표본은 분석을 위해 선택된 모집단의 더 작은 하위 집합입니다. 표본은 샘플에서 수집된 데이터를 기반으로 모집단에 대한 추론을 만드는 데 사용됩니다. 전체 모집단에서 데이터를 수집하는 것이 종종 실현 가능하지 않거나 실용적이지 않기 때문에 샘플링이 사용됩니다. 모집단과 표본의 구분은 중요합니다. 왜냐하면 표본 데이터에서 만들어진 추론은 표본이 추출된 모집단에만 적용되어야 하고 다른 모집단에..
-
Hierarchical clustering vs K-meansData Science 2023. 2. 5. 16:39
정리하자면 K-means 알고리즘과 Hierarchical clustering은 다음과 같은 면에서 차이점이 있다. 1. Approach method: Hierarchical clustering는 기존 군집을 재귀적으로 병합하거나 분할하여 군집 계층을 구축하는 반면, k-means은 각 데이터 포인트를 가장 가까운 군집 중심에 반복적으로 할당하여 데이터를 k 군집으로 분할합니다. 2. Number of clusters: Hierarchical clustering에서 클러스터 수는 미리 지정되지 않고 덴드로그램 또는 미리 지정된 중지 기준에 따라 결정됩니다. k-means에서 클러스터 수(k)는 사용자가 지정합니다. 3. Distance metric: Hierarchical clustering은 일반적으로..
-
머신러닝 기초 - 편미분(Partial Derivative) 이란?Data Science 2023. 1. 24. 15:00
Partial Derivative 는 주로 여러 변수가 있는 함수를 대항으로 미분할 때 사용된다. 예를 들어, 위와 같은 표면이 있다고 할 때, 1. x 에 대해서 기울기를 구할 수 있고(y는 고정된 상태) 2. y에 대해서 기울기를 구할 수도 있다(x는 고정된 상태) 위의 그림을 함수로 표현해 보면 다음과 같다. f(x, y) = x^2 + y^3 x에 대해서 기울기를 구하면 power rule 에 의해 f'(x) = 2x가 된다. 이 경우에서, y^3는 상수로 취급된다 y에 대해서 기울기를 구하면 power rule에 의해 f'(y) = 3y^2가 된다. 이 경우에서 x^2는 상수로 취급된다 실생활의 예제에서는, 실린더의 voume를 구하는데에 사용될 수 있다. 위와 같은 실린더에서, 실린더는 다양한..
-
Mathematical Foundations of Machine Learning - Calculus 1Data Science 2023. 1. 1. 23:30
Calculus 1은 크게 세가지 목차로 이루어진다. 1. Limits(극한) 2. Computing Derivatives with Differentiation(미분 계산) 3. Automatic Differentiation(자동 미분) Limit의 사용 예 lim𝑥→1 (𝑥^2−1)/(𝑥−1) 다음과 같은 극한식에서, x = 1이 될 수 없다. (분모가 0이 되므로) 하지만 극한값을 이용해 x = 1이 가깝게 하여 y값을 구할 수는 있다. Delta method 미분값을 계산할 때, Delta method를 이용한다 미분값을 계산하는 데에는 몇가지 룰이 있다. 1. Power rule 2. Constant Multiple Rule 3. Sum rule 4. Product rule 5. Chain rul..
-
비트코인 시장에서의 IBS 전략 검증 - 역추세추종 먹히나?Data Science 2022. 12. 25. 20:25
트레이딩에는 크게 두가지 방법이 있습니다. 추세추종과 역추세추종 전략입니다. IBS(Internal Bar Strength indicator)전략은 대표적인 역추세추종 전략 중 하나로, 주가 하락시 짧은 반등을 이용해 단기매매하는 아이디어에서 비롯되었습니다. 주로 외환과 같은 장기추세가 없는 시장에서 널리 사용됩니다. 먼저 IBS전략의 공식부터 알아봅시다. (종가 - 저가) / (고가 - 저가) * 100 매수 = IBS 20 이것을 캔들로 파악해보겠습니다. Buy 신호와 Close 신호를 잘 살펴 보시면, 밑꼬리가 짧은 음봉에서 매수, 윗꼬리가 짧은 양봉에서 청산이 일어난 것을 확인해 볼 수 있습니다. 다시 말해 IBS가 100이면 장대양봉, 0이면 장대음봉이라 볼 수 있습..
-
Mathematical Foundations of Machine Learning - linear algebraData Science 2022. 12. 24. 22:48
What Linear Algebra is? "Solving for unknowns within system of linear equations" 쉽게 말하면, 두개의 방정식을 가지고 해를 구하는 것 Eigenvectors and Eigenvalues 좀더 직관적인 설명은 아래와 같다 Eigenvectors 는 다음과 같은 데이터셋과 결합될 수 있다 1. Eigenfaces 2. Eigenvoices 3. Eigenfrequencies (of vibrations) 4. Quantum mechanic 분야. Molecular orbitals 나 Schrodinger wave equation 5. Reproduction number R0 in eqidemiology Singular Value decomposi..
-
How does AI calculate the percentage in binary language system?Data Science 2022. 11. 13. 21:16
How does AI calculate the percentage in binary language system? 웨비나 도중 다른 패널로부터 이러한 질문을 받았다. 그냥 간단히 By using very complex statistical model 이라고 대답했는데, 답변이 충분하지 않았던 것같다. Data Science에 대해 잘 모르는 사람에게 이것에 대해 가장 이해가 쉽고 직관적인 답변을 생각해봤다. 고안해낸 답변은 다음과 같다. 1. 매우 큰 Dataset을 적절한 비율로 쪼갠다(일반적으로 Data Scince에서는 7:3비율로 나눈다) 2. 70%의 데이터셋을 훈련시키고, 나머지 30%데이터셋을 통해 테스트를 한다. 여기서 Output(결과값)은 0또는 1이다 3. 훈련시킨 모델과 실제 Dat..