분류 전체보기
-
Statistics for Data Science: ANOVAData Science 2023. 2. 12. 21:00
1. ANOVA 란? ANOVA는 "분산 분석"을 의미합니다. ANOVA는 실험에서 여러 그룹 또는 처리의 평균을 비교하는 데 사용되는 통계적 방법입니다. ANOVA의 기본 아이디어는 여러 그룹의 평균 차이가 통계적으로 유의한지 또는 우연히 발생할 수 있는지 확인하는 것입니다. ANOVA는 두 개 이상의 그룹 평균 간에 차이가 있는지 테스트하는 데 사용할 수 있습니다. 예를 들어, 연구자가 새로운 교육적 개입이 전통적인 교육 방법보다 더 효과적인지 여부를 확인하려는 경우 참가자를 새로운 개입 또는 기존 교육 방법에 무작위로 할당한 다음 각 그룹의 평균 테스트 점수를 비교합니다. ANOVA는 그룹 간 평균 테스트 점수의 차이가 통계적으로 유의한지 여부를 결정하는 데 사용됩니다. ANOVA는 종속 변수에 대..
-
Statistics for data science: StatisticsData Science 2023. 2. 11. 23:12
1. 모집단과 표본의 차이 모집단은 연구에서 관심 있는 모든 요소 또는 단위의 완전한 집합입니다. 우리가 배우고자 하는 개인, 사물, 사건 또는 측정의 전체 그룹입니다. 예를 들어, 인구는 특정 국가에 거주하는 모든 사람, 특정 회사에서 제조한 모든 제품 또는 특정 기간 동안 발생한 모든 판매가 될 수 있습니다. 반면에 표본은 분석을 위해 선택된 모집단의 더 작은 하위 집합입니다. 표본은 샘플에서 수집된 데이터를 기반으로 모집단에 대한 추론을 만드는 데 사용됩니다. 전체 모집단에서 데이터를 수집하는 것이 종종 실현 가능하지 않거나 실용적이지 않기 때문에 샘플링이 사용됩니다. 모집단과 표본의 구분은 중요합니다. 왜냐하면 표본 데이터에서 만들어진 추론은 표본이 추출된 모집단에만 적용되어야 하고 다른 모집단에..
-
Hierarchical clustering vs K-meansData Science 2023. 2. 5. 16:39
정리하자면 K-means 알고리즘과 Hierarchical clustering은 다음과 같은 면에서 차이점이 있다. 1. Approach method: Hierarchical clustering는 기존 군집을 재귀적으로 병합하거나 분할하여 군집 계층을 구축하는 반면, k-means은 각 데이터 포인트를 가장 가까운 군집 중심에 반복적으로 할당하여 데이터를 k 군집으로 분할합니다. 2. Number of clusters: Hierarchical clustering에서 클러스터 수는 미리 지정되지 않고 덴드로그램 또는 미리 지정된 중지 기준에 따라 결정됩니다. k-means에서 클러스터 수(k)는 사용자가 지정합니다. 3. Distance metric: Hierarchical clustering은 일반적으로..
-
머신러닝 기초 - 편미분(Partial Derivative) 이란?Data Science 2023. 1. 24. 15:00
Partial Derivative 는 주로 여러 변수가 있는 함수를 대항으로 미분할 때 사용된다. 예를 들어, 위와 같은 표면이 있다고 할 때, 1. x 에 대해서 기울기를 구할 수 있고(y는 고정된 상태) 2. y에 대해서 기울기를 구할 수도 있다(x는 고정된 상태) 위의 그림을 함수로 표현해 보면 다음과 같다. f(x, y) = x^2 + y^3 x에 대해서 기울기를 구하면 power rule 에 의해 f'(x) = 2x가 된다. 이 경우에서, y^3는 상수로 취급된다 y에 대해서 기울기를 구하면 power rule에 의해 f'(y) = 3y^2가 된다. 이 경우에서 x^2는 상수로 취급된다 실생활의 예제에서는, 실린더의 voume를 구하는데에 사용될 수 있다. 위와 같은 실린더에서, 실린더는 다양한..
-
Mathematical Foundations of Machine Learning - Calculus 1Data Science 2023. 1. 1. 23:30
Calculus 1은 크게 세가지 목차로 이루어진다. 1. Limits(극한) 2. Computing Derivatives with Differentiation(미분 계산) 3. Automatic Differentiation(자동 미분) Limit의 사용 예 lim𝑥→1 (𝑥^2−1)/(𝑥−1) 다음과 같은 극한식에서, x = 1이 될 수 없다. (분모가 0이 되므로) 하지만 극한값을 이용해 x = 1이 가깝게 하여 y값을 구할 수는 있다. Delta method 미분값을 계산할 때, Delta method를 이용한다 미분값을 계산하는 데에는 몇가지 룰이 있다. 1. Power rule 2. Constant Multiple Rule 3. Sum rule 4. Product rule 5. Chain rul..
-
비트코인 시장에서의 IBS 전략 검증 - 역추세추종 먹히나?Data Science 2022. 12. 25. 20:25
트레이딩에는 크게 두가지 방법이 있습니다. 추세추종과 역추세추종 전략입니다. IBS(Internal Bar Strength indicator)전략은 대표적인 역추세추종 전략 중 하나로, 주가 하락시 짧은 반등을 이용해 단기매매하는 아이디어에서 비롯되었습니다. 주로 외환과 같은 장기추세가 없는 시장에서 널리 사용됩니다. 먼저 IBS전략의 공식부터 알아봅시다. (종가 - 저가) / (고가 - 저가) * 100 매수 = IBS 20 이것을 캔들로 파악해보겠습니다. Buy 신호와 Close 신호를 잘 살펴 보시면, 밑꼬리가 짧은 음봉에서 매수, 윗꼬리가 짧은 양봉에서 청산이 일어난 것을 확인해 볼 수 있습니다. 다시 말해 IBS가 100이면 장대양봉, 0이면 장대음봉이라 볼 수 있습..
-
Mathematical Foundations of Machine Learning - linear algebraData Science 2022. 12. 24. 22:48
What Linear Algebra is? "Solving for unknowns within system of linear equations" 쉽게 말하면, 두개의 방정식을 가지고 해를 구하는 것 Eigenvectors and Eigenvalues 좀더 직관적인 설명은 아래와 같다 Eigenvectors 는 다음과 같은 데이터셋과 결합될 수 있다 1. Eigenfaces 2. Eigenvoices 3. Eigenfrequencies (of vibrations) 4. Quantum mechanic 분야. Molecular orbitals 나 Schrodinger wave equation 5. Reproduction number R0 in eqidemiology Singular Value decomposi..
-
시끄러운 항공기 소음 - 줄이는 방법은 없을까?항공 관련 2022. 12. 16. 09:51
비행기 소음은 굉장히 성가신 부분입니다. 특히 공항 주변에 사는 사람들이라면 말이죠. 이 글에서는 비행절차, 형상기억합금 등 비행기 소음을 줄일 수 있는 부분들에 대해 알아보도록 하겠습니다 먼저, 비행기 소음의 원인은 무엇일까요? 주 원인은 엔진이고, 부가적으로는 랜딩기어, 날개 등이 있습니다. 먼저 FAA에서 계획한 CLEEN프로그램(Continuous Lower Energy, Emissions, and Noise)에 따르면, 주로 비행절차를 통한 소음 절감 방안을 꾀하고 있는 것 같습니다. 형상기억합금을 통해 항공기 구조 자체를 바꾸는 방법도 있기는 한데, 보수적인 FAA 기관의 특성상 기존에 있는 부분에서 개선하는 방향을 추구하고 있습니다. 참고로 이 CLEEN프로그램은 FAA가 125M$, Boe..