datascience
-
How does AI calculate the percentage in binary language system?Data Science 2022. 11. 13. 21:16
How does AI calculate the percentage in binary language system? 웨비나 도중 다른 패널로부터 이러한 질문을 받았다. 그냥 간단히 By using very complex statistical model 이라고 대답했는데, 답변이 충분하지 않았던 것같다. Data Science에 대해 잘 모르는 사람에게 이것에 대해 가장 이해가 쉽고 직관적인 답변을 생각해봤다. 고안해낸 답변은 다음과 같다. 1. 매우 큰 Dataset을 적절한 비율로 쪼갠다(일반적으로 Data Scince에서는 7:3비율로 나눈다) 2. 70%의 데이터셋을 훈련시키고, 나머지 30%데이터셋을 통해 테스트를 한다. 여기서 Output(결과값)은 0또는 1이다 3. 훈련시킨 모델과 실제 Dat..
-
Machine Learning with Python - ClusteringData Science 2022. 10. 7. 20:27
What is clustering? A group of objects that are similar to other objects in the cluster, and dissimilar to data points in other clusters. Then what is the difference between classification and clustering? The main difference is classification is used for labeled data, whereas clustering is used for non-labeled data(비지도 학습에 주로 사용) Where is clustering used? How can we determine the similarity or d..
-
Machine Learning with Python - Classification(작성중)Data Science 2022. 8. 20. 23:01
- What is classification? A supervised approach, categorizing some unknown items into a discrete set of categories of classes - Normally, unlabeled test case 에는 defualt 값을 지정해 0또는 1로 표시한다. -> binary classifier Category가 여럿인 multi-class classification 도 있다 - Classification 의 종류 - K-Nearest Neighbor classification(KNN algorithm) 이란? 인접한 변수끼리 묶어 주는 것 - K-nearest neighbors algorism process 1. Pick a..
-
Machine Learning with Python - Regression(Simple, Multiple, Non-linear regression)Data Science 2022. 8. 19. 11:03
Regression: a process of predicting a continuous value Types of regression models: Simple Regression / Multiple Regression Simple Linear Regression: one independent variable(x)을 갖고 하나의 dependent variable(y)을 도출해 내는 것 Multiple Linear Regression: 여러개의 Independent variable 을 갖고 하나의 dependent variable 을 도출해 내는 것 Simple Linear Regression 공식. 세타1은 coefficient 라고 불리고, 쎄타0는 Intercept라고 불린다 How to find t..
-
Machine Learning with Python - IntroData Science 2022. 8. 18. 17:50
Python libraries for machine learning Numpy, Pandas, Scikit-learn Scikit-learnd의 기능: preprocessing, model_selection, building classifier, fitting the model, confusion_matrix (결과 출력) Supervised vs Unsupervised learning(지도학습 vs 비지도학습) Supervised model: how to teach? by labeling the dataset Unsupervised learning techniques: Dimension reduction / Density estimation / market basket analysis / Cluster..
-
Data Analysis with Python - Data WranglingData Science 2022. 8. 13. 17:28
Data Wrangling 이란 raw data를 보다 쉽게 분석할 수 있다고 정리하고 통합하는 과정이다 칼럼 추가하는 법 file_name = "파일.csv" df = pd.read.csv(file_name) df['column'] = df['column']+1 Missing data는 어떻게 처리하나? How to drop missing values? df.dropna() # df is the dataframe df.dropna(subset = ['price'], axis = 0, inplace = True) # 와 df = df.dropna(subset=['price'], axis=0) # 은 같다 Make sure that inplace = True How to replace missing val..