본문 바로가기

ML3

[논문분석] 머신러닝에서 유의미한 Feature 쉽게 구분해내기 참고: https://www.jmlr.org/papers/volume3/stoppiglia03a/stoppiglia03a.pdf [서론] 빅데이터를 다루다보면 많은 feature들을 마주하게 됩니다. 많은 feature 들이 다 유의미한 값을 가져서 target값을 예측하는 경우도 있겠지만, 위의 문제점은 차원이 높아져서 학습하는데 어려움이 있고 오버피팅이나 정확한 타겟을 예측 못하는 경우가 발생할 수 있다는 것입니다. 이런 문제들 때문에 무조건 많은 feature 를 써서 고차원 모델을 만드는 것 보다, 때때로 차원을 낮춰주어 모델을 단순화 해주는 것이 normalization 즉 일반화를 더 잘 하는 모델이 되는 경우가 존재합니다. 그렇다면 어떤 feature를 쓰고 어떤 feature를 안쓰는 것이.. 2022. 5. 30.
시계열 분석에서 예측 모델의 구축 및 Stacking을 위한 베이지안 회귀 분석 방법 (2/2) - 구현 먼저 데이터를 불러온 후 null 값을 처리하고 시각화 해보았습니다. (데이터: https://www.kaggle.com/c/rossmann-store-sales) import pandas as pd import numpy as np store = pd.read_csv("../rossmann-store-sales/store.csv") train = pd.read_csv("../rossmann-store-sales/train.csv") test = pd.read_csv("../rossmann-store-sales/test.csv") store.isnull().sum() store.fillna(0, inplace=True) train.isnull().sum() test.fillna(0, inplace=Tru.. 2022. 2. 28.
ARIMAX를 이용하여 미국시장 전망 예측 <작성중> ARIMA 모델과 온라인 매체를 이용하여 S&P 500 과 Nasdaq 의 전망을 예측하는 모델을 만들어볼까 한다. 시장은 많은 요소들이 영향을 끼치기 때문에 완벽하게 예측하는 것은 불가능에 가깝다. 하지만 모든건 확률 싸움인 만큼, 정확도를 조금이라도 더 올릴 수 있는 파라미터들을 찾아서 예측 해 볼 수 있다면 시장을 상대로 조금 더 높은 승률을 가져갈 수 있을것이다. 세부적인것들을 보기 전에 시장의 trend 를 알아보기 위해 Nasdaq 을 예측하는 모델을 먼저 만들어 볼까한다. 시장은 세부적으로는 셀 수 없이 많은 영향을 받지만, 크게는 두가지 영향을 받는다: 1. Endogenous factors (technical factor) 2. Exogenous factors 간략히 설명하자면 1. 내부.. 2021. 8. 11.
반응형