본문 바로가기

전체 글31

1-1. GCP 가상환경 만들기 먼저 주식 자동화를 위하여 VM(가상환경 aka. Virtual Machine)을 만들어 보겠습니다. 가상환경을 만들기 위해서 AWS (Amazon), Azure (Microsoft), GCP (Google) 등의 플랫폼이 있고 오늘 가상환경을 만들 플랫폼은 GCP를 이용한 플랫폼입니다. https://console.cloud.google.com Google 클라우드 플랫폼 로그인 Google 클라우드 플랫폼으로 이동 accounts.google.com 위 사이트에 접속하게 되면 자신의 아이디와 비밀번호를 입력하면, 처음에 공짜로 사용할 수 있는 300달러를 지원해줍니다. 회사 이메일주소까지 있다면 200달러를 추가로 지원받을 수 있으니, 아이디를 만들어 주시면 됩니다. 그 후 GCP console 로 .. 2022. 7. 22.
[논문분석] 머신러닝에서 유의미한 Feature 쉽게 구분해내기 참고: https://www.jmlr.org/papers/volume3/stoppiglia03a/stoppiglia03a.pdf [서론] 빅데이터를 다루다보면 많은 feature들을 마주하게 됩니다. 많은 feature 들이 다 유의미한 값을 가져서 target값을 예측하는 경우도 있겠지만, 위의 문제점은 차원이 높아져서 학습하는데 어려움이 있고 오버피팅이나 정확한 타겟을 예측 못하는 경우가 발생할 수 있다는 것입니다. 이런 문제들 때문에 무조건 많은 feature 를 써서 고차원 모델을 만드는 것 보다, 때때로 차원을 낮춰주어 모델을 단순화 해주는 것이 normalization 즉 일반화를 더 잘 하는 모델이 되는 경우가 존재합니다. 그렇다면 어떤 feature를 쓰고 어떤 feature를 안쓰는 것이.. 2022. 5. 30.
Dynamic Time Warping을 이용하여 비슷한 주식 clustering 하기 시계열 데이터를 공부하다 보면 비슷하게 움직이거나 서로 관련이 있는 데이터들을 종종 볼 수가 있습니다. 예를 들어 주식시장 데이터에 빗대어 설명해 보면, 전염병에 민감한 주식인 항공주들 같은 경우 코로나 발생이후 급격히 떨어졌으며 계속 서로 비슷하게 움직이는걸 확인할 수 있습니다. 위 그래프는 미국의 대표 한공사인 American Airline 과 Delta Airline의 그래프입니다. 상당히 비슷하게 움직이는 것을 확인할 수 있고 같은 테마로 움직이는 시계열 데이터라고 볼 수 있습니다. 하지만 우리가 위와 같은 사전 정보가 없이 (AAL이랑 DAL이랑 비슷하게 움직이는것을 모르는채) 이러한 정보를 알아낼수 있는 방법을 가장 잘 나타낸 알고리즘중 하나가 Dynamic Time Warping (DTW) .. 2022. 3. 3.
Dynamic Time Warping (DTW) Dynamic Time Warping (DTW)란? - 시계열 분석에서 DTW는 속도가 다를 수 있는 두 시간 시퀀스 사이의 유사성을 측정하기 위한 알고리즘 중 하나입니다. DTW는 비디오, 오디오 및 그래픽 데이터의 시간적 시퀀스에 적용되었으며 실제로 선형 시퀀스로 변환될 수 있는 모든 데이터는 DTW로 분석할 수 있습니다. 예를들어 아래와 같은 데이터가 있다고 생각해 보겠습니다. a1 = [7,9,6,9,12,6,4,6,8] a2 = [1,1,7,9,6,9,12,6,4] x = [x for x in range(1,10)] plt.plot(x,a1) plt.plot(x,a2) plt.show() 두 데이터는 유사한 패턴을 가지지만 두 데이터의 유사도를 각각의 포인트의 점들로 계산을 한다면 유사도는 그렇.. 2022. 3. 2.
반응형