2024/11 5

주가예측 알고리즘: 랜덤포레스트

주가 예측에 사용한 핵심 알고리즘은 '랜덤포레스트'를 사용하였다. 랜덤포레스트(Random Forest)는 앙상블 학습의 일종으로, 다수의 결정 트리(Decision Tree)를 생성하고 이를 결합하여 예측 성능을 향상시키는 머신러닝 알고리즘이다. 랜덤포레스트를 선택한 이유는 여러가지가 있었다. 처음 시작은 lstm이었는데, 딥러닝은 다뤄본적이 없었기도 했고 수개월간 시도를 해 보았는데 큰 진전이 없어 ML으로 다시 도전해보고자 했다. 검색량과 뉴스의 감성분석 등 여러 특징들을 사용하여 주가 예측을 수행하고 싶었기 때문에 조금 오래된 모델이어도 랜덤포레스트를 사용했다.    랜덤포레스트의 특징앙상블 모델 여러 개의 결정 트리 모델을 생성한 뒤, 각각의 결과를 평균 내거나 다수결 투표를 통해 최종 예측값을..

카테고리 없음 2024.11.30

주가예측 결과

ML 모델은 fandomforest를 사용하였다.    예측 모델이 사용하는 변수들 중 어떤 요소가 결과에 가장 큰 영향을 미치는지를 분석한 그래프이다. 변수의 중요도를 시각화하여 모델의 의사결정 과정을 이해하는 데 도움을 준다.가장 중요한 변수:Price는 예측 모델에서 가장 중요한 변수로, 주가 데이터가 모델의 성능에 핵심적인 영향을 미친다.Vol(거래량)은 시장 움직임을 반영하며, 주가 변동성과 관련된 정보를 제공한다.Change(변화율)는 주간 주가 변화의 크기를 나타내며, 중요한 의사결정 변수로 작용한다.중간 정도의 중요도를 가진 변수:Search(검색량)는 사람들이 특정 주식에 얼마나 관심을 가지는지를 나타내며, 투자 심리와 연관성이 높다.positive_score와 negative_score..

카테고리 없음 2024.11.29

뉴스데이터 감성분석: FinBERT

FinBert란? FinBERT는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 기반으로 금융 데이터 분석에 특화된 언어 모델이다. 기본적으로 BERT는 Google에서 개발한 자연어 처리(NLP) 모델로, 양방향으로 문맥을 이해하는 혁신적인 방식으로 언어 데이터를 처리한다. 하지만 기본 BERT 모델은 일반 도메인의 텍스트(예: Wikipedia, BookCorpus)로 학습되었기 때문에, 금융 데이터와 같은 특수 분야의 텍스트를 분석하는 데는 한계가 있었다.FinBERT는 이러한 한계를 극복하기 위해 설계되었으며, 금융 뉴스, 소셜 미디어, 보고서 등 금융 관련 텍스트를 효과적으로 분석할 수 있도록 BERT 모델을 재학습(Fine..

카테고리 없음 2024.11.28

Google Trends 데이터 요청 에러: 429

실행을 여러번 시도했더니, 어느 순간부 이러한 오류가 발생하면서 실행이 되지 않는 문제가 발생했다.찾아보니, 이 에러는 Pytrends 라이브러리를 사용하여 Google Trends 데이터를 요청하는 과정에서 발생한 에러이다. 구체적으로, 에러 메시지에서 나타난 429 상태 코드는 "Too Many Requests"를 의미하며, 이는 사용자가 너무 많은 요청을 짧은 시간 내에 보냈을 때 Google에서 차단한 결과이다.ip를 바꾸어서도 실행하고, 여러 방법으로 시도하거나, 시간을 좀 더 두고 실행해야 한다. 원인에는 세 가지 정도가 있다.요청 과다Google Trends API는 사용자가 특정 시간 내에 보낼 수 있는 요청 수에 제한을 두고 있다. 이 제한을 초과하면 Google은 429 응답을 반환하며..

study 2024.11.23

검색량을 이용한 주가예측

주차별로 최적의 하이퍼파라미터와 이를 적용한 예측 모델의 정확도를 보여주는 결과이다. 각 주차에서 하이퍼파라미터 튜닝을 통해 최적의 매개변수를 찾았으며, 이를 바탕으로 모델을 학습하고 정확도를 측정하였다.예를 들어, 4주 차에서는 예측 정확도가 0.9259로 높은 편이지만, 6주 차에서는 0.7222로 상대적으로 낮아지는 경향을 보였다. 그러나 이후 10주 차에서 예측 정확도가 1.0000으로 크게 향상된 것을 확인할 수 있다. 이는 학습 데이터와 튜닝 전략의 개선이 모델 성능에 긍정적인 영향을 미쳤음을 의미한다.이 데이터를 통해 모델이 주차별로 얼마나 잘 적응하고 있는지 확인할 수 있으며, 최적의 하이퍼파라미터 설정이 모델 성능에 미치는 영향을 구체적으로 평가할 수 있다.      2017년 1월부터의..

study 2024.11.20