분류 전체보기 8

모델 학습 방법

설명: os.makedirs 함수를 사용하여 모델을 저장할 디렉토리를 생성한다.exist_ok=True를 통해 디렉토리가 이미 존재해도 에러가 발생하지 않도록 설정한다.의미: 학습한 모델을 파일로 저장하여 재사용 가능하도록 설정한다. 이 코드는 base/model 경로에 모델을 저장한다.  설명:1주부터 10주까지 총 10개의 모델을 생성하기 위해 반복문을 사용한다. 각 반복에서 개별 주차 데이터를 활용하여 랜덤포레스트 모델을 학습한다.의미:주차별 데이터를 독립적으로 처리하여 모델을 생성함으로써 특정 기간의 데이터에 특화된 예측 모델을 생성할 수 있다. 설명:RandomForestClassifier는 랜덤포레스트 모델을 생성하며, base_params를 통해 하이퍼파라미터를 설정한다.이후, fit 메서드..

카테고리 없음 2024.12.05

정보처리기사 필기 후기: 일주일 공부 합격

5월에 정보처리기사 2회 필기를 응시했다. 일단 정보처리기사 필기시험은 문제은행 형식(cbt)이라 기출문제를 풀어야겠다고 생각했다. 시험때도 봤던 문제들이 가끔 나오기 때문에 문제 자체를 외우면 더 쉽게 합격할 수 있는 것 같다.자격증은 무조건 단기로 따야한다는 생각이 있어서 무모하게 일주일정도만 공부를 했다. 결과는 합격했지만 누가 쫓아오는 것 처럼 공부해야하기 때문에 좀 더 길게 공부하는 것을 추천,, 꿀팁 있음7일? 8일? 정도 하루에 3-4시간정도 공부했고, 공부해 본 다른 자격증들에 비하면 매우 쉽다.   필기 시험은 총 5단원으로 이루어져있다. 1. 소프트웨어 설계 20문제2. 소프트웨어 개발 20문제3. 데이터베이스 구축 20문제4. 프로그래밍 언어 활용 20문제5. 정보 시스템 구축관리 2..

카테고리 없음 2024.12.05

주가예측 알고리즘: 랜덤포레스트

주가 예측에 사용한 핵심 알고리즘은 '랜덤포레스트'를 사용하였다. 랜덤포레스트(Random Forest)는 앙상블 학습의 일종으로, 다수의 결정 트리(Decision Tree)를 생성하고 이를 결합하여 예측 성능을 향상시키는 머신러닝 알고리즘이다. 랜덤포레스트를 선택한 이유는 여러가지가 있었다. 처음 시작은 lstm이었는데, 딥러닝은 다뤄본적이 없었기도 했고 수개월간 시도를 해 보았는데 큰 진전이 없어 ML으로 다시 도전해보고자 했다. 검색량과 뉴스의 감성분석 등 여러 특징들을 사용하여 주가 예측을 수행하고 싶었기 때문에 조금 오래된 모델이어도 랜덤포레스트를 사용했다.    랜덤포레스트의 특징앙상블 모델 여러 개의 결정 트리 모델을 생성한 뒤, 각각의 결과를 평균 내거나 다수결 투표를 통해 최종 예측값을..

카테고리 없음 2024.11.30

주가예측 결과

ML 모델은 fandomforest를 사용하였다.    예측 모델이 사용하는 변수들 중 어떤 요소가 결과에 가장 큰 영향을 미치는지를 분석한 그래프이다. 변수의 중요도를 시각화하여 모델의 의사결정 과정을 이해하는 데 도움을 준다.가장 중요한 변수:Price는 예측 모델에서 가장 중요한 변수로, 주가 데이터가 모델의 성능에 핵심적인 영향을 미친다.Vol(거래량)은 시장 움직임을 반영하며, 주가 변동성과 관련된 정보를 제공한다.Change(변화율)는 주간 주가 변화의 크기를 나타내며, 중요한 의사결정 변수로 작용한다.중간 정도의 중요도를 가진 변수:Search(검색량)는 사람들이 특정 주식에 얼마나 관심을 가지는지를 나타내며, 투자 심리와 연관성이 높다.positive_score와 negative_score..

카테고리 없음 2024.11.29

뉴스데이터 감성분석: FinBERT

FinBert란? FinBERT는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 기반으로 금융 데이터 분석에 특화된 언어 모델이다. 기본적으로 BERT는 Google에서 개발한 자연어 처리(NLP) 모델로, 양방향으로 문맥을 이해하는 혁신적인 방식으로 언어 데이터를 처리한다. 하지만 기본 BERT 모델은 일반 도메인의 텍스트(예: Wikipedia, BookCorpus)로 학습되었기 때문에, 금융 데이터와 같은 특수 분야의 텍스트를 분석하는 데는 한계가 있었다.FinBERT는 이러한 한계를 극복하기 위해 설계되었으며, 금융 뉴스, 소셜 미디어, 보고서 등 금융 관련 텍스트를 효과적으로 분석할 수 있도록 BERT 모델을 재학습(Fine..

카테고리 없음 2024.11.28

Google Trends 데이터 요청 에러: 429

실행을 여러번 시도했더니, 어느 순간부 이러한 오류가 발생하면서 실행이 되지 않는 문제가 발생했다.찾아보니, 이 에러는 Pytrends 라이브러리를 사용하여 Google Trends 데이터를 요청하는 과정에서 발생한 에러이다. 구체적으로, 에러 메시지에서 나타난 429 상태 코드는 "Too Many Requests"를 의미하며, 이는 사용자가 너무 많은 요청을 짧은 시간 내에 보냈을 때 Google에서 차단한 결과이다.ip를 바꾸어서도 실행하고, 여러 방법으로 시도하거나, 시간을 좀 더 두고 실행해야 한다. 원인에는 세 가지 정도가 있다.요청 과다Google Trends API는 사용자가 특정 시간 내에 보낼 수 있는 요청 수에 제한을 두고 있다. 이 제한을 초과하면 Google은 429 응답을 반환하며..

study 2024.11.23

검색량을 이용한 주가예측

주차별로 최적의 하이퍼파라미터와 이를 적용한 예측 모델의 정확도를 보여주는 결과이다. 각 주차에서 하이퍼파라미터 튜닝을 통해 최적의 매개변수를 찾았으며, 이를 바탕으로 모델을 학습하고 정확도를 측정하였다.예를 들어, 4주 차에서는 예측 정확도가 0.9259로 높은 편이지만, 6주 차에서는 0.7222로 상대적으로 낮아지는 경향을 보였다. 그러나 이후 10주 차에서 예측 정확도가 1.0000으로 크게 향상된 것을 확인할 수 있다. 이는 학습 데이터와 튜닝 전략의 개선이 모델 성능에 긍정적인 영향을 미쳤음을 의미한다.이 데이터를 통해 모델이 주차별로 얼마나 잘 적응하고 있는지 확인할 수 있으며, 최적의 하이퍼파라미터 설정이 모델 성능에 미치는 영향을 구체적으로 평가할 수 있다.      2017년 1월부터의..

study 2024.11.20

lstm을 이용한 주가 예측

테슬라 주가 데이터를 이용해 LSTM(Long Short-Term Memory) 모델을 학습시키고, 이를 통해 주가를 예측하는 과정입니다.주가 데이터셋은 https://www.kaggle.com/datasets/varpit94/tesla-stock-data-updated-till-28jun2021을 사용했습니다. 1. 라이브러리 및 데이터 설정2. 파라미터 설정3. 데이터 준비4. 모델 정의 및 학습5. 모델 학습 함수 정의 및 학습 수행6. 모델 평가 및 예측7. 손실 및 예측값 시각화   1. 라이브러리 및 데이터 설정  2. 파라미터 설정  3. 데이터 준비  4. 모델 정의 및 학습  5. 모델 학습 함수 정의 및 학습 수행  6. 모델 평가 및 예측  7. 손실 및 예측값 시각화     초기 구..

study 2024.06.19