FinBert란?
FinBERT는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 기반으로 금융 데이터 분석에 특화된 언어 모델이다. 기본적으로 BERT는 Google에서 개발한 자연어 처리(NLP) 모델로, 양방향으로 문맥을 이해하는 혁신적인 방식으로 언어 데이터를 처리한다. 하지만 기본 BERT 모델은 일반 도메인의 텍스트(예: Wikipedia, BookCorpus)로 학습되었기 때문에, 금융 데이터와 같은 특수 분야의 텍스트를 분석하는 데는 한계가 있었다.
FinBERT는 이러한 한계를 극복하기 위해 설계되었으며, 금융 뉴스, 소셜 미디어, 보고서 등 금융 관련 텍스트를 효과적으로 분석할 수 있도록 BERT 모델을 재학습(Fine-tuning)한 결과물이다. 특히 감성 분석(Sentiment Analysis)과 문장 분류(Task Classification) 작업에서 금융 데이터의 특성을 잘 반영하여 높은 성능을 보인다.
1. 금융 데이터 분석의 필요성
금융 시장은 뉴스, 보고서, 소셜 미디어와 같은 텍스트 데이터에 강한 영향을 받는다. 특정 회사의 주가 변동, 시장 상황 변화, 정치적 이슈는 대부분 텍스트 데이터로 전달되며, 이를 분석해 투자 전략을 수립하는 것이 중요하다.
기존의 감성 분석 모델들은 일반적인 텍스트에서 훈련되었기 때문에 금융 데이터의 문맥적 특성을 이해하는 데 한계가 있었다. 금융 데이터는 일반적인 텍스트와는 다른 구조와 표현을 가지며, 예를 들어 다음과 같은 구문이 많다:
- "Tesla’s stock is expected to rally after the earnings report."
- "Inflation concerns dampened investor sentiment."
이와 같은 문장은 금융 시장에서 긍정적, 부정적, 혹은 중립적 의미를 포함할 수 있지만, 기존 NLP 모델로는 이를 명확히 분류하기 어렵다. 이에 따라 금융 데이터 전용 모델의 필요성이 커졌고, FinBERT가 개발되었다.
2. BERT의 한계와 FinBERT의 개선
BERT는 언어 모델의 혁신적인 발전을 이끌었지만, 금융 도메인에서는 다음과 같은 한계를 보였다:
- 일반적인 텍스트에 초점: 금융 문서에서 자주 사용되는 용어와 패턴을 제대로 이해하지 못함.
- 전문적인 문장 구조: 금융 텍스트는 일반 문장과 다르게 복잡한 구조를 가지며, 시장 용어와 같은 특수한 어휘를 포함.
FinBERT는 BERT의 구조를 기반으로 하면서, 금융 데이터셋으로 추가 학습(파인튜닝)하여 이러한 문제를 해결했다. 학습에는 금융 뉴스, 보고서, Financial PhraseBank와 같은 금융 도메인 데이터셋이 활용되었다.
FinBERT 감성 분석의 수학적 개념
FinBERT는 입력 텍스트를 토큰으로 변환하고, 각 토큰을 임베딩하여 Transformer 레이어를 통해 처리한다. 최종적으로 소프트맥스(Softmax) 함수를 사용해 감성 점수를 출력한다.
FinBERT의 감성 점수 계산
소프트맥스 결과는 각 클래스의 확률 값을 반환한다:
Positive, Negative, Neutral 이 세 가지로 분류되어 가장 높은 확률 값을 갖는 클래스가 최종 레이블로 선택된다.
이 그림은 Financial PhraseBank 데이터셋을 사용하여 여러 감성 분석 모델의 성능을 비교한 표이다. Financial PhraseBank는 금융 문장에서 감성(긍정, 부정, 중립)을 분류하기 위해 자주 사용되는 데이터셋이다. 표는 각 모델의 손실(Loss), 정확도(Accuracy), F1 Score를 두 가지 조건에서 평가한 결과를 보여준다.
FinBERT는 금융 데이터에 특화된 학습으로 인해 다른 모델에 비해 가장 높은 정확도와 F1 점수를 기록하였다. 특히:
- 100% Agreement 데이터에서는 97%의 정확도와 0.95의 F1 Score로 금융 텍스트 감성 분석에서 탁월한 성능을 보였다.
- 이는 BERT 기반 모델이 금융 텍스트의 특수성을 잘 학습하고, 문맥의 앞뒤를 모두 이해하는 양방향 특성이 금융 데이터 분석에 적합하기 때문이다.
이 표는 금융 데이터 감성 분석에서 FinBERT가 다른 모델에 비해 우수한 성능을 가진다는 것을 실험적으로 보여준다. FinBERT는 높은 데이터 품질과 금융 도메인의 특수성을 반영하는 상황에서 특히 강력하며, 금융 뉴스나 소셜 미디어 데이터를 분석하여 투자 결정을 돕는 데 매우 효과적이다.
위와 같은 이유로 FinBERT를 감성분석 모델로 선정하였고, 아래는 뉴스데이터를 이용해 감성분석을 수행한 모습이다.
senti_score는 금융 텍스트에 대한 FinBERT 모델을 이용해 분석된 감성 점수를 나타낸다. 점수는 -1에서 1 사이의 값으로, 음수일수록 부정적이고 양수일수록 긍정적인 감정을 의미한다.
- 2024년 10월 27일: 감성 점수가 -0.48로 부정적인 감정을 나타냄.
- 2024년 11월 3일: 감성 점수가 -0.52로 부정적인 감정이 더욱 심화됨.
이 결과는 해당 기간 동안 부정적인 금융 뉴스가 시장에 영향을 미쳤을 가능성을 보여준다. 특히, 감성 점수가 하락하고 있는 추세는 투자 심리에 부정적인 영향을 줄 수 있음을 시사한다. 이를 통해 모델은 투자 판단 시 외부 뉴스나 시장의 전반적인 감정 상태를 참고하는 데 도움을 줄 수 있다.
FinBERT 모델을 이용해 특정 뉴스 기사를 분석한 결과를 보여준다. 각 뉴스 제목, 날짜, 출처, 감성 레이블(긍정, 부정, 중립), 감성 점수, URL이 포함되어 있으며, 모델의 신뢰도도 함께 나타난다.
- 첫 번째 뉴스
- 제목: "Low consumer spending in China hinders economy there and abroad"
- 날짜: 2024년 10월 31일
- 출처: VOA News
- 감성 레이블: Negative
- 감성 점수: -0.728
- 신뢰도: 0.673
- 두 번째 뉴스
- 제목: "Musk Meets Voters in Pennsylvania, Hints at Serving in Trump Administration"
- 날짜: 2024년 10월 19일
- 출처: Biztoc.com
- 감성 레이블: Positive
- 감성 점수: 0.266
- 신뢰도: 0.573
- 세 번째 뉴스
- 제목: "Tesla’s sporty, two-seater robotaxi design puzzles experts"
- 날짜: 2024년 10월 12일
- 출처: Honolulu Star-Advertiser
- 감성 레이블: Neutral
- 감성 점수: -0.104
- 신뢰도: 0.858
위와 같이 감정분석을 수행하였다.
FinBERT는 금융 데이터를 처리하기 위해 특별히 설계된 강력한 언어 모델이다. 일반적인 NLP 모델의 한계를 극복하고, 금융 시장의 복잡한 문맥과 구조를 효과적으로 이해하여 감성 분석 및 다양한 금융 데이터 처리 작업에서 탁월한 성능을 제공한다. FinBERT는 금융 시장의 심리와 트렌드를 분석하는 도구로써, 투자 전략 수립, 리스크 관리, 시장 예측 등의 다양한 분야에서 널리 활용될 수 있다.