본문 바로가기
Study/데이터산업 백서

AI기반 신용평가모델 탐색

by 23이병철 2023. 12. 3.

2023102778 이병철

 

신용도 측정

 

  요즘 인터넷 등의 발달로 신용등급확인을 언제 어디서나 할 수 있는 시대가 되었습니다. 

이는 기업도 마찬가지인데요

기업신용평가는 기업전용으로 나온 평가기준이며 기업들은 이 평가에 따라 신용도가 달라집니다.

일반적으로 기업신용평가의 경우 재무 정보를 중심으로 신용 상태를 평가하고, 개인신용평가의 경우 

금융거래 실적 정보 위주로 신용도를 평가합니다.

개인의 경우 통신비를 꼬박꼬박 잘냈는지 등이 평가요소로 측정됩니다.

 

하지만 소상공인, 개인사업자 등과 같이 규모가 작은 기업의 경우 재무 정보가 부족하고 금융거래정보가 

충분하지 않으며 사업체가 가진 유무형의 경쟁요소가 신용평가에 반영되지 않아 상대적으로 불리한 신용평가를

받는 상황이었습니다.

NICE

 

이런점을 개선하고자 신용평가서비스 기업인 NICE에선 사업자 전용 신용평가서비스를 출시하였습니다.

일반적으로 신용평가에 활용되는 대표자정보, 재무정보, 금융거래정보 외에도 비금융 대안정보를 대폭 활용하고,

머신러닝 및 딥러닝 기법을 적용함으로써 신용평가 정확성이 크게 개선되었습니다.

 

NICE는 본 서비스를 통해 충분한 데이터가 부족해서 신용평가 시 불이익을 받았던 소상공인을 대상으로 한 금융

혜택 제공 확대가 가능해지는 방향으로 나아가려 하고 있습니다. 소상공인 평가를 위한 대안정보 확충을 통해 사업자 

전용 신용평가서비스를 지속적으로 업그레이드를 계획 중에 있습니다.

 

그렇다면 데이터를 활용한 신용평가 기술인, 인공지능,딥러닝, 머신러닝이 무엇일까요?

 

인공지능

 

인공지능은 이 세가지 중 가장 포괄적인 표현으로서 인간의 지능이 기계에 구현된 것을 뜻합니다.

인간의 지적활동을 컴퓨터 등을 통해 자동화하고자 하는 노력들을 의미하기도 합니다.

 

머신러닝

머신러닝은 주어진 문제를 해결하기 위해 관련 데이터를 학습하는 알고리즘을 통해 규칙을 이끌어내는 

프로그래밍이라고 할 수 있으며 이를 도식화하면 아래의 그림처럼 나타납니다.

기존의 컴퓨터 프로그래밍은 주어진 문제를 해결하는 논리로서의 알고리즘을 고안하여 프로그래밍 언어로 

구현하는 것이었다면, 머신러닝은 주어진 문제를 해결하기 위해 관련데이터를 학습하는 알고리즘을 통해

규칙을 이끌어내는 프로그래밍이라고 할 수 있습니다. 조건반사 실험과 같은 원리라 생각하시면 됩니다!

 

딥러닝

 

딥러닝은 머신러닝 중에 하나로서 입력 데이터로부 문제 해결에 적합한 표현 을 찾는 데 있어 여러 개의 순차적인 표현 층(layer)을 통해 점진적으로 최적의 표 현을 찾아가는 방법론과 이러한 방법론을 연구하는 분야를 뜻합니다.

 

딥러닝의 모형 구조를 이루는 신경망은 신경생물학의 용어를 차용하였고 인간 뇌에서의 신경망 구조에 영감을 받았다고는 할 수 있으나, 딥러닝 모형의 메카니 즘은 뇌 작동의 그것과는 아무 연관성이 없습니다. 딥러닝과 그 구조를 이루는 신경망 은 주어진 데이터로부터 문제 해결을 위한 최적의 표현을 학습하기 위한 수학적 틀이라고 여기는 것이 적절할 것입니다.

 

신경망 구조는 <그림 4>와 같은 형태를 띄며, 여기서 세 개의 오렌지색 원은 하 나의 입력층, 파란색 원은 출력층, 그리고 녹색 원들은 다섯 개가 하나의 층을 구성하며 여러 개의 중간층을 나타냅니다.

각각의 원들은 노드(node)라 불리며 데이터 의 특성을 나타내는 요소라 볼 수 있습니다.

그리고 복잡하게 얽힌 선들은 여러 층의 노드들 간의 네트워크를 뜻합니다.

‘딥러닝’에서 ‘딥’의 의미는 신경망 구조에서 중간 층이 여러 개로 구성되어 있다는 의미이며

현대 머신러닝 모형은 중간층이 수십에 서 수백개까지 구성되는 경우도 있습니다.

이렇게 구성된 신경망 위에서 딥러닝은 어떤 과정을 통해 학습이 이루어지는 것 일까요?

이에 대한 답을 아래 그림을 통해 개략적으로 설명하고자 합니다. 

딥러닝 모형을 구성하고 있는 중간층은 수학적 변환을 나타내며

이는 변환함수 의 계수(weight)를 통해 구체적으로 특정됩니다.

딥러닝 모형은 학습을 통해 특정 계수의 조합을 찾음으로써 완성됩니다.

먼저 모형은 임의의 값을 계수 초기값으로 설정한 다음,

다수의 입력 데이터셋을 이 계수들로 특정된 중간층 변환을 거치게 한 후 예측값을 도출하게 됩니다.

이렇게 도출한 입력 데이터별 예측값과 각각의 입력 데이터에 해당하는 실제 결과값이

얼마나 가까운 지를 측정하는 기준을 수학적으로는 손실함수로 나타내며

그 값, 즉, 손실량은 최적화 알고리즘을 통해 손실함수의 최소값을 찾는 방향으로 계수를 조정하는 피드백의 역할을 하게 됩니다.

그렇게 조정된 계수로 구성된 중간층에 다시 입력 데이터를 투입하여 손실량을 계산하고 그 값으로 다시 계수를 조정하는 과정을 반복합니다.

이렇게 손실함수 최소화를 위해 계수를 조정해 가는 과정은 딥러닝의 핵심으로서 Back-propagation이라 불립니다.

앞서 우리는 머신러닝이 통계적 모형보다 그 적용에 있어 보편적이고 일괄적으로 적용하기 수월한 프레임워크를 갖고 있음을 기술한바 있습니다.

그러나 이미지, 음성, 텍스트 등 인지적 데이터에 대해서는 딥러닝 이전의 기존 머신러닝 또한 소위 말하는 피처 엔지니어링(feature engineering)을 통해 알고리즘 입력 데이터로 적정한 데이터 특징(feature)을 추출하는 작업을 별도로 해주어야 했습니다.

딥러닝은 다층적 신경망 구조를 통해 데이터를 최적의 표현으로 변환해주는 과정이 자동화되어 있는 바, 이러한 피처 엔지니어링 작업이 불필요해짐에 따라 인지적 데이터에 대한 머신러닝 학습 과정이 획기적으로 간소화되었습니다.

 

자 그럼 기초적인 개념은 끝났고 이제 본격적으로 신용평가 모형에 어떻게 적용되는지 살펴볼까요?

 

 

신용평가모델

 

기본적인 기업신용평가 모형은 아래의 그림처럼 이루어집니다.

 

'필터링'은 발생빈도는 낮으나 채무상환능력에 주요한 영향을 미치는 사유에 해당하는 기업의 등급을 특정등급으로

하향하는 과정이며, '등급조정'은 적정 사유가 있는 경우 평가자가 등급을 조정하는 단계입니다.

기업신용평가는 이러한 과정을 통해 이루어지며 여기서 산출된 등급을 '모형등급'이라 합니다.

신용평가모형의 구축은 기업 재무 데이터와 부도의 관계에 대한 통계적 분석, 평가자 전문가 판단 등을

반영하여 이루어집니다.

여기서 전문가 판단이라는 주관성이 들어가기에 객관적인 결과에 한계가 있었습니다.

 

그래서 머신러닝을 사용한 신용평가모형을 이용하면 좀더 객관성을 얻을 수 있습니다.

 

머신러닝이란 주어진 룰에 입력값을 투입하여 결과를 도출하는 기존의 알고리즘이 아니라, 주어진 데이터로부터

룰을 도출하는 알고리즘이라 할 수 있습니다.

딥러닝을 비롯한 머신러닝의 금융 적용사례 중 대표적인 것 중의 하나는 신용평가모형일텐데요,

  그 중에서 먼저 신용평가 재무모형에 대해 방법론상 개념적 측면에서 다루고자 합니다.

기존의 신용평가 재무모형은 평가항목을 입력변수로 하여 주로 로지스틱 회귀 모형으로 개발되어 왔습니다

그 과정에서 다양한 통계적 분석 및 의사결정을 통해 전체 후보 평가항목 중 일부를 선정한 후 로지스틱 회귀분석에

들어가게 됩니다.

이러한 방식은 예상부도율과 평가항목 사이에 특정한 수리적 관계를 가정하는 셈이 되며 데이터에 내재된 특성을 충분히 반영하고 있다고 하기 어렵다고 볼 수 있죠.

이에 데이터 기반의 머신러닝 기법을 도입함으로써 신용평가모형의 고도화를 도모할 수 있을 것으로 판단됩니다.

현재 머신러닝 알고리즘은 크게 신경망 기반의 알고리즘과 그에 속하지 않는 알고리즘으로 나눌 수 있을 것이에요.

머신러닝 기반 신용평가 재무모형은 재무 정보(입력 데이터)와 부도여부(결과 데이터) 간의 관계를 머신러닝을 통해 모델링하는 것으로 지도학습(Supervised Learning)에 해당하며, 구조화된 데이터들인 바 Decision Tree 기반의 Gradient Boosting Machine(GBM) 알고리즘을 검토하고자 합니다.

GBM은 아래 <그림 8>과 같이 전 단계 tree의 예상결과와 실제 결과의 차이를 다음 tree의 손실 함수로 정의하는 방식으 로 순차적으로 tree를 구성한 후, 이들 각각의 tree의 예측결과를 합산하는 ensemble 방식의 모형입니다.

GBM 방식의 알고리즘은 잔여 에러가 큰 데이터셋에 좀 더 주안점을 두고 학습을 진행하므로 트레이닝 결과가 우수합니다. 신용평가모형은 머신러닝 관점에서는 이진 분류 (binary classification) 문제로서 머신러닝 결과를 측정하는 주요한 metric으로는 정확도와 ROC (Receiver Operator Characteristic) 커브에서 AUC(Area Under the Curve) 5)가 있습니다.

신용평가모형의 경우 부도 사례가 정상 사례보다 샘플 수가 훨씬 작음에 따라 정확도보다는 AUC를 metric으로 사용하는 것이 적절한 것으로 판단됩니다.

이러한 과정을 통해서 구축한 머신러닝 신용평가모형은 대개 모형 변별력이 우수하고 신용평가에 있어 비선형적 요소를 잘 반영하는 것으로 보고된다고 합니다. 한 사례로 Moody’s 의 연구결과를6) 예로 들자면, boosting 기반의 머신러닝 모형이 가장 우수한 변별력을 보여주며 <그림 9>와 같이 이자비용 대비 EBITDA 비율과 부도율 간의 비선형적 요소도 가장 잘 반영하고 있음을 확인할 수 있어요.

머신러닝 신용평가모형은 여러 가지 긍정적인 면이 있으나, 향 후 해결해야 할 이슈 중의 하나는 설명력의 문제이죠. 의료나 금융 분야에서는 고객 또는 현업 담당자들에게 모형의 결과를 설명할 수 있는 것이 중요한데,

현재 머신러닝 모형 들은 이 점에 있어 명확한 결론이 없는 것으로 판단돱니다.

다만, 이는 머신러닝 적용 신용평가모형 뿐만 아니라 머신러닝의 보편적 이슈인 바, 머신러닝 분야에서 활발히 연구되고 있어요.

 

현대 인간의 삶에서 머신러닝은 다양한 영역에서 영향을 미치고 있으며, 금융에 서도 데이터 기반의 의사결정을 위한 시도들이 많이 이루어지고 있습니다.

머신러닝 신용평가모형은 그러한 시도들 가운데 대표적인 사례 중 하나로서, 학계 및 금융 계의 다수의 자료에서 그 효용성이 입증되고 있다고 할 수 있어요. 머신러닝이 해결해야 하는 과제 중 하나인 설명력을 갖춘다면,

머신러닝 기반 신용평가모형은 유효한 모형으로 자리잡을 수 있을 것입니다!!

 

감사합니다!!