The data cleaning pipeline consists of the following 11 steps, each executed independently without deleting the original data:
| getdataset() | Load and format data | references.func | | organalysis() | Organization sample analysis | references.func | | missingcheck() | Calculate missing rate | references.func | | dropabnormalym() | Filter abnormal months | references.analysis | | drophighmissfeatures() | Drop high missing rate features | references.analysis |
| droplowivfeatures() | Drop low IV features | references.analysis | | drophighpsifeatures() | Drop high PSI features | references.analysis | | drophighnoisefeatures() | Null Importance denoising | references.analysis | | drophighcorrfeatures() | Drop high correlation features | references.analysis |
대출 전 모델링을 위한 신용 리스크 데이터 정리 및 변수 스크리닝 파이프라인. 모델링 전 품질 평가, 결측값 분석 또는 변수 선택이 필요한 원시 신용 데이터로 작업할 때 사용합니다. 데이터 로딩 및 형식화, 비정상적인 기간 필터링, 누락 비율 계산, 높은 누락 변수 제거, 낮은 IV 변수 필터링, 높은 PSI 변수 제거, Null 중요도 제거, 높은 상관 변수 제거 및 정리 보고서 생성을 다룹니다. 적용 가능한 시나리오는 신용 위험 데이터 정리, 변수 스크리닝, 대출 전 모델링 전처리입니다. 출처: github/awesome-copilot.