Machine learning в риск-менеджменте: стоимость входа

Одним из стимулов развития моделей машинного обучения в сфере оценки и управления кредитным риском стала практика применения внутренних рейтинговых моделей российскими банками, в том числе в рамках IRB-подхода к оценке кредитных рисков. Из-за заблуждения об избыточной ресурсоемкости и себестоимости разработки подобных моделей они пока не получили достаточного распространения, особенно среди небольших кредитных организаций.

Беликов Юрий Леонидович

Модели машинного обучения могут значительно упростить такие процедуры, связанные с принятием риска, как:

принятие первичных решений по кредитным заявкам на основе скоринга;
определение уровня резервирования требований банков к корпоративным заемщикам и контрагентам в соответствии со стандартом МСФО 9;
установление кредитных лимитов и иных лимитов риска на заемщиков и контрагентов;
оптимизация условий предоставления финансирования;
портфельное моделирование в целях построения прогноза денежных потоков;
формирование суждения о дефолтности пула активов на основе индивидуальной оценки входящих в его состав кредитов;
оценка контрагентов на предмет вероятности невыполнения обязательств не только по кредитным, но и любым другим договорам;
валидация используемых в процедурах кредитования, инвестирования и управления рисками методологий, моделей и экспертных систем.

Типовые целевые переменные для оценки — это вероятность дефолта (PD) заемщиков и иных контрагентов, уровень потерь при дефолте контрагента (LGD), производные от них ожидаемые потери (EL) — величина, в абсолютном или относительном выражении представляющая собой математическое ожидание потерь банка-кредитора по отдельному кредиту или целому пулу активов. Указанным целевым переменным в отличие от простой классификации или ранжирования сопоставляется точная величина, как того требуют, в частности, стандарты Базельского комитета по банковскому надзору, последовательно имплементируемые в регулирование российского банковского сектора.

Машинное, или индуктивное, обучение основано на выявлении эмпирических закономерностей в данных и тем самым противопоставляет разработанные с его применением модели экспертным системам, созданным на основе накопленных знаний, экспертных наблюдений и суждений. Дилемма «что эффективнее» в принципе не возникает, поскольку различные модели имеют разное целевое назначение и, более того, могут органично дополнять друг друга. Простейший пример — проведение первичного скоринга заемщиков, отсечение заявок с минимальным скоринговым баллом и последующий андеррайтинг прошедших заданный критерий заявок, в ходе которого эксперты принимают во внимание результаты скоринга и выявленные машинными методами факторы риска.

Активному распространению моделей машинного обучения в области риск-менеджмента препятствуют опасения чрезмерных трудозатрат и материальных издержек, связанных с их внедрением и поддержкой. В действительности наиболее эффективные и популярные среды разработки, как и функциональные библиотеки для применяемых языков программирования, распространяются на бесплатной основе, а для разработки и даже последующего применения стандартной модели достаточно одной не самой новой рабочей станции. Самый сложный и трудоемкий этап создания модели — это подготовка массива данных для ее обучения. Условимся понимать под обучающей выборкой наблюдений и параметров статистику дефолтов заемщиков (например, корпоративных) за определенный период времени, а также параметры и характеристики этих заемщиков (общую информацию, исходные и производные финансовые показатели, платежную дисциплину, данные о структуре собственности и органах управления и так далее) и выданных им кредитов (суммы, ставки, срочность, обеспеченность, факты реструктуризации и другие условия). Обучающая выборка одновременно должна отвечать целому ряду требований, в числе которых:

достаточный объем выборки при отсутствии строго формализованных универсальных критериев достаточности;
историчность (к примеру, ретроспективы последнего завершившегося года определенно будет недостаточно для обучения эффективной модели, поскольку такой непродолжительный период может быть недостаточно репрезентативен в рамках текущего бизнес-цикла);
однозначность классификации наблюдений (например, на дефолтные и устойчивые) на основе специально разработанных правил, которые наиболее применимы к выборке и соответствуют целям применения модели;
унифицированность и чистота данных, в том числе значений, необходимых для расчета всех предполагаемых параметров модели, которые будут протестированы на предмет их предсказательной способности и либо войдут в модель, либо будут отвергнуты;
однородность статистики;
релевантность статистики для предсказания целевых переменных в будущем на ее основе.

С учетом перечисленных требований при формировании выборки средние и небольшие с позиции клиентской базы, объема и гранулированности активных операций кредитные организации могут сталкиваться со следующими проблемами.

Во-первых, банк может просто не располагать однородной статистикой дефолтов и массивом характеристик объектов кредитного риска за существенное число завершившихся периодов в силу работы в небольшой рыночной нише с ограниченной клиентской базой или волатильности объемов активных операций.

Во-вторых, накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков, банк с неокончательно сформированной географической структурой деятельности или кредитная организация, претерпевающая изменение отраслевой или размерной структуры кредитного портфеля.

В-третьих, может возникнуть неоднозначность при классификации наблюдений, даже в случае такого простого признака, как факт дефолта. Многие кредитные организации прибегают к практике реструктуризации потенциально проблемных кредитов во избежание моментального дефолта заемщика и с целью его отсрочки на период, когда банк с позиции своих финансовых показателей будет готов абсорбировать стресс капитала и финансового результата при отражении потерь. В отчетности наблюдение из приведенного примера по умолчанию не будет классифицировано как дефолт. Однако очевидно, что в будущем сложности с погашением обязательств нужно заблаговременно предсказать. Это говорит о том, что правила фиксации дефолтов должны быть расширены относительно применяемых для формирования отчетности и в приведенном примере как минимум учитывать в качестве дефолтов вынужденные реструктуризации.

Накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков.

В-четвертых, при отсутствии соответствующего опыта и инструментов задача обработки, систематизации и интерпретации накопленных данных может представляться сложно реализуемой, а при использовании необработанных данных результат может оказаться столь неожиданным, что демотивирует инициаторов разработки. Далее разработанная модель должна пройти процедуру валидации на тестовой выборке, отличной от обучающей выборки, в ходе чего заново возникают все перечисленные выше сложности. Зачастую валидация осуществляется не только в практических внутренних, но и в регулятивных целях в случаях, если применение модели и ссылающиеся на нее внутренние документы должны быть согласованы Банком России. Наконец, процедуры разработки и валидации должны быть автоматизированы в достаточной степени, для того чтобы по завершении очередного периода и аккумулирования соответствующего объема наблюдений модель могла быть легко дообучена с учетом актуальной статистики.

Описанные сложности формирования выборки и разработки моделей не означают, что они останутся по большей части недоступными для небольших кредитных организаций. Обучающая выборка не обязательно должна быть сформирована на основе собственной статистики. Огромные массивы данных о заемщиках, по крайней мере корпоративного сектора, могут быть получены из открытых источников. Кроме того, сейчас начинает формироваться рынок разработки моделей внешними контрагентами, работающими с банковским сектором и располагающими историческими и актуальными данными по кредитным портфелям российских банков. Статистика обезличивается и используется для разработки и валидации моделей. Заказчик не получает доступа к обучающей выборке, что устраняет риск распространения конфиденциальной информации. Затем подрядчик сопровождает разработанные модели и актуализирует их по мере обновления рыночных данных. Важнейший аспект для заказчика при подобном взаимодействии — получить результаты валидации моделей не только на данных исполнителя, но и на собственных данных, даже если их выборка мала и непригодна для разработки. Если аутсорсинг функций по разработке моделей оценки кредитного риска укоренится и сформируется прозрачный рынок с разработчиками, имеющими устойчивые позиции и признанную деловую репутацию, то планы небольших банков по внедрению моделей машинного обучения даже в целях применения IRB-подхода перестанут казаться сверхамбициозными и невыполнимыми.

Источник: Банковское обозрение

Machine learning в риск-менеджменте: стоимость входа
Поделиться
VK

Рейтинги

Аналитика

Публикации по тематике

Под ипотекой ширятся бумаги

Мало половины

Подозрительные переводы на карту начнут блокировать

Эксперт призвала ЦБ изучить вопрос изменения цели по инфляции

II Банковский форум «Эксперт РА»

Служба внутреннего контроля

Machine learning в риск-менеджменте: стоимость входа Поделиться VK