Аннотация

В DS сообществе распространенно мнение, что ML модель может быть либо качественной, либо интерпретируемой. Но существуют задачи, когда модель должна обладать обеими характеристиками одновременно. Например, во время пандемии нужно было срочно решать, каких пациентов подключать к аппарату ИВЛ, а каких отправлять на самоизоляцию. Такая классификация пациентов должна была быть и биологически понятной и математически точной. Также, желательно, чтобы доктора могли принимать решения молниеносно и самостоятельно, не тратя время на взаимодействие с компьютером.

В ходе исследований мы (аспиранты и профессора ВШЭ, AIRI, Harvard Medical School) выделили класс Моделей Человеческих Знаний: логических моделей, состоящих из не более чем 4 бинарных условий. Мы показали что, несмотря на свою простоту, такие модели могут делать предсказания на уровне градиентных бустингов и других чёрных ящиков. Более того, оказалось, что качество предсказаний таких коротких правил почти не падает при переходе на тестовые данные. Единственный вопрос, как можно находить такие Модели Человеческих Знаний за разумное время.

На семинаре будет рассказано про две научные статьи, опубликованные в 2022 году. В первой статье [1] мы ввели термин Моделей Человеческих Знаний и протестировали эти модели на четырёх датасетах из разных областей жизни. Во второй статье [2] мы представили наши первые результаты по разработке алгоритма поиска коротких моделей с максимально возможным качеством предсказаний за пару минут.

[1] E. Dudyrev, I. Semenkov, S. O. Kuznetsov, G. Gusev, A. Sharp, and O. S. Pianykh. Human knowledge models: Learning applied knowledge from the data. Plos one, 17(10):e0275814, 2022.

[2] E. Dudyrev and S. O. Kuznetsov. Towards fast finding optimal short classifiers. CEUR Workshop Proceedings, 3233:23–34, 2022.

Презентация

МЧЗ NoML seminar.pdf