Американские исследователи представили новый подход к обучению моделей искусственного интеллекта, который позволяет автоматически выявлять и удалять ошибочные данные еще до начала процесса обучения. Такой метод значительно снижает вероятность того, что модель будет делать ложные выводы или принимать неправильные решения в процессе работы.
Об этом сообщает ProIT
Особенности нового метода обучения
Разработка принадлежит команде Центра автономии ИИ Колледжа инженерии и компьютерных наук Флоридского Атлантического университета. Ученые создали эффективную методику, которая автоматически находит и устраняет неправильно маркированные примеры в учебных наборах. Именно такие данные могут привести к снижению точности ИИ-моделей. В традиционных подходах модели искусственного интеллекта часто обучаются с помощью метода опорных векторов, что помогает им классифицировать данные, например, в распознавании изображений, голоса, медицинской диагностике и анализе текстов. Однако, если в учебных наборах встречаются некорректно маркированные примеры, это может исказить определение границ между различными категориями данных, что негативно скажется на работе ИИ в реальных условиях.
Предлагаемый метод позволяет еще до начала обучения фильтровать подозрительные или аномальные примеры. Данные, которые не соответствуют общей структуре или существенно отличаются от остальных, автоматически удаляются или помечаются, обеспечивая более качественный и проверенный учебный набор.
Технология и преимущества алгоритма
В основе инновации лежит математический алгоритм анализа главных компонент L1-нормы, который оценивает соответствие каждого элемента учебного набора остальным данным в своей категории и идентифицирует подозрительные маркеры. Такой подход позволяет аккуратно удалять или помечать те данные, которые могут быть результатом ошибок маркировки. Важно, что этот процесс происходит полностью автоматически, без необходимости вмешательства пользователя или ручной настройки, и может применяться к различным моделям искусственного интеллекта, что делает его универсальным и масштабируемым для внедрения в различных отраслях.
«SVM являются одними из самых мощных и широко используемых классификаторов в машинном обучении, их применение варьируется от выявления рака до фильтрации спама. Что делает их особенно эффективными — но и уникально уязвимыми — так это то, что они полагаются лишь на небольшое количество ключевых точек данных, которые называют опорными векторами, чтобы провести границу между различными категориями. Последствия этого могут быть серьезными, будь то пропущенный диагноз рака или система безопасности, которая не может распознать угрозу», — объясняет профессор Димитрис Падос.
По результатам исследования новый алгоритм значительно повышает производительность и надежность моделей ИИ в различных сферах применения. Работа была опубликована в журнале IEEE Transactions on Neural Networks and Learning Systems.