Раскрыт потенциал русскоязычных данных для обучения ИИ
Российский эксперт оценил уровень дефицита информации для тренировки русскоязычных моделей и сравнил ситуацию с англоязычными системами. Модели искусственного интеллекта, работающие с русскоязычными данными, пока не испытывают нехватки данных для обучения, в отличие от аналогичных систем, использующих английский язык. Об этом ТАСС сообщил Александр Кугаевских, доцент факультета программной инженерии и компьютерной техники ИТМО. Ранее Илон Маск выразил мнение, что к началу 2025 года все знания и информация, используемые для тренировки ИИ, были полностью исчерпаны. По мнению американского бизнесмена, дальнейший прогресс в этой области возможен лишь при использовании сведений, синтезированных самими моделями ИИ, что позволит системам самообучаться. «Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model — “больших языковых моделей”) эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились», — комментирует Кугаевских. Эксперт также добавил, что для успешного использования данных в обучении ИИ они должны соответствовать ряду критериев: быть доступными, свободными от противоречий и ошибок, а также не нарушать авторских прав.
Российский эксперт оценил уровень дефицита информации для тренировки русскоязычных моделей и сравнил ситуацию с англоязычными системами.
Модели искусственного интеллекта, работающие с русскоязычными данными, пока не испытывают нехватки данных для обучения, в отличие от аналогичных систем, использующих английский язык. Об этом ТАСС сообщил Александр Кугаевских, доцент факультета программной инженерии и компьютерной техники ИТМО.
Ранее Илон Маск выразил мнение, что к началу 2025 года все знания и информация, используемые для тренировки ИИ, были полностью исчерпаны. По мнению американского бизнесмена, дальнейший прогресс в этой области возможен лишь при использовании сведений, синтезированных самими моделями ИИ, что позволит системам самообучаться.
«Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model — “больших языковых моделей”) эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились», — комментирует Кугаевских.
Эксперт также добавил, что для успешного использования данных в обучении ИИ они должны соответствовать ряду критериев: быть доступными, свободными от противоречий и ошибок, а также не нарушать авторских прав.
Какова ваша реакция?