Раскрыт потенциал русскоязычных данных для обучения ИИ

Российский эксперт оценил уровень дефицита информации для тренировки русскоязычных моделей и сравнил ситуацию с англоязычными системами. Модели искусственного интеллекта, работающие с русскоязычными данными, пока не испытывают нехватки данных для обучения, в отличие от аналогичных систем, использующих английский язык. Об этом ТАСС сообщил Александр Кугаевских, доцент факультета программной инженерии и компьютерной техники ИТМО. Ранее Илон Маск выразил мнение, что к началу 2025 года все знания и информация, используемые для тренировки ИИ, были полностью исчерпаны. По мнению американского бизнесмена, дальнейший прогресс в этой области возможен лишь при использовании сведений, синтезированных самими моделями ИИ, что позволит системам самообучаться. «Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model — “больших языковых моделей”) эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились», — комментирует Кугаевских. Эксперт также добавил, что для успешного использования данных в обучении ИИ они должны соответствовать ряду критериев: быть доступными, свободными от противоречий и ошибок, а также не нарушать авторских прав.

Янв 15, 2025 - 12:27
 0
Раскрыт потенциал русскоязычных данных для обучения ИИ

Российский эксперт оценил уровень дефицита информации для тренировки русскоязычных моделей и сравнил ситуацию с англоязычными системами.

Модели искусственного интеллекта, работающие с русскоязычными данными, пока не испытывают нехватки данных для обучения, в отличие от аналогичных систем, использующих английский язык. Об этом ТАСС сообщил Александр Кугаевских, доцент факультета программной инженерии и компьютерной техники ИТМО.

Ранее Илон Маск выразил мнение, что к началу 2025 года все знания и информация, используемые для тренировки ИИ, были полностью исчерпаны. По мнению американского бизнесмена, дальнейший прогресс в этой области возможен лишь при использовании сведений, синтезированных самими моделями ИИ, что позволит системам самообучаться.

«Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан. О потолке доступных [англоязычных] данных для обучения LLM (англ. large language model — “больших языковых моделей”) эксперты говорили весь прошлый год. И они правы, доступные оцифрованные и качественные данные действительно закончились», — комментирует Кугаевских.

Эксперт также добавил, что для успешного использования данных в обучении ИИ они должны соответствовать ряду критериев: быть доступными, свободными от противоречий и ошибок, а также не нарушать авторских прав.

Какова ваша реакция?

like

dislike

love

funny

angry

sad

wow