["Какие сны в том смертном сне приснятся?"*] В 2024 году ИИ уже исчерпал данные всего человечества - и упёрся в потолок. Будущее за синтетическими данными: AGI перейдёт на автогенерацию
Илон Маск присоединился к мнению других экспертов в области искусственного интеллекта о том, что реальных данных для обучения ИИ-моделей практически не осталось.
"Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году", - заявил Маск во время трансляции беседы с председателем Stagwell Марком Пенном на платформе X.
Маск, владелец компании xAI, поддержал идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер озвучил на конференции по машинному обучению NeurIPS в декабре. Суцкевер, заявивший о достижении "пика данных" в индустрии ИИ, предсказал, что нехватка обучающих данных вынудит изменить существующие подходы к разработке моделей.
Маск предложил решение - использование синтетических данных, генерируемых самими ИИ-моделями. "Единственный способ дополнить реальные данные - это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения", - отметил он.
Крупные технологические компании, включая Microsoft, Meta*, OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских ИИ-моделей. По оценкам Gartner, 60% данных, используемых для проектов в области ИИ и аналитики в 2024 году, были сгенерированы синтетически. Модель Microsoft Phi-4, открытый код которой был опубликован на этой неделе, обучалась на комбинации синтетических и реальных данных. Аналогичный подход использовался при создании моделей Google Gemma. Anthropic применила синтетические данные при разработке одной из своих самых эффективных систем - Claude 3.5 Sonnet, а Meta* улучшила последнюю серию моделей Llama с помощью ИИ-генерированных данных.
Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность. Стартап Writer утверждает, что их модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась всего в $700 000 - по сравнению с оценочной стоимостью в $4,6 миллиона за сопоставимую модель OpenAI.
Однако существуют и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к "коллапсу модели", когда ИИ становится менее "креативным" и более предвзятым в своих результатах, что в конечном итоге может серьёзно нарушить его функциональность. Поскольку модели создают синтетические данные на основе уже существующих, любые предубеждения и ограничения в исходных данных будут воспроизводиться в их результатах.
*Meta признана экстремистской организацией, её деятельность на территории Российской Федерации запрещена
9 января 2025 в 09:29
Автор: Darth Sahara
(https://www.ixbt.com/news...)