ru24.pro
Новости по-русски
Январь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
27
28
29
30
31

Маск: «Мы исчерпали почти все данные для обучения ИИ»

«Мы практически исчерпали совокупный объем человеческих знаний... в обучении ИИ. Это произошло в прошлом году», — сказал Маск во время беседы с председателем Stagwell Марком Пенном, трансляция которой велась в X.

Маск, владеющий ИИ-компанией xAI, повторил идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер https://hightech.plus/2024/12/16/ilya-suckever-metod-sozdani... на конференции NeurIPS в декабре. Суцкевер заявил, что индустрия ИИ достигла так называемого «пика данных», и предсказал, что из-за нехватки ресурсов для обучения методы разработки моделей придется изменить.

Маск видит решение проблемы в использовании синтетических данных, которые генерируют сами модели ИИ. Другие компании, включая технологических гигантов Microsoft, Meta (организация признана экстремистской и запрещена в РФ), OpenAI и Anthropic, уже используют их для обучения флагманских моделей ИИ. По оценкам Gartner, 60% информации, используемых для проектов ИИ и аналитики в 2024 году, были сгенерированы синтетическим путем.

Phi-4 от Microsoft обучалась как на реальных данных, так и на синтетических. То же самое относится и к моделям Gemma от Google. Anthropic использовала некоторое количество синтетических материалов для разработки одной из своих самых производительных систем — Claude 3.5 Sonnet. А Meta дорабатывала последнюю серию моделей Llama, используя сведения, сгенерированные ИИ.

Обучение с использованием синтетических данных дает и другие преимущества, например, снижение затрат. По заявлению ИИ-стартапа Writer, разработка их модели Palmyra X 004, основанной на искусственных данных, стоила всего $700 000, в то время как создание сопоставимой по размеру модели OpenAI оценивается в $4,6 млн.

Но есть и минусы. Исследования показывают, что использование синтетических данных приводит к «коллапсу модели», когда она становится менее «творческой» и более предвзятой, что серьезно сказывается на ее работе. Кроме того, модели используют обучающие данные для генерации синтетических. Следовательно, наличие предубеждений и ограничений в источниках приведет к аналогичным искажениям в результатах.