Илон Мъск се присъедини към други експерти по изкуствен интелект с твърдението, че са останали малко реални данни, върху които могат да се обучават AI моделите, разработвани от множество компании.
„Изчерпахме почти целия натрупан обем от човешки знания за обучение на AI. Това се случи основно миналата година”, каза Мъск по време на разговор с председателя на Stagwell Марк Пен, излъчен в социалната мрежа X.
Мъск, собственик на компанията xAI, повтори идеите, които бившият главен учен на OpenAI Иля Суцкевер очерта на конференцията за машинно обучение NeurIPS през декември. Суцкевер обяви, че AI индустрията е достигнала „пикови данни” и прогнозира, че липсата на данни за обучение ще наложи промени в съществуващите подходи за разработване на AI модели.
Мъск, от своя страна, предлага решение на този проблем: използване на синтетични данни, генерирани от самите AI модели. „Единственият начин за допълване на реалните данни са синтетичните данни, при които AI сам създава обучителни материали. Със синтетични данни AI ще се самооцени и ще премине през процес на самообучение”, казва той.
Големите технологични компании, включително Microsoft, Meta, OpenAI и Anthropic, вече използват синтетични данни, за да обучават своите водещи AI модели. Gartner изчислява, че 60% от данните, използвани за AI и аналитични проекти през 2024 г., са синтетично генерирани.
Моделът Phi-4 на Microsoft, който стана с отворен код тази седмица, беше обучен на комбинация от синтетични и реални данни. Подобен подход използва Google за създаване на моделите Gemma. Anthropic също използва синтетични данни, за да разработи една от най-добре представящите си системи, Claude 3.5 Sonnet, а Meta подобри най-новата си серия от модели Llama, използвайки данни, генерирани от AI.
Обучението със синтетични данни има редица предимства, включително ефективност на разходите. Стартъпът Writer твърди, че неговият модел Palmyra X 004, разработен почти изцяло от синтетични източници, струва само $700 000 – в сравнение с приблизително $4,6 милиона за сравним OpenAI модел.
Синтетичния подход има и недостатъци. Някои изследвания предполагат, че синтетичните данни могат да доведат до „колапс на модела”, при който AI става по-малко „креативен” и по-предубеден в своите резултати и това в крайна сметка може сериозно да наруши неговата функционалност. Тъй като моделите създават синтетични данни въз основа на съществуващи данни, всички отклонения и ограничения в оригиналните данни ще бъдат възпроизведени в техните резултати, предупреждават специалистите.