Давид vs. Голиат: Ще успее ли „AI джуджето“ да победи технологичните гиганти

31.01.25 г., 11:25 ч.

„Вярвам, че пробивът на DeepSeek показва значимо пречупване на законите за мащабиране и е истинска необходимост“, казва той. „Въпреки това все още има много въпроси и несигурност около пълната картина на разходите, що се отнася до разработването на DeepSeek“.

„Изводът е, че има много възможности за развитие на тази индустрия. Високотехнологичният чип - капиталоемък начин - е един от технологичните подходи“, казва Сяоменг Лу, директор на геотехнологичната практика на Eurasia Group. „Но DeepSeek доказва, че все още се намираме в начален етап на развитие на AI и пътят, установен от OpenAI, може да не е единственият за постигането на високоспособен AI“.

„Цифрата от 5,6 млн. евро за DeepSeek V3 е само за един тренировъчен пробег и компанията подчерта, че тя не представлява общите разходи за научноизследователска и развойна дейност за разработване на модела“, акцентира той. „Тогава общите разходи вероятно са били значително по-високи, но все пак по-ниски от сумата, похарчена от големите американски компании за изкуствен интелект“.

Какво представлява DeepSeek?

Китайската компания за изкуствен интелект DeepSeek разтърси пазарите тази седмица с твърденията, че новият ѝ модел превъзхожда този на OpenAI, а създаването му струва само част от цената на водещата платформа, пише Profit.bg.

По какво се различава от OpenAI?

Четете повече ТУК.

CNBC се обръща към експерти от бранша за мнението им относно DeepSeek и как всъщност стои стартъпа в сравнение с OpenAI, създател на ChatGPT, който предизвика революцията в областта на AI.

DeepSeek разполага с две основни системи, които предизвикаха шум в общността на AI: V3, големият езиков модел, който поддържа нейните продукти, и R1, нейният модел за разсъждение.

В техническия доклад на компанията се казва, че нейният модел V3 е струвал само 5,6 млн. долара - малка част от милиардите, които известни западни лаборатории за изкуствен интелект като OpenAI и Anthropic са похарчили, за да обучат и пуснат своите фундаментални системи. Все още не е ясно колко струва работата на DeepSeek.

Голяма част от технологията, която стои зад R1, не е нова. Това, което е забележително обаче, е, че DeepSeek е първата компания, която я внедрява във високопроизводителен модел, като според твърденията тя е успяла значително да намали изискванията за мощност.

Даниел Нюман, главен изпълнителен директор на компанията за технологични анализи The Futurum Group, заявява, че тези разработки предполагат „огромен пробив“, въпреки че се съмнява в точноста на цифрите.

Миналата седмица DeepSeek пусна R1 - своя нов модел за разсъждения, който се конкурира с o1 на OpenAI. Този тип платформи разделят подканите на по-малки части и разглежда множество подходи, преди да генерира отговор. Те са предназначени да обработват сложни проблеми по начин, подобен на този при хората.

Моделите на DeepSeek са много по-малки от много други големи езикови модели. V3 има общо 671 милиарда параметъра или променливи, които моделът научава по време на обучението. Въпреки че OpenAI не разкрива параметри, експертите смятат, че последният ѝ модел има поне един трилион.

Настояването, че големият езиков модел на DeepSeek е струвал едва 5,6 млн. долара, предизвика загриженост относно главозамайващите суми, които технологичните гиганти понастоящем харчат за изчислителна инфраструктура за обучение и изпълнение на напреднали задачи с изкуствен интелект.

По отношение на производителността DeepSeek твърди, че нейният модел R1 е сравним с o1 на OpenAI при задачи за разсъждаване, като се позовава на различни бенчмаркове - AIME 2024, Codeforces, GPQA Diamond, MATH-500, MMLU и SWE-bench Verified.

DeepSeek е основана през 2023 г. от Лианг Уенфенг, съосновател на фокусирания върху AI хедж фонд High-Flyer, за да се разработва големи езикови модели. Крайната му цел е създаване на общ изкуствен интелект или AGI. Това понятие се отнася до идеята за изкуствен интелект, който се равнява или надминава човешкия в широк спектър от задачи.

Ако обаче разходите за обучение са точни, това означава, че моделът е разработен за малка част от тези на конкурентите ѝ.

И двата са с отворен код, което означава, че основният им код е свободен и публично достъпен за други разработчици, които могат да го персонализират и разпространяват.

Междувременно Пол Триолио, старши вицепрезидент за Китай и водещ в областта на технологичната политика в консултантската компания DGA Group, отбелязва, че е трудно да се направи пряко сравнение между разходите за модела на DeepSeek и тези на големите американски разработчици.

Но не всички са убедени в твърденията на DeepSeek.