Проф. Мартин Вечев за данните за обучение на DeepSeek: Не се знае какви са, как са придобити или колко са

28 януари 2025 11:51
1646
7

Предприемачът и основател на Института за компютърни науки, изкуствен интелект и технологии (INSAIT) - проф. Мартин Вечев коментира във "Фейсбук" по същество шумотевицата, която китайският изкуствен интелект Deepseek (DS) генерира в медийното пространство.

Първият въпрос, на който ученият отговаря, е кой работи по DS.

"DS серията от модели от Китай са всъщност публични от години. Те се разработват от силни изследователи и инженери в сферата, които често публикуват какво правят в различни конференции и непрекъснато подобряват моделите си и ги правят публично достъпни. И това е много добре", пише проф. Вечев.

Китайският DeepSeek предизвика вълна от сривове на американски AI акции

Ето върху какво още акцентира той в публикацията си в социалната мрежа:

Цена за обучение (compute): Цената от 5-6М USD долара за обучение е подвеждаща. Тя идва от твърдението, че са използвани 2048 H800 карти за *едно* обучение, което по пазарни цени е горе долу 5-6М USD. Развитието на такъв модел, обаче, изисква много пъти да се проведе това обучение или в някои негови варианти, а също и много други експерименти. Тоест, цената е много пъти над това, без да говорим за събирането на данните и други неща, процес който може да е много скъп. Също, 2048 H800 струват между 50-100 милиона USD. Компанията, която се занимава с DС, се притежава от голям китайски инвестиционен фонд, където има в пъти повече GPUs от 2048 H800.

Технология: Тя е публикувана също. DeepSeek R1/V3 използва стандартна архитектура (mixture-of-experts: МоЕ), но с важни подобрения. МоЕ беше използвана от Mixtral на френската Mistral, но те не успяха да го накарат да работи толкова добре (INSAIT има версия на BgGPT с MoE от Март 2024, която никога не е пускана публично). Грубо казано с MoE: когато се използва в реално време, само малък % от модела се активира. Това е добре и поради тази причина MoE може да е по-бърз от не-MoE моделите. Също една от основните техники как се обучават DS моделите е публикувана преди около година (в DeepSeekMath), но в последната статия за DS има някои подобрения, които са важни и са резултат от много експерименти и изследвания за да подобрят резултатите (тоест, compute = $$$).

Данните за обучение: не се знае какви са, как са придобити, колко са и т.н. Oтносно копирането на O1 от OpenAI: не може съвсем директно да се копира (т.нар. distillation) тъй като OpenAI не прави публичнo достъпни самите thinking tokens, или по-общо казано мислите си, които използва, за да генерира решение. Но това не значи, че не може да се копира. Може като например се пуска O1, гледа се резултатът, и после се използва сравнително стандартен RL алгоритъм за да се стигне до същото решение. Изненада: тук пак трябва доста compute. Разбира се, има спекулации че DS знаят архитектурата на O1, но това са спекулации.

DS vs. О1: O1 е съвсем начална версия на OpenAI, който беше може би прекалено рекламиран и затова много хора се учудват, че има нещо подобно което е отворено. Но това се е случвало и преди с версии на GPT-4o за не-reasoning моделите (напр. с LLama3 400b). Предполагам това че има САЩ / Китай подистория кара хората да са по-емоционални .

Качество: DS R1 е най-добрия отворен модел за O1-тип reasoning днес, но е сравнително специализиран за тази цел, не е за всичко. Например, не очаквам да е оптималния модел за многоезични модели. R1 и V3 (не-reasoning версията) са доста големи, > 600 милиарда параметъра и вариантите, които са по-приложни изградени с DS са тези, които са distilled (или генерирани от R1/V3) към доста по-малки модели (не 600+ милиарда, а да кажем 30) и това е полезно за различни цели (които много хора ползват, вкл. INSAIT).

Очаквания: това, което очаквам да се случи, е стандартното. От затворените компании (Google, OpenAI и т.н.) ще покажат нови тестове на които R1 не работи добре. Това не е проблем и вече ги има, има такива и за O1. След което някой с повече GPUs пак ще направи отворена версия която да е подобна на затворените (DS или някой друг). За да направи такава версия, обаче, ще трябва много изчислителна мощ и много експерименти (не 5М USD, а по-близо до 50-100М USD даже когато модела е по-специализиран).

Последвайте канала на

изкуствен интелект

проф. мартин вечев

китайският изкуствен интелект Дийпсийк

ИНСАЙТ

Теодора Павлова

1646 7

Денят, в който DeepSeek обърна Уолстрийт с главата надолу

28 януари 202510:21

Учените от INSAIT разказват как се ражда идеята за BgGPT

08 декември 202418:04

Българският изкуствен интелект BgGPT влиза и в общините

06 декември 202410:31

Изкуственият интелект вече говори на български: хора от цял свят искат да дойдат в България, за да се занимават с най-високите технологии

19 ноември 202418:05

Изкуственият интелект: България привлича вниманието и на инвестиционни фондове от Силициевата долина

13 ноември 202413:33

Учени от INSAIT със световен пробив в алгоритмите и с награда за най-добра статия в топ конференция

29 октомври 202413:46

Започна блокирането на DeepSeek в целия Запад

31 януари 202516:59

Първото разследване срещу DeepSeek е факт: Италиански регулатор погна платформата

29 януари 202514:36

Голямата новина е факт: Шефилд потвърди за Нвачукву!

Трансферният прозорец затвори, но тепърва ще има още сделки

Керкез: Трябва да изиграеш перфектен мач, за да победиш Лудогорец

Йовичевич: Уважаваме Ботев, те ни поставиха пред голямо предизвикателство

Челси се върна в топ 4 след обрат срещу Уест Хам

Ботев (Пд) привлече защитник от елита на Нидерландия

Коментари 7

Добави коментар

2025.01.28 | 16:12

ГАPАНТИPАНО: За 21 дни ще пpaвите жeстoк CEKC като пopнoзвeзда - ще yвeличите тpайно пeнисa си със 7 см и ще започнете да полyчавате epeкция за 3 сeкyнди (твъpда като cтoмана, колкото дълго иcкaте). Ето тaйната на тaзи тeхника-➤-➤ do.my/mens

Отговор

erotis

2025.01.28 | 12:40

❤️Тук можете да съблечете едно момиче и да я видите гола) Моля, оценете го ➤ Ja.cat/sexbg

Отговор

2025.01.28 | 12:07

Първо Инстайт и сега Аутсайд!

Отговор

2025.01.28 | 12:00

Американците прибраха ключето от чекмеджето с изкуствен интелект и последва приземяване по ГЗ за държавите от третия свят точещи безплатно ноу-хау за да крепят политическите си спонсори.