Проф. Мартин Вечев за данните за обучение на DeepSeek: Не се знае какви са, как са придобити или колко са

  • 28 януари 2025 11:51

  • 1646
  • 7
Проф. Мартин Вечев за данните за обучение на DeepSeek: Не се знае какви са, как са придобити или колко са
© NOVA

Предприемачът и основател на Института за компютърни науки, изкуствен интелект и технологии (INSAIT) - проф. Мартин Вечев коментира във "Фейсбук" по същество шумотевицата, която китайският изкуствен интелект Deepseek (DS) генерира в медийното пространство. 

Първият въпрос, на който ученият отговаря, е кой работи по DS.

"DS серията от модели от Китай са всъщност публични от години. Те се разработват от силни изследователи и инженери в сферата, които често публикуват какво правят в различни конференции и непрекъснато подобряват моделите си и ги правят публично достъпни. И това е много добре", пише проф. Вечев. 

Китайският DeepSeek предизвика вълна от сривове на американски AI акции

Ето върху какво още акцентира той в публикацията си в социалната мрежа: 

Цена за обучение (compute): Цената от 5-6М USD долара за обучение е подвеждаща. Тя идва от твърдението, че са използвани 2048 H800 карти за *едно* обучение, което по пазарни цени е горе долу 5-6М USD. Развитието на такъв модел, обаче, изисква много пъти да се проведе това обучение или в някои негови варианти, а също и много други експерименти. Тоест, цената е много пъти над това, без да говорим за събирането на данните и други неща, процес който може да е много скъп. Също, 2048 H800 струват между 50-100 милиона USD. Компанията, която се занимава с DС, се притежава от голям китайски инвестиционен фонд, където има в пъти повече GPUs от 2048 H800.

Технология: Тя е публикувана също. DeepSeek R1/V3 използва стандартна архитектура (mixture-of-experts: МоЕ), но с важни подобрения. МоЕ беше използвана от Mixtral на френската Mistral, но те не успяха да го накарат да работи толкова добре (INSAIT има версия на BgGPT с MoE от Март 2024, която никога не е пускана публично). Грубо казано с MoE: когато се използва в реално време, само малък % от модела се активира. Това е добре и поради тази причина MoE може да е по-бърз от не-MoE моделите. Също една от основните техники как се обучават DS моделите е публикувана преди около година (в DeepSeekMath), но в последната статия за DS има някои подобрения, които са важни и са резултат от много експерименти и изследвания за да подобрят резултатите (тоест, compute = $$$).

Данните за обучение: не се знае какви са, как са придобити, колко са и т.н. Oтносно копирането на O1 от OpenAI: не може съвсем директно да се копира (т.нар. distillation) тъй като OpenAI не прави публичнo достъпни самите thinking tokens, или по-общо казано мислите си, които използва, за да генерира решение. Но това не значи, че не може да се копира. Може като например се пуска O1, гледа се резултатът, и после се използва сравнително стандартен RL алгоритъм за да се стигне до същото решение. Изненада: тук пак трябва доста compute. Разбира се, има спекулации че DS знаят архитектурата на O1, но това са спекулации.

DS vs. О1: O1 е съвсем начална версия на OpenAI, който беше може би прекалено рекламиран и затова много хора се учудват, че има нещо подобно което е отворено. Но това се е случвало и преди с версии на GPT-4o за не-reasoning моделите (напр. с LLama3 400b). Предполагам това че има САЩ / Китай подистория кара хората да са по-емоционални .

Качество: DS R1 е най-добрия отворен модел за O1-тип reasoning днес, но е сравнително специализиран за тази цел, не е за всичко. Например, не очаквам да е оптималния модел за многоезични модели. R1 и V3 (не-reasoning версията) са доста големи, > 600 милиарда параметъра и вариантите, които са по-приложни изградени с DS са тези, които са distilled (или генерирани от R1/V3) към доста по-малки модели (не 600+ милиарда, а да кажем 30) и това е полезно за различни цели (които много хора ползват, вкл. INSAIT).

Очаквания: това, което очаквам да се случи, е стандартното. От затворените компании (Google, OpenAI и т.н.) ще покажат нови тестове на които R1 не работи добре. Това не е проблем и вече ги има, има такива и за O1. След което някой с повече GPUs пак ще направи отворена версия която да е подобна на затворените (DS или някой друг). За да направи такава версия, обаче, ще трябва много изчислителна мощ и много експерименти (не 5М USD, а по-близо до 50-100М USD даже когато модела е по-специализиран).

Последвайте канала на

Теодора Павлова
1646 7

Свързани новини

Коментари 7

Добави коментар

2025.01.28 | 16:12

7
ГАPАНТИPАНО: За 21 дни ще пpaвите жeстoк CEKC като пopнoзвeзда - ще yвeличите тpайно пeнисa си със 7 см и ще започнете да полyчавате epeкция за 3 сeкyнди (твъpда като cтoмана, колкото дълго иcкaте). Ето тaйната на тaзи тeхника-➤-➤ do.my/mens
erotis

2025.01.28 | 12:40

6
❤️Ту­­­к мо­­­жете д­­­а събл­­­ечете ед­­­но мом­­­иче и д­­­а я ви­­­дите го­­­ла) Мо­­­ля, оце­­­нете г­­­о ➤ Ja.cat/sexbg

2025.01.28 | 12:07

5
Първо Инстайт и сега Аутсайд!

2025.01.28 | 12:00

4
Американците прибраха ключето от чекмеджето с изкуствен интелект и последва приземяване по ГЗ за държавите от третия свят точещи безплатно ноу-хау за да крепят политическите си спонсори.

2025.01.28 | 11:58

3
БЪЛГАРСКИЯТ ИЗКУСТВЕН ИНТЕЛЕКТ ВИРЕЕ САМО ПО СИЛИКОНОВИТЕ БАИРИ КАКТО Е ДОБРЕ ИЗВЕСТНО. И ГО БЕРАТ ДРУГАРИ ОТ ТКЗС ДС

2025.01.28 | 11:57

2
На Вечката му се дръпна лайното от китайския ИИ, а в САЩ вече не го искат. Остана само с приказките

2025.01.28 | 11:52

1
руски храненик фантазьор

Добави коментар

Водещи новини