-
28 януари 2025 11:51
- 1646
- 7
Предприемачът и основател на Института за компютърни науки, изкуствен интелект и технологии (INSAIT) - проф. Мартин Вечев коментира във "Фейсбук" по същество шумотевицата, която китайският изкуствен интелект Deepseek (DS) генерира в медийното пространство.
Първият въпрос, на който ученият отговаря, е кой работи по DS.
"DS серията от модели от Китай са всъщност публични от години. Те се разработват от силни изследователи и инженери в сферата, които често публикуват какво правят в различни конференции и непрекъснато подобряват моделите си и ги правят публично достъпни. И това е много добре", пише проф. Вечев.
Ето върху какво още акцентира той в публикацията си в социалната мрежа:
Цена за обучение (compute): Цената от 5-6М USD долара за обучение е подвеждаща. Тя идва от твърдението, че са използвани 2048 H800 карти за *едно* обучение, което по пазарни цени е горе долу 5-6М USD. Развитието на такъв модел, обаче, изисква много пъти да се проведе това обучение или в някои негови варианти, а също и много други експерименти. Тоест, цената е много пъти над това, без да говорим за събирането на данните и други неща, процес който може да е много скъп. Също, 2048 H800 струват между 50-100 милиона USD. Компанията, която се занимава с DС, се притежава от голям китайски инвестиционен фонд, където има в пъти повече GPUs от 2048 H800.
Технология: Тя е публикувана също. DeepSeek R1/V3 използва стандартна архитектура (mixture-of-experts: МоЕ), но с важни подобрения. МоЕ беше използвана от Mixtral на френската Mistral, но те не успяха да го накарат да работи толкова добре (INSAIT има версия на BgGPT с MoE от Март 2024, която никога не е пускана публично). Грубо казано с MoE: когато се използва в реално време, само малък % от модела се активира. Това е добре и поради тази причина MoE може да е по-бърз от не-MoE моделите. Също една от основните техники как се обучават DS моделите е публикувана преди около година (в DeepSeekMath), но в последната статия за DS има някои подобрения, които са важни и са резултат от много експерименти и изследвания за да подобрят резултатите (тоест, compute = $$$).
Данните за обучение: не се знае какви са, как са придобити, колко са и т.н. Oтносно копирането на O1 от OpenAI: не може съвсем директно да се копира (т.нар. distillation) тъй като OpenAI не прави публичнo достъпни самите thinking tokens, или по-общо казано мислите си, които използва, за да генерира решение. Но това не значи, че не може да се копира. Може като например се пуска O1, гледа се резултатът, и после се използва сравнително стандартен RL алгоритъм за да се стигне до същото решение. Изненада: тук пак трябва доста compute. Разбира се, има спекулации че DS знаят архитектурата на O1, но това са спекулации.
DS vs. О1: O1 е съвсем начална версия на OpenAI, който беше може би прекалено рекламиран и затова много хора се учудват, че има нещо подобно което е отворено. Но това се е случвало и преди с версии на GPT-4o за не-reasoning моделите (напр. с LLama3 400b). Предполагам това че има САЩ / Китай подистория кара хората да са по-емоционални .
Качество: DS R1 е най-добрия отворен модел за O1-тип reasoning днес, но е сравнително специализиран за тази цел, не е за всичко. Например, не очаквам да е оптималния модел за многоезични модели. R1 и V3 (не-reasoning версията) са доста големи, > 600 милиарда параметъра и вариантите, които са по-приложни изградени с DS са тези, които са distilled (или генерирани от R1/V3) към доста по-малки модели (не 600+ милиарда, а да кажем 30) и това е полезно за различни цели (които много хора ползват, вкл. INSAIT).
Очаквания: това, което очаквам да се случи, е стандартното. От затворените компании (Google, OpenAI и т.н.) ще покажат нови тестове на които R1 не работи добре. Това не е проблем и вече ги има, има такива и за O1. След което някой с повече GPUs пак ще направи отворена версия която да е подобна на затворените (DS или някой друг). За да направи такава версия, обаче, ще трябва много изчислителна мощ и много експерименти (не 5М USD, а по-близо до 50-100М USD даже когато модела е по-специализиран).
Последвайте канала на
Свързани новини
Денят, в който DeepSeek обърна Уолстрийт с главата надолу
28 януари 202510:21
Учените от INSAIT разказват как се ражда идеята за BgGPT
08 декември 202418:04
Българският изкуствен интелект BgGPT влиза и в общините
06 декември 202410:31
Изкуственият интелект вече говори на български: хора от цял свят искат да дойдат в България, за да се занимават с най-високите технологии
19 ноември 202418:05
Изкуственият интелект: България привлича вниманието и на инвестиционни фондове от Силициевата долина
13 ноември 202413:33
Учени от INSAIT със световен пробив в алгоритмите и с награда за най-добра статия в топ конференция
29 октомври 202413:46
Започна блокирането на DeepSeek в целия Запад
31 януари 202516:59
Първото разследване срещу DeepSeek е факт: Италиански регулатор погна платформата
29 януари 202514:36
Голямата новина е факт: Шефилд потвърди за Нвачукву!
Трансферният прозорец затвори, но тепърва ще има още сделки
Керкез: Трябва да изиграеш перфектен мач, за да победиш Лудогорец
Йовичевич: Уважаваме Ботев, те ни поставиха пред голямо предизвикателство
Челси се върна в топ 4 след обрат срещу Уест Хам
Ботев (Пд) привлече защитник от елита на Нидерландия
Коментари 7
Добави2025.01.28 | 12:40
2025.01.28 | 12:07
2025.01.28 | 12:00
2025.01.28 | 11:58
2025.01.28 | 11:57
2025.01.28 | 11:52
Добави коментар
Водещи новини
Десислава Атанасова е определена от МС за представител на България във Венецианската комисия
03 февруари 202522:18
Митов: Ще настояваме за увеличение на заплатите в МВР
03 февруари 202519:48
Кирил Петков: Машинният вот трябва да стане 100-процентов
03 февруари 202520:43
"Пирогов": Общо 12 жени са потърсили помощ след ботокс, една е в тежко състояние
03 февруари 202521:07
Директорът на Изпълнителна агенция "Медицински надзор" Иванка Динева: Ботоксът, предизвикал проблеми на жените, е внесен незаконно
03 февруари 202521:42
Убийството на две деца: Семейството идва от Украйна, мести се във Вакарел преди дни
03 февруари 202520:43
Водещите новини! Шведската прокуратура освободи кораба „Вежен“, българската подхвана ботокса. Убиецът от Лозен по-рано бил пуснат с… „подписка“ (и още…)
03 февруари 202518:51
Митата върху вноса на стоки от Мексико в САЩ се отлагат
03 февруари 202521:53
Рюте иска ударно повишение на разходите за отбрана на страните от НАТО
03 февруари 202520:06
2025.01.28 | 16:12