llm

Китайская модель MiniMax-M2 — новый лидер среди открытых языковых моделей

Китайский стартап MiniMax выпустил MiniMax-M2 — открытую языковую модель, созданную для агентских запросов и задач программирования, к которой быстро растёт интерес. Эта модель лицензирована под MIT, что позволяет свободно использовать её в коммерческих продуктах, переобучать и интегрировать без ограничений. MiniMax-M2 построена на основе архитектуры Mixture-of-Experts (MoE), благодаря чему на каждом шаге активации задействуется лишь около […]

Как мы в Авито сделали свою LLM — A-vibe

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты. Сегодня […]

Федеральная торговая комиссия США расследует влияние чат-ботов на несовершеннолетних

Федеральная торговая комиссия (FTC) США начала расследование деятельности семи технологических компаний, разрабатывающих чат-ботов для несовершеннолетних. Под пристальным вниманием регулятора оказались Alphabet, CharacterAI, Instagram, Meta*, OpenAI, Snap и xAI. Цель расследования – оценить, как компании оценивают безопасность и монетизацию своих продуктов, какие меры принимаются для минимизации негативного влияния на детей и подростков, и информируются ли родители […]

OpenAI раскрыла причину ошибок ChatGPT. Но экономика мешает их исправлению

Компания OpenAI опубликовала работу, в которой объяснила, почему даже самые мощные модели искусственного интеллекта, такие как ChatGPT, часто дают неверные ответы, «галлюцинируя». Авторы работы установили, что существующие методы оценки качества работы больших языковых моделей (LLM) поощряют «угадывание» вместо точного ответа. Проще говоря, создатели ИИ стимулируют модели догадываться, а не признавать своё незнание. Это может быть […]

xAI представила Grok 4 Fast — сверхбыструю и дешёвую версию модели

Спустя несколько месяцев после релиза Grok 4 и скандального сбоя в работе чат-бота, компания xAI, основанная Илоном Маском, объявила о выпуске новой модели Grok 4 Fast — быстрого и ультрадешёвого аналога Grok 4. Согласно данным xAI, Grok 4 Fast достигает той же точности при использовании на 40% меньше вычислительных токенов. Это позволяет снизить цену выполнения […]

Миф о «разуме» ИИ развеян: исследование учёных показало, что LLM не способны к настоящему логическому рассуждению

Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей […]

[Перевод] 16 перемен, которые уже меняют корпоративный подход к генеративному ИИ

В 2023 году генеративные ИИ стремительно ворвались в потребительский сегмент, достигнув миллиарда долларов пользовательских расходов за рекордно короткий срок. В 2024-м, по нашим оценкам, потенциал выручки в enterprise-сегменте будет в несколько раз выше. Пока в прошлом году потребители часами общались с новыми AI-компаньонами или создавали изображения и видео с помощью diffusion-моделей, корпоративное внедрение genAI, казалось, […]

Llama преодолела отметку в 1,2 миллиарда загрузок, демонстрируя устойчивый рост экосистемы

В середине марта компания Meta* сообщила о достижении модели семейства Llama отметки в 1 миллиард загрузок, по сравнению с 650 миллионами, зарегистрированными в начале декабря 2024 года. На своей первой конференции для разработчиков LlamaCon, состоявшейся в минувший вторник, Meta представила обновлённые данные: количество загрузок достигло 1,2 миллиарда. Выступая с речью, главный директор по продуктам, Крис Кокс, […]