← Назад к ленте Открыть источник ↗
scalingclub 2

Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил. Увидел тут мета-график, показывающий, как долго LLM может выполнять

Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил. 

Увидел тут мета-график, показывающий, как долго LLM может выполнять задачу непрерывно, не обращаясь к человеку.

И меня осенило, что я могу так оценивать уровень своего владения навыками AI по шкале, а на сколько часов безостановочной работы я могу загрузить AI.

Иными словами, если я умею поставить задачу нейронке, над которой она работает 10 секунд, я нуб. 20 минут - любитель, 1 час - миддл, 3 часа - сеньор, 10 часов - Карпатый.

Классная понятная метрика же. Долго работает самостоятельно это значит ты придумал и продумал достойную крутую задачу, собрал нужное количество правил для системы и запустил её в автономное исполнение. 

Очарование идеей длилось до тех пор, пока не проснулся внутренний опытный менеджер. 

— Саша, — мягко сказал он, — эта система хороша внутри лично тебя. Если ты поставишь такую метрику сотрудникам, они тебя немедленно разорят. Её легко симулировать, поставив тупую задачу, над которой система может работать часами вхолостую. 

— Ну, блин, да, но можно же просто добавить второй параметр: сколько решений AI принимает без меня. 

А это дополнение измеряет как грамотно я снабдил нейронку контекстом и правилами его самообогащения. А – главное – это значит что я встроил в задачу систему самокоррекции. 

Но опыт не пропить, и внутренний менеджер продолжал:

— Почему ты решил, что автономность системы это благо? Идеальная система должна знать, где остановиться, где эскалировать. 

— Ну, блин, да, не поспоришь. Важен не факт остановки, а его качество, типа а в нужном ли месте система остановилась. 

Но… Это ж просто дописать условие в формулировку: сколько часов работала автономно и остановилась в нужном месте. 

— Чудесно, — сказал этот ж опытный внутренний зануда. — Но главное при этом в твоей системе отсутствует: а что на выходе-то?

Пришлось и тут принять, что в метрику надо добавить два условия: можно ли использовать результат без переделки и какой бюджет в токенах на полезный результат. 

И тут я смотрю на эту конструкцию и что-то мне это напоминает…

Ба! Да это ж мой любимый грех: измерение сложных систем одной циферкой. 

Ладно, думаю, черт с ним, универсальной царь-метрики не получилось.

Но тут раздался издевательский голос менеджера внутри:

– Ага. Твоя простая идея про часы — это прокси-метрика. Реально полезный навык во всей твоей конструкции — нормально проектировать пространство решений, приносящих бизнес-результат. А это вообще не про нейросети, а про менеджмент. 

Опаньки.

Главный AI-native скилл — это менеджмент.

Привет, операционка! Ты скучала? Я вернулся. 

Ещё из канала

Все посты канала
Какие уроки я извлек из наших мастермайндов про продукты и бизнес в образовании. В субботу как раз закончился шестой выезд и захотелось подвести итоги. 1. Этот 2 дня назад Мы станем гастарбайтерами у роботов. Так Паша Лукша сформулировал где-то в середине разговора, и было видно, что он эту мысль давно для себя проговорил. 18 дней назад Часть 2 Я могу сказать, ну и пусть. Форма тоже что-то значит. Я тренируюсь, поддерживаю мышцу вежливости в тонусе, но не уверен, что это работает именно так. 22 дня назад Почему мы не говорим спасибо холодильнику Часть 1 На прошлой неделе я диктовал чату задачу, объяснил всё на бегу, как мне казалось, понятно. Ответ пришёл мимо. 22 дня назад Мы привыкли к глянцевым экзитам. Построил, продал, улетел инвестировать и искать смыслы на Бали. Реальность основателя Фоксфорда Алексея Половинкина звучит 29 дней назад Я отказался от партнёрства, в которое уже было вложено полгода работы Это была одна из последних встреч перед стартом. Деньги, время, согласованная структура, 1 месяц назад

Ещё по теме

🤫 Эти сигналы с ПМЭФ пока не разглядел никто? multievan Всегда мечтал быть в форме во взрослом возрасте. Сегодня это ценится больше чем дорогое авто или цацки на руке portnyaginlive Дима попросил поделиться контактом, который использует сам уже несколько лет portnyaginlive 👹 Что делать, когда страшно? multievan Отметили 2 года portnyaginlive

Совет: в ленте включайте только непрочитанное — так вы не смешиваете уже просмотренное с новыми постами.

Общение и предложения