Как я придумал офигенную метрику для оценки владения н…

Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил.

Увидел тут мета-график, показывающий, как долго LLM может выполнять задачу непрерывно, не обращаясь к человеку.

И меня осенило, что я могу так оценивать уровень своего владения навыками AI по шкале, а на сколько часов безостановочной работы я могу загрузить AI.

Иными словами, если я умею поставить задачу нейронке, над которой она работает 10 секунд, я нуб. 20 минут - любитель, 1 час - миддл, 3 часа - сеньор, 10 часов - Карпатый.

Классная понятная метрика же. Долго работает самостоятельно это значит ты придумал и продумал достойную крутую задачу, собрал нужное количество правил для системы и запустил её в автономное исполнение.

Очарование идеей длилось до тех пор, пока не проснулся внутренний опытный менеджер.

— Саша, — мягко сказал он, — эта система хороша внутри лично тебя. Если ты поставишь такую метрику сотрудникам, они тебя немедленно разорят. Её легко симулировать, поставив тупую задачу, над которой система может работать часами вхолостую.

— Ну, блин, да, но можно же просто добавить второй параметр: сколько решений AI принимает без меня.

А это дополнение измеряет как грамотно я снабдил нейронку контекстом и правилами его самообогащения. А – главное – это значит что я встроил в задачу систему самокоррекции.

Но опыт не пропить, и внутренний менеджер продолжал:

— Почему ты решил, что автономность системы это благо? Идеальная система должна знать, где остановиться, где эскалировать.

— Ну, блин, да, не поспоришь. Важен не факт остановки, а его качество, типа а в нужном ли месте система остановилась.

Но… Это ж просто дописать условие в формулировку: сколько часов работала автономно и остановилась в нужном месте.

— Чудесно, — сказал этот ж опытный внутренний зануда. — Но главное при этом в твоей системе отсутствует: а что на выходе-то?

Пришлось и тут принять, что в метрику надо добавить два условия: можно ли использовать результат без переделки и какой бюджет в токенах на полезный результат.

И тут я смотрю на эту конструкцию и что-то мне это напоминает…

Ба! Да это ж мой любимый грех: измерение сложных систем одной циферкой.

Ладно, думаю, черт с ним, универсальной царь-метрики не получилось.

Но тут раздался издевательский голос менеджера внутри:

– Ага. Твоя простая идея про часы — это прокси-метрика. Реально полезный навык во всей твоей конструкции — нормально проектировать пространство решений, приносящих бизнес-результат. А это вообще не про нейросети, а про менеджмент.

Опаньки.

Главный AI-native скилл — это менеджмент.

Привет, операционка! Ты скучала? Я вернулся.

Персональная газета

Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил. Увидел тут мета-график, показывающий, как долго LLM может выполнять

Telegram без шума

Одна лента только по вашим интересам

Можно подключать и приватные каналы

«Вырезать» — скрыть кусок текста

«Убрать» — спрятать пост из непрочитанного

Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил. Увидел тут мета-график, показывающий, как долго LLM может выполнять

Ещё из канала

Ещё по теме