Как я придумал офигенную метрику для оценки владения нейросетями и потом сам её разрушил.
Увидел тут мета-график, показывающий, как долго LLM может выполнять задачу непрерывно, не обращаясь к человеку.
И меня осенило, что я могу так оценивать уровень своего владения навыками AI по шкале, а на сколько часов безостановочной работы я могу загрузить AI.
Иными словами, если я умею поставить задачу нейронке, над которой она работает 10 секунд, я нуб. 20 минут - любитель, 1 час - миддл, 3 часа - сеньор, 10 часов - Карпатый.
Классная понятная метрика же. Долго работает самостоятельно это значит ты придумал и продумал достойную крутую задачу, собрал нужное количество правил для системы и запустил её в автономное исполнение.
Очарование идеей длилось до тех пор, пока не проснулся внутренний опытный менеджер.
— Саша, — мягко сказал он, — эта система хороша внутри лично тебя. Если ты поставишь такую метрику сотрудникам, они тебя немедленно разорят. Её легко симулировать, поставив тупую задачу, над которой система может работать часами вхолостую.
— Ну, блин, да, но можно же просто добавить второй параметр: сколько решений AI принимает без меня.
А это дополнение измеряет как грамотно я снабдил нейронку контекстом и правилами его самообогащения. А – главное – это значит что я встроил в задачу систему самокоррекции.
Но опыт не пропить, и внутренний менеджер продолжал:
— Почему ты решил, что автономность системы это благо? Идеальная система должна знать, где остановиться, где эскалировать.
— Ну, блин, да, не поспоришь. Важен не факт остановки, а его качество, типа а в нужном ли месте система остановилась.
Но… Это ж просто дописать условие в формулировку: сколько часов работала автономно и остановилась в нужном месте.
— Чудесно, — сказал этот ж опытный внутренний зануда. — Но главное при этом в твоей системе отсутствует: а что на выходе-то?
Пришлось и тут принять, что в метрику надо добавить два условия: можно ли использовать результат без переделки и какой бюджет в токенах на полезный результат.
И тут я смотрю на эту конструкцию и что-то мне это напоминает…
Ба! Да это ж мой любимый грех: измерение сложных систем одной циферкой.
Ладно, думаю, черт с ним, универсальной царь-метрики не получилось.
Но тут раздался издевательский голос менеджера внутри:
– Ага. Твоя простая идея про часы — это прокси-метрика. Реально полезный навык во всей твоей конструкции — нормально проектировать пространство решений, приносящих бизнес-результат. А это вообще не про нейросети, а про менеджмент.
Опаньки.
Главный AI-native скилл — это менеджмент.
Привет, операционка! Ты скучала? Я вернулся.