*Этот пост является творческим произведением художника и соответственно научно-фантастическим вымыслом автора на 100%.
Сегодня на досуге представим в картинках, что такое поисковый модуль модели, пофантазируем о направлении, в котором художник может осознанно выстраивать своё цифровое присутствие в эпоху ИИ и посчитаем пауков. Заодно разберёмся, чем паук языковой модели принципиально отличается от классических поисковых роботов Яндекса и Google. А также проведём небольшое мероприятие для персонального сайта художника и поставим Васе файл llms.txt (конечно только как тестовый эксперимент и вольный футурологический прогноз).
Чтобы нам продвинуться далее в понимании работы ИИ, первое, что нам нужно узнать о пауке ИИ поиска: паук может быть горячим или холодным.
При этом горячий (по вашему запросу в контекстном окне при включённой кнопке поиска) относит найденное модели ИИ и сразу отдаёт, а холодный тоже относит, но не отдаёт модели сразу, а складывает в Индекс-банку для неё. Модель может меняться на новую версию, а индекс-банк просто накапливаться.
Зачем модели нужен собственный паук?
Пауки разные и могут иметь разные цели индексации. Собственный паук нужен модели и вот почему: у Google, Яндекса и у создателей LLM — разные цели, разная архитектура и разная экономика. Google-паук ищет страницы для людей, а AI-паук ищет страницы для модели. Это два разных продукта с разными требованиями к данным.
Google индексирует веб, чтобы отвечать людям ссылками. Его задача — найти релевантную страницу, учесть сотни SEO-факторов, определить авторитетность домена и показать вам синюю ссылку. AI-модели (OpenAI, Anthropic, Perplexity) индексируют веб, чтобы отвечать на запросы машины смыслами. Им не нужен SEO-мусор, ссылочный ранг и оптимизация под ключевики, хотя они хватают это всё тоже. Им нужен чистый текст, структура и семантическая карта. И главное, что нужно понять — любой паук ходит по ссылкам. Паутина для паука — это суть ссылки.
Ссылка: в чём разница для Поиска и для ИИ?
Для классического поисковика (Яндекс/Google): Ссылка — это голосование и вес. Алгоритмы (как старый добрый PageRank) считают: если на страницу ведут 100 ссылок с авторитетных сайтов, значит, эта страница важная. Ссылка помогает определить ранг (место в выдаче). Поисковику важно найти страницу и поставить её повыше.
Для ИИ-модели: Ссылка — это маршрут и контекст. Модели (или системе поиска внутри ИИ) всё равно, «авторитетна» ли ссылка с точки зрения веба. Ей важно: ведёт ли эта ссылка на страницу с фактическими данными, которые можно использовать для генерации. Ссылка помогает пауку построить семантическую карту — если со страницы есть ссылка и тексты связаны логически, а не просто соседствуют в меню.
Парадокс «Тупого паука и Умной модели»
Паук (Crawler) — это просто курьер. Его задача: увидеть гиперссылку <a href="...">, перейти по ней, скачать HTML-код и передать дальше. Он не понимает, что такое «творческий метод» или «художественная ценность». Эмбеддер (Embedding Model) — это следующий этап. Полученный от паука текст он превращает в набор чисел (векторов), которые уже отражают смыслы. LLM (Сама модель) — это финальный этап. Она берёт эти векторы и генерирует ответ.
Когда мы говорим «ИИ ищет смыслы», мы говорим о системе в целом. Паук лишь доставляет «сырьё». Если паук из-за плохой структуры сайта принесёт вместо картины — прайс-лист на багет, то и «умная» модель будет отвечать про багет, потому что смыслы извлекаются из того, что принёс паук. llms.txt — это инструкция для «тупого» курьера, чтобы он не перепутал двери и принёс в студию именно то, что нужно для творчества.
Что такое паук?
То, что по своей сути является «пауком, посланным ИИ-моделью», на самом деле зовётся AI-краулером и является программой-ботом. У каждой крупной модели он свой, и у них есть названия (которые, кстати, можно прописать в robots.txt).
Вот эти механики:
• GPTBot (для ChatGPT/OpenAI)
• ClaudeBot / Claude-Web (для Claude/Anthropic)
• PerplexityBot (для Perplexity)
• Bytespider (для ByteDance/DeepSeek*)
• Google-Extended (для Google Bard/Gemini)
• Amazonbot (для Amazon)
Эти пауки, заходя на сайт, способны распознать и использовать файл /llms.txt, если он есть. Они не просто «заходят» в кафе, а технически могут прочитать ваше меню ещё с порога. И если находят его — могут действовать в соответствии с ним, загружая в приоритете то, что вы перечислили. Если меню нет — начинают собирать контент, следуя по ссылкам сайта. И тогда качество извлечения смысла — под риском для потребителя.
Как и куда идёт паук?
Собственно, зачем мы всё это затеяли: продумать и создать меню для Искусственного Интеллекта. Поисковый модуль (горячий или холодный паук), отправляясь в обозримый интернет, идёт к вам на сайт. После чего уносит добытое на сайте «в пригоршнях» к модели LLM. Проблема в том, что паук отправляется к вам без семантического компаса — и идёт по вашим ссылкам туда, куда его увезёт «в качестве хаотичного вектора» ссылочная структура вашего сайта, как она есть. (Именно для этого придумано меню llms.txt — как тестовый вариант).
Горячий паук: немедленный поиск (2026 г.+)
Эта механика действует только по прямому запросу пользователя — то есть отправляется из вашего текущего контекстного окна с искусственным интеллектом, здесь и сейчас.
Если меню нет
Паук заходит на сайт и начинает собирать контент, следуя по ссылкам. Парсер (его щётка «чистильщик») вырезает из HTML основной текст, отбрасывая навигацию, скрипты и, будем надеяться, рекламу колбасы на сайте у художника Васи. Но если структура сложная, парсер может захватить и лишнее. То есть паук пойдёт гулять по всем страницам, не разбираясь, что тут, и дёргая то тут, то там, а потом ломанётся обратно к модели, и после щётки парсера отдаст модели в контекстное окно всё, что надёргал. Получится так, что и вы, и паук оба нальёте воду модели в два ушата. Модель в контекстное окно текущего запроса получает: [ваш промпт] + [добытый контент] + «лишнее». ИИ тратит часть ресурса (токенов), чтобы отфильтровать шум и найти суть. Далее, анализируя и оценивая, модель может обращаться к этому материалу в рамках формирования ответа. Если в ответе есть неточности — возможно, часть «мусора» прошла в генерацию. Как только ответ сформирован — этот конкретный контекст закрывается.
Если меню есть
1. Пользователь задаёт ИИ вопрос и активирует поиск.
2. Поисковый модуль, который обслуживает модель, определяет: для ответа нужны внешние данные.
3. Если в индекс-банке данных, собранной холодным пауком, нужной страницы нет, она устарела или нужно проверить данные в реальном времени — поисковый модуль посылает горячего паука.
4. Паук получает команду: «Сходи на вот этот сайт, прочитай вот эту страницу, принеси содержимое».
5. Бежит по указанному адресу.
6. Видит llms.txt (если есть) — и может считать (имеет возможность) структуру: «Картины здесь, выставки там, об авторе тут».
7. Идёт по нужным страницам, собирает контент.
8. Приносит всё, что насобирал, обратно.
9. Парсер очищает щеткой контент от служебного кода.
10. Модель загружает чистый контент в контекстное окно текущего запроса, где уже лежит промпт пользователя.
11. Модель читает и промпт, и добытый контент — вместе, в одном окне.
12. Генерирует ответ на основе того и другого.
13. Отвечает пользователю.
Зачем горячему пауку llms.txt?
Итак, мы увидели, что без меню паук зайдёт на сайт и начнёт собирать всё, что найдёт по ссылкам. Парсер постарается вычистить мусор, но чем чище исходник — тем точнее результат.
С файлом llms.txt паук мгновенно может понять структуру, может взять только нужные страницы и принести модели чистый, релевантный контент, контекстное окно не перегрузится лишним, модель ответит точнее, и вы получите лучший результат. Но верно и то, что он может и не посмотреть файл вовсе.
Ключевое отличие горячего паука от холодного паука
Данные, которые принёс горячий паук, не сохраняются в индекс-банку про запас. Они живут только в рамках текущего конкретного ответа. Модель прочитала, ответила — и «забыла». В следующий раз, если понадобится, паук пойдёт снова.
Холодный паук и его путь
Холодному пауку нет никакого дела до пользователя и текущего контекстного окна. Его задача — наполнять индекс-банку поисковой системы для ваших последующих запросов к ИИ. Холодный паук отправляется на работу 24/7, и есть список ссылок, которые нужно посетить. Этот список называется очередью на обход. Пополняется очередь просто: паук заходит на страницы, выгрызает из HTML-кода все ссылки, какие заметит, и каждую новую, незнакомую ссылку добавляет себе в список «посетить попозже». Обошёл страницу — собрал с неё ссылки — добавил в очередь — перешёл к следующей. Так он ползёт повсюду, от ссылки к ссылке, как по нитям огромной паутины. И всё, что находит, приносит в ИНДЕКС-БАНКУ на потом.
Связь ссылки с содержимым страницы
Что это значит для вашего сайта: если на вашей странице есть ссылки на «Политику конфиденциальности», на «Партнёров», на старый блог или на страницу с рекламой колбасы — паук пойдёт по всем этим ссылкам. Он не различает, что важно, а что второстепенно. Он просто собирает всё. И складывает в индекс-банку — тоже вперемешку.
Файл llms.txt решает именно эту проблему. Он не отменяет обход по ссылкам и не приказывает пауку, но задаёт приоритет. Паук читает меню и понимает: «Вот это — главные страницы, их нужно проиндексировать в первую очередь и с особым вниманием. А остальное — по остаточному принципу». Это как если бы вы положили записку с пометкой: «Коробки с надписью "Картины" — самое ценное. Коробка "Всякое и колбаса" — если останется время».
Ловим паука
Мы попробуем поймать паука в посудной лавке, а для этого сплетём паутину для него заранее и запустим его точно по карте нитей. Теперь он прочитает карту-меню и сразу узнает: вот картины, вот выставки, вот Вася, вот его фоточки.
Эта карта-меню понадобится для «пауков» от основных языковых моделей — DeepSeek, ChatGPT, Gemini, Perplexity, Grok и других. Это не для Яндекса и не для классического Google-поиска. Это для нового поколения поисковиков, которые не просто ищут страницы по ключевым словам, а сопоставляют найденные смыслы через векторные связи, пользуясь возможностями модели. Карта меню позволяет ему быстро понять структуру сайта и найти самое важное, не растрачивая ресурсы щётки парсера и ресурсы модели на обработку рекламы, навигационных меню и прочего служебного кода.
Ленивый Паук
Стопроцентной гарантии нет, потому что llms.txt сегодня — это только подсказка, предложение, а не директива (в отличие от robots.txt). Однако если файл есть и он правильно оформлен, холодный паук может быть в него заглянет, а горячий — с высокой вероятностью. Холодному пауку llms.txt выгоден: он экономит ресурсы обхода и даёт чёткую семантическую карту. Игнорировать его — значит делать лишнюю работу. А паук ленив, как и все остальные в этом мире ограничен бюджетом обхода. Горячему пауку llms.txt выгоден ещё больше: время ответа ограничено, и ему нужно быстро взять главное. Файл даёт готовую структуру — почему бы ею не воспользоваться.
Паук может и не взять и просто не найти файл, если тот лежит не в корне, является битым, или если модель запросит прочитать конкретную страницу целиком, а не ориентироваться по меню. Но целенаправленно игнорировать правильно размещённый файл — маловероятно. Экономия ресурсов выгодна всем.
Более того, здесь можно немного пофантазировать и, гадая на кофейной гуще, предположить, что в недалёком будущем тот же GPTBot и иже с ним вознамерятся заходить за этим файлом ежедневно на завтрак. Ну, это так, к слову. Как бы то ни было, возможно, уже сегодня ваша паутина может работать так, как вы её настроите — чуть более структурировано.
Строим карту для паука
Как собственно делать:
Файл меню пишется в обычном блокноте, сохраняется в кодировке UTF-8, как llms.txt.
Синтаксис простой:
# — заголовок первого уровня (название сайта)
> — описание (краткая характеристика)
## — заголовок второго уровня (раздел)
### — заголовок третьего уровня (подраздел)
- — элемент списка (ссылка с описанием)
Как это выглядит (пример):
> Сайт художника Васи
Авторская живопись маслом, картины с цветами пионов, летний пейзаж с рекой.
# Картины
- http://site.ru/paintings.html: Каталог живописи. Пейзаж, натюрморт, цветы.
## Собственно о Васе и что ему не сидится
- http://site.ru/vasiliy.html: О художнике.
### Выставки
- http://site.ru/exhibition.html: выставки, проекты.
После чего эта конструкция сохраняется в корень сайта. Если у вас имеется сайт с авторскими картинами, к которым размещены авторские тексты, llms.txt поможет поисковику от модели не шататься медведем, а сразу пойти по тем страницам, которые вы сами решили показать и ссылки на которые вы разместили в первую очередь. Этот элемент — небольшое, но всё же доступное вам средство влияния на то, как модель ИИ увидит ваш сайт и что именно она отдаст в выдачу.
*Файл в корне сайта — публичный. Не стоит указывать там приватные или черновые материалы.
** Речь идёт о вероятностях и долгосрочном тестировании. На практический вопрос, работает ли это как технический лайфхак уже сегодня, ответ — нет, не работает и даже не существует.
Однако — если мы подстелем соломки llms.txt или его аналог в будущем будет принят, как механика и направление мысли в целом, он может станет реальностью.