Год доверял ChatGPT в строительстве, потом он начал придумывать ГОСТы

Год использую ChatGPT для работы — основной бизнес у меня в загородном строительстве, плюс веду YouTube-канал компании. Нейросеть нормально помогала со сценариями для роликов, контент-планом, оформлением технических отчётов. Пока я не стал использовать её для строительных норм — СП, ГОСТов, нормативной документации.

Тут начались проблемы. Спрашиваю: «Какие требования к толщине утеплителя в СП 50.13330.2012?» — ChatGPT выдаёт цифру, например 150 мм, и ссылается на пункт 5.2.3 документа. Открываю норматив, проверяю — такого пункта нет. Или пункт есть, но цифры другие. Загружаю весь документ в контекст — модель снова искажает данные или вырывает фрагменты не там, где надо.

Причина в архитектуре. ChatGPT работает с вероятностями, предсказывает следующее слово, не проверяет факты, не идёт в источник. Когда документ большой, окно контекста ограничено: модель читает начало и конец, середину может пропустить. Для строительства это критично — неправильная толщина утеплителя означает холодный дом, неправильная нагрузка на перекрытие — угрозу безопасности.

Знакомые из нейросетевых проектов рассказали про RAG-архитектуру. Документы не загружаются целиком в ChatGPT — отдельная база хранит нормативы в специальном формате, модель работает только нормализатором ответа под заданную структуру. Куски исходных документов в ответе явно маркируются цитатами, чтобы пользователь видел, где источник, а где интерпретация. Это была середина 2025-го.

Решили не использовать готовые RAG-фреймворки вроде LangChain или LlamaIndex — для строительной нормативки нужна была кастомизация на каждом этапе. Почти всю архитектуру пишем с нуля на Node.js и TypeScript, отдельные модули — на Python. За новогодние каникулы я сам подтянул Python через ChatGPT — до этого помнил только Pascal и Visual Basic из университета. Регистрирую компанию «Цифровой стандарт».

Полгода резали документы вручную. Автоматическая обработка PDF не работает — сканы с таблицами идут с ошибками, формулы превращаются в нечитаемый текст. Команда разбивала десятки СП и ГОСТов на смысловые чанки, каждый с метаданными — откуда взят, какая тема. Потом перевод в векторный формат для поиска по смыслу. На старте получилось 5500 фрагментов, в ближайшее время цифра удвоится.

Отдельная история с формулами. R = δ/λ в PDF — это картинка или специальная разметка. После конвертации превращается в R = 8/2 или мусор. Качаем документы — сайт-источник отдаёт формулы в HTML своим алгоритмом, но HTML-версии доступны не постоянно: часть документов открывается только после 20:00, часть закрыта. Используем отложенные ночные задачи. Для математики — формат LaTeX.

В продакшне используем ChatGPT-4.1 в связке с векторной базой Qdrant. Эмбеддинги — OpenAI text-embedding-3-large. Хостинг FirstVDS. Запрос пользователя сначала нормализуется в поисковую форму, потом выполняется поиск в базе, топ-10 чанков подаются в ChatGPT с детальной инструкцией на несколько страниц: как формировать ответ, как цитировать источники, что делать при противоречиях. Если данных нет — модель пишет «В предоставленных документах нет данных», без додумываний. Ответ генерируется в трёх вариантах: короткий, средний, экспертный (до 12 000 символов). Стоимость одного запроса в нашей системе в десятки раз выше обычного запроса к OpenAI API: каждый запрос включает поиск по векторной базе и передачу большого контекста.

Закрытый тест дал инженеру Сергею. Он задавал вопросы про фундаменты — выявилась проблема: не хватало контекста для учёта СП 63 про армирование. Решили через уточняющие вопросы от системы и принудительные инструкции. Перед релизом четыре дня программист Сергей чинил баги, появлявшиеся быстрее, чем кофе остывает. 31 декабря 2025 года запустили продукт в открытый доступ — три тарифа: бесплатный, Standard, Pro.

После запуска появились первые платные клиенты. Заинтересовались национальные ассоциации, которые занимаются разработкой нормативной документации — ведём с ними переговоры в двух направлениях: упростить работу с базой для участников рынка и помогать выявлять ошибки в самих документах. Параллельно — образовательные организации для обучения и переквалификации строителей.

Режим: с 8 утра до 2-3 ночи, постоянно что-то придумываю, разрабатываю, тестирую. С одной стороны, весело — создаёшь новое. С другой — понимаю, что могу выгореть.