Датасет из веба (вэба/вёба/web) Ресерчил разные движки для п — @sergeinotevskii

3.4Kпросмотров

79.3%от подписчиков

18 февраля 2026 г.

📷 ФотоScore: 3.7K

Датасет из веба (вэба/вёба/web) Ресерчил разные движки для поиска с LLM через API и посоветовали Parallel AI. И да, у них отличный дипресерч, но сегодня не об этом. Сервис предоставляет инструмент FindAll, который позволяет собрать из веба структурированный и обогащенный признаками датасет. Выглядит это так: 1. Формируем запрос, сразу указывая какие-то признаки(enrichments). Например "Find all конференции связанные с ai тематикой запланированые на 2026 год в русскоязычном сообществе, на которые еще можно податься." 2. Получаем превью результата 3. Меняем/добавляем признаки 4. Регулируем сколько совпадений по признакам хотим найти (5-500), насколько глубокий ресерч нужен (я всегда оставляю по-умолчанию Сore), и сколько денег готовы потратить 5. Стартуем ресерч и смотрим как он наполняется, идут проверки по признакам 6. В процессе, если видим что результаты хорошо бы проверять на еще что-то - добавляем новые признаки 7. Получаем результат и выгружаем в CSV Что еще хорошо - каждое значение в таблице имеет подтверждения в виде источника. Мой итог: 5$ за таблицу из около 250 сущностей, из которых 25 соответствуют заданым критериям :)

Другие посты @sergeinotevskii