3.4Kпросмотров
79.3%от подписчиков
18 февраля 2026 г.
📷 ФотоScore: 3.7K
Датасет из веба (вэба/вёба/web)
Ресерчил разные движки для поиска с LLM через API и посоветовали Parallel AI. И да, у них отличный дипресерч, но сегодня не об этом. Сервис предоставляет инструмент FindAll, который позволяет собрать из веба структурированный и обогащенный признаками датасет. Выглядит это так:
1. Формируем запрос, сразу указывая какие-то признаки(enrichments).
Например "Find all конференции связанные с ai тематикой запланированые на 2026 год в русскоязычном сообществе, на которые еще можно податься."
2. Получаем превью результата
3. Меняем/добавляем признаки
4. Регулируем сколько совпадений по признакам хотим найти (5-500), насколько глубокий ресерч нужен (я всегда оставляю по-умолчанию Сore), и сколько денег готовы потратить
5. Стартуем ресерч и смотрим как он наполняется, идут проверки по признакам
6. В процессе, если видим что результаты хорошо бы проверять на еще что-то - добавляем новые признаки
7. Получаем результат и выгружаем в CSV Что еще хорошо - каждое значение в таблице имеет подтверждения в виде источника. Мой итог: 5$ за таблицу из около 250 сущностей, из которых 25 соответствуют заданым критериям :)