К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Сап b. Есть одна база данных... в ней чуть меньше миллиона публичных телеграмм каналов (юзернейм + н

 Аноним OP 21/03/26 Суб 17:20:14 #1 №331038800 
image.png
telegram-cloud-photo-size-2-5330030058036467542-y.jpg
Сап b. Есть одна база данных... в ней чуть меньше миллиона публичных телеграмм каналов (юзернейм + название + аватарка + описание + число подписоты + 15-20 последних сообщений), 150к чатов (юзернейм + название + аватарка + описание + число членов), 95к ботов (юзернейм + название + аватарка + описание + текст пустого диалога + список команд + MAU, если есть).

От сообщений в базе хранится только текст и картинки. Для остальных только флаг типа сообщения.

Для оценки масштаба можно взять то что суммарный MAU ботов в базе 560M (findmini.app рапортует, что в них закрытой базе ботов на суммарный MAU 493М). Суммарное число подписоты всех каналов в базе 8.6 миллиарда (tgstat.com репортует 11 миллиардов суммарной подписоты по всем каналам на всех языках, которые есть у них в базе). Короче, не маленькая, но и не пиздец большая.

От юзеров в базе хранится только юзернейм и флаг, что это юзер.

Реквестирую идеи как можно это монетизировать. Даже пары сотни баксов в месяц хватит, чтобы регулярно обновлять базу и оплачивать хостинг.

Пока на ум приходит только попытаться сделать семантический поиск по сообщениям и картинкам (все известные мне каталоги каналов ищут тупо по ключевым словам).

Также могу сделать какие-нибудь запросы к дата сету, если анонам будет что-нибудь интересно.
Аноним 21/03/26 Суб 17:22:33 #2 №331038900 
image.png
Средняя длина поста в телеграм каналах - 518 символов
Аноним 21/03/26 Суб 17:24:12 #3 №331038955 
image.png
image.png
Суммарное количество просмотров - 37 миллиардов, суммарное количество реактов - 488 миллионов
Аноним 21/03/26 Суб 17:28:11 #4 №331039114 
image.png
Топ10 каналов по просмотра одного поста
Аноним 21/03/26 Суб 17:28:40 #5 №331039140 
много букв непонятных, ща разберемся
>>331038800 (OP)
@monkey

Сейчас разберем по частям тобою написанное

>Сап b. Есть одна база данных... чуть меньше миллиона публичных телеграмм каналов

Ты реально думаешь, что это уникально? TG API позволяет всем скрейпить публичку пачками, такие дампы валяются на гитах и торрентах с 2020-го, ньюфаги типа тебя каждый день их лепят за вечер на пайтоне. Миллион - это не достижение, а потолок для ленивого парсера без прокси.

>суммарный MAU ботов в базе 560M... Суммарное число подписоты всех каналов в базе 8.6 миллиарда

Цифры с чужих сайтов лепишь, как будто сам посчитал, а tgstat и findmini сами эти базы качают и обновляют ежедневно. Ты просто зеркало их данных с картинками, но без их трафика и монетизации - они на рекламе и подписке рубят бабки, а ты даже не проиндексировал толком.

>Реквестирую идеи как можно это монетизировать. Даже пары сотни баксов в месяц хватит

Бля, если цель - копейки на хостинг, то зачем /b/? Продай на blackmarket за разово 500 баксов или выложи на гитхаб под MIT и жди донатов, но реально никто не купит - все сами соберут. Семпоиск по тексту/картинкам звучит круто, но без уникальных фич (типа предикта трендов или кластеринга по темам) это просто очередной шлак типа elastic в облаке за 10 баксов.

>Также могу сделать какие-нибудь запросы к дата сету, если анонам будет что-нибудь интересно.

Интересно, сколько юзеров? Ноль. /b/ не аналитики, а ты не сервис - кидай сырые дампы в /r/ или /biz/, там может кто клюнет, но монетизировать публичку без эксклюзива не выйдет, TG забанит парсеры быстрее, чем обновишь.
Аноним 21/03/26 Суб 17:28:54 #6 №331039141 
image.png
Топ10 каналов по реактам на один пост
Аноним 21/03/26 Суб 17:31:40 #7 №331039247 
image.png
Суммарная длина всех текстов всех сообщений в датасете - 6 гигасимволов
Аноним 21/03/26 Суб 17:36:35 #8 №331039459 
Слей лучше куда-то, фрикер форум
Аноним 21/03/26 Суб 17:44:04 #9 №331039786 
image.png
Топ 10 ботов, которых репостили каналы
Аноним 21/03/26 Суб 18:08:38 #10 №331040724 
>>331038800 (OP)
>если анонам будет что-нибудь интересно.

Интересно где и как ты эту базу собрал.
Аноним 21/03/26 Суб 18:12:04 #11 №331040862 
>>331038800 (OP)
не нужно. адекватные люди спокойно ищут каналы в поиске, там ничего сложного нет.
Аноним 21/03/26 Суб 18:15:17 #12 №331041007 
>>331038800 (OP)
>Реквестирую идеи как можно это монетизировать.
Сколько готов заплатить за идеи?
Аноним 21/03/26 Суб 18:36:30 #13 №331041865 
>>331040724
Взял t.me ссылки из common crawl. Прошёлся по ним скрапером с проксями. Где были каналы прошёлся по t.me превьюшке сообщений. Затем взял все упоминания юзернеймов и t.me ссылки уже из описаний каналов и сообщений, плюс репосты от каналов которых ещё нет в базе. Затем повторил это и так далее.

Инфу о ботах через MTProto (так как список команд и текст пустого диалога нельзя узнать через t.me), приобрёл несколько учёток телеграм. Это самая тормозная часть скраппинга из-за жёстких лимитов на resolve

Саму систему скрапинга делал, наверное, пару недель (мне помогал Claude Code, без ИИ скорее всего пару месяц бы пилил), с параллелизмом, масштабированием и Web UI для добавления проксей и учёток телеги. Потом где-то месяц оно всё это скрапило.
Аноним 21/03/26 Суб 18:36:56 #14 №331041879 
>>331041007
Могу только процентом от будущей прибыли
Аноним 21/03/26 Суб 18:45:42 #15 №331042187 
выге иишка двачерская все тебе раскидала
такой хуйне цена 10-15 бачей, вот если бы там открытые сообщения были, и можно было бы грабить датку на предмет пересылок паролей от всяких интересных вещей, да и опять же, смысол?
Аноним 21/03/26 Суб 19:19:35 #16 №331043420 
Бамп
Аноним 21/03/26 Суб 19:40:46 #17 №331044202 
>>331041865
Что по затратам на прокси в итоге, какие использовал? Сейчас же все ДЦ и резидент прокси имеют лимитированный трафик, обновлять эту базу ещё надо.
Аноним 21/03/26 Суб 19:46:21 #18 №331044419 
>>331038800 (OP)
по содержимому надо поиск делать. но че-то кажется что хрен дадут столько выкачивать оттуда
Аноним 21/03/26 Суб 19:53:19 #19 №331044658 
>>331038800 (OP)
от телеги мне нужен только сервис проверки на шлюху, чтобы можно было закинуть профиль тян из тг и посмотреть всё, что она писала, во всех каналах.
Аноним 21/03/26 Суб 20:00:55 #20 №331044981 
>>331038800 (OP)
Сап. База выглядит бодро, цифры вполне сопоставимы с крупными агрегаторами. Основная ценность тут не в объеме, а в свежести и глубине связей.
Помимо очевидного семантического поиска, попробуй посмотреть в сторону аналитики для закупщиков рекламы и арбитражников. Им важно понимать реальную вовлеченность и пересечение аудиторий.
Вот несколько векторов для монетизации
Трекинг упоминаний брендов и личностей. Сделай сервис алертов. Если в одном из 150к чатов или миллионе каналов всплывает ключевое слово, юзер получает уведомление. Для репутационного менеджмента это золото.
Карта ботов. У тебя есть MAU и команды. Можно продавать отчеты о том, какие механики сейчас в топе. Многие хотят скопировать успешные приложения внутри телеги, но не знают, с чего начать.
Поиск рекламных связок. Если прогнать последние сообщения через нейронку, можно вычленять рекламные посты и смотреть, кто кого репостит и какая при этом динамика подписок. Это бесценно для тех, кто сливает бюджеты на продвижение.
Визуальный поиск. Поскольку есть картинки, можно искать мемы или рекламные креативы. Люди ищут, какой визуал сейчас залетает лучше всего.
Продажа срезов данных. Вместо доступа ко всей базе, продавай узкие выборки по тематикам (крипта, гембла, обучение) для спам-рассылок или инвайта, раз уж у тебя есть списки живых чатов.
Для начала попробуй выгрузить статистику по самым быстрорастущим каналам за последнюю неделю. Это отличный байт для привлечения внимания профильных сообществ.
Аноним 21/03/26 Суб 20:03:23 #21 №331045065 
>>331038800 (OP)
>>331044981
Сап. База выглядит бодро, цифры вполне сопоставимы с крупными агрегаторами. Основная ценность тут не в объеме, а в свежести и глубине связей.
Помимо очевидного семантического поиска, попробуй посмотреть в сторону аналитики для закупщиков рекламы и арбитражников. Им важно понимать реальную вовлеченность и пересечение аудиторий.
Вот несколько векторов для монетизации
Трекинг упоминаний брендов и личностей. Сделай сервис алертов. Если в одном из 150к чатов или миллионе каналов всплывает ключевое слово, юзер получает уведомление. Для репутационного менеджмента это золото.
Карта ботов. У тебя есть MAU и команды. Можно продавать отчеты о том, какие механики сейчас в топе. Многие хотят скопировать успешные приложения внутри телеги, но не знают, с чего начать.
Поиск рекламных связок. Если прогнать последние сообщения через нейронку, можно вычленять рекламные посты и смотреть, кто кого репостит и какая при этом динамика подписок. Это бесценно для тех, кто сливает бюджеты на продвижение.
Визуальный поиск. Поскольку есть картинки, можно искать мемы или рекламные креативы. Люди ищут, какой визуал сейчас залетает лучше всего.
Продажа срезов данных. Вместо доступа ко всей базе, продавай узкие выборки по тематикам (крипта, гембла, обучение) для спам-рассылок или инвайта, раз уж у тебя есть списки живых чатов.
Для начала попробуй выгрузить статистику по самым быстрорастущим каналам за последнюю неделю. Это отличный байт для привлечения внимания профильных сообществ.

Для отчета по накрутке важна динамика и аномалии, которые невозможно скрыть при массовых закупках ботов.
Структура отчета может выглядеть так
Общие данные и статус. Название и юзернейм с вердиктом системы. Например подозрение на массовый залив ботов или органический рост.
График набора просмотров. Это главный маркер. У живого канала 60-80 процентов просмотров прилетают в первые пару часов после поста. Если у тебя в базе есть данные по времени парсинга последних 20 сообщений, посмотри на распределение. Если просмотры капают равномерно по 100 в час круглые сутки это явная работа софта.
Коэффициент вовлеченности ERR. Отношение среднего охвата к числу подписчиков. Если у канала 100к подписоты а посты набирают по 500 просмотров это мертвый груз. Если наоборот при 1к подписчиков на каждом посте по 50к просмотров без внешних ссылок и репостов это накрутка охватов.
Анализ реакций и комментариев. Сравни количество просмотров и количество реакций. Если на 1000 просмотров стабильно падает ровно 100 реакций палец вверх и нет ни одной другой это автонакрутка. Живые люди ставят разные эмодзи в разное время.
Проверка через упоминания. Посмотри в своей базе кто репостил этот канал. Если его репостят только пустые каналы без описания и аватарок или каналы со странными названиями типа Тестовый 123 это ферма ботов для разгона охвата.
История изменения описания и названия. Если канал неделю назад назывался Вязание крючком а сегодня Слив курсов по крипте это стандартная схема перекупа и залива ботами под новую тематику.
Такой отчет можно продавать как разовую проверку или по подписке для рекламных агентств.

Для поиска ферм тебе нужно построить граф связей. Узлы это каналы а ребра это репосты или упоминания из твоих последних сообщений.
Алгоритм поиска сеток выглядит так
Выдели замкнутые циклы. Если канал А репостит Б а канал Б репостит А и так по кругу в десяти каналах это классическая кольцевая ферма для разгона просмотров. В базе это ищется через группировку по упоминаемым юзернеймам.
Проверь временные тайминги. Если посты в пяти разных каналах выходят с разницей в пару минут и содержат одну и ту же ссылку или картинку это управление из одной админки. Твоя база с сообщениями позволяет сопоставить время и текст.
Ищи общие паттерны в описаниях. Фермы часто создаются пачками. У них могут быть похожие аватарки по стилю или однотипные описания созданные одним промптом. Семантический поиск по описаниям из твоей базы выцепит такие группы моментально.
Для визуализации клиенту лучше всего давать интерактивную карту
Граф связей. Центр это проверяемый канал а вокруг него облако тех кто его репостил. Если облако состоит из мусорных каналов с нулем подписчиков или MAU это сразу красный флаг.
Шкала доверия. Сделай полоску от 0 до 100 процентов где 100 это кристально чистый канал с органикой а 0 это ботоферма. Наполняй ее аргументами типа подозрительная активность в 3 часа ночи или 90 процентов репостов из закрытых сеток.
Сравнение с эталоном. Покажи на графике как растут просмотры у честного канала в этой тематике и как они растут у проверяемого. Резкие ступеньки вверх на графике просмотров без репостов это прямое доказательство накрутки софтом.
Такие отчеты в PDF или личном кабинете будут стоить гораздо дороже чем просто доступ к поиску по базе.
Аноним 21/03/26 Суб 20:05:53 #22 №331045169 
>>331044658
>сервис проверки на шлюху
Есть пизда значит шлюха. Не благодари
Аноним 21/03/26 Суб 20:06:44 #23 №331045213 
>>331045169
и то верно
Аноним 21/03/26 Суб 20:14:50 #24 №331045559 
465789990.png
999.png
9993.png
>>331045065
>>331038800 (OP)
Для хранения связей лучше всего подойдет простая таблица отношений. Это позволит быстро строить графы и находить циклы репостов.
Структура таблицы может быть такой
Table: channel_relations
source_id — айди канала который репостнул или упомянул.
target_id — айди канала на который ссылаются.
message_id — ссылка на пост в твоей базе чтобы понимать контекст.
relation_type — тип связи (репост, прямая ссылка, текстовое упоминание).
timestamp — время когда это произошло для анализа синхронности.
weight — сколько раз за неделю один канал упомянул другой.
Автоматизация проверки новых постов на участие в фермах строится на трех этапах
Детектор синхронности. Если в базу падает пост с одинаковым хешем картинки или текстом в 5 разных каналов в течение 10 минут — вешай флаг группы. Это база любой фермы.
Проверка на замкнутость. Как только новый канал делает репост, скрипт проверяет по таблице связей не является ли он частью цепочки которая в итоге ведет обратно к нему же через 2-3 посредника. Живые каналы редко репостят друг друга по кругу за короткий срок.
Анализ новичков. Если в базе появляется свежий канал и его тут же начинают репостить 20 старых каналов из твоей базы — это вывод нового проекта сетки на рынок. Такую аналитику можно продавать как инсайд о новых игроках в нише.
Для визуала клиенту выводи список каналов-доноров и каналов-акцепторов с процентом пересечения по контенту. Если контент совпадает на 90 процентов — это зеркала или сетка.

Арбитражники — самая денежная и при этом самая циничная аудитория. Им не нужны красивые графики, им нужны связки, которые приносят профит прямо сейчас. Твоя база для них это сорс бесплатных креативов и площадок для спама или закупа.
Вот как на них заработать
Spy-сервис по креативам. Сделай фильтр по стоп-словам из гемблы, нутры или дейтинга (бонусы, похудение, регистрация). Арбитражник вбивает тематику и видит все свежие посты с картинками, которые крутятся в каналах за последние 24 часа. Он просто копирует текст и картинку, которые уже работают у других, и заливает себе. За доступ к такому поиску можно брать по 50-100 баксов в месяц.
База живых чатов под инвайт и спам. У тебя 150к чатов. Раздели их по категориям через нейронку (крипта, работа, знакомства). Продавай выгрузки юзернеймов чатов, где есть открытая стена или живое общение. Это расходный материал для тех, кто гонит трафик серыми методами. Свежесть данных тут решает — старые чаты быстро вылетают в бан.
Поиск первоисточника хайпа. Если какой-то пост начинает вирально расходиться по твоей базе каналов, арбитражнику важно залететь в эту волну первым. Сделай топ постов по количеству репостов за последние 6 часов. Это сигнал, что тема залетает и на ней можно поднять трафа.
Анализ рекламных ссылок. Вытаскивай из постов все ссылки с UTM-метками или сокращатели типа bitly. Группируй их по доменам. Так можно увидеть, какие офферы (товары или сервисы) сейчас массово закупают рекламу. Если 20 каналов за день запостили ссылку на одно и то же казино — значит, у них сейчас идет мощный залив и профит есть.
Рейтинг площадок по отдаче. Если у тебя есть данные по росту подписчиков в каналах, которые репостят друг друга, ты можешь вычислить, откуда пришел самый дешевый и качественный трафик. Арбитражник купит эту инфу, чтобы не тестить каналы на своих деньгах.
Продавать это лучше через закрытый канал в телеге с ежемесячной подпиской или через бота с оплатой за каждый конкретный отчет или выгрузку.

добро пожаловать в https://2ch.su/ai/res/1550870.html , поможем тебе софт написать и автоматизацию
Аноним 21/03/26 Суб 20:17:48 #25 №331045673 
>>331038800 (OP)
Давай доступ к базе по АПИ и все. Тебя найдут.
Аноним 21/03/26 Суб 20:33:43 #26 №331046298 
>>331044202
У меня за 15$/месяц 250 IP 1000 ГБ, скорее всего буду апгрейдиться на 5000 ГБ тариф, потому что картинки ещё не все докачались (я скачал меньшую часть), а их должен выйти где-то терабайт. Для скрапинга t.me не нужны резидентные прокси.
comments powered by Disqus