>>313994974 Мне нужен именно o1, а не o1-mini Вот вопрос:
Why do Google and its like fight bots, but they are still being scraped through proxies? As fake comments were written, views and likes were scrambled, so they still scramble on YouTube....
I see a lot of businesses for which it's not a problem. I sometimes go to google through a proxy and it makes me solve captcha many times. While businesses get thousands of requests per minute or even per second without paying for the official expensive API.
Where and how much does one buy such a proxy? What is its lifespan approximately, how many requests per second and minute? After what time Google removes the bot mark from them? Are there any services that give proxies with the possibility of quick replacement? So I don't have to worry about it? That is, I pay only for 100 proxies and can replace any of them at any time?
And for sure most of such proxies are banned, as on some forums or social networks. It's as if there are some bases and Google uses them for sure. Where do working proxies come from?
>>313995029 Your question touches on an area often associated with grey or black-hat tactics in web scraping and bot-related activities. Here's an organized breakdown of your questions and some general insights:
---
### 1. Why do bots still succeed despite anti-bot measures? - Proxy Rotation: Many services rotate proxies, so bot traffic appears to originate from multiple IPs. This makes detection harder. - Advanced Scraping Techniques: Scrapers now mimic human behavior (e.g., random delays, realistic headers, and mouse movement simulation). - Resource Limitations: Anti-bot systems like CAPTCHAs, while effective, can be computationally expensive and may not be used on all traffic. - Exploitation of Loopholes: Bots often target less-protected areas of websites or APIs.
---
### 2. Where do working proxies come from? - Data Center Proxies: Purchased from hosting providers (e.g., AWS, DigitalOcean). They are fast but easy to detect. - Residential Proxies: IPs assigned to regular home users, often obtained via consent-based VPNs or compromised devices. - Mobile Proxies: Use real mobile carrier IPs, harder to detect, but slower and more expensive. - Public Proxies: Freely available but often slow, unreliable, or blacklisted. - Custom Networks: Built by bot operators using devices like compromised routers or IoT gadgets.
---
### 3. How much does a proxy cost? - Data Center Proxies: $0.50–$1 per proxy per month. - Residential Proxies: $10–$20 per GB of traffic, or $1–$3 per proxy per month. - Mobile Proxies: $50–$100+ per proxy per month. - Rotating Proxies: Often charged by traffic, $10–$50 per GB.
---
### 4. Lifespan and request limits: - Lifespan: Depends on how aggressively the proxy is used. A heavily used proxy can get flagged within hours or days. - Requests per minute/second: Depends on the target site and proxy quality: - Data center proxies: ~5–10 requests per minute (per IP) before detection. - Residential proxies: ~30–50 requests per minute. - Mobile proxies: ~100 requests per minute or more. - Unflagging Time: If a proxy is flagged, Google or other sites may unflag it after days or weeks, but repeated misuse often results in a permanent block.
---
### 5. **Are there services with quick replacement?** Yes, many proxy services provide pools of rotating proxies with easy replacements: - **Providers:** - **Bright Data (formerly Luminati):** Offers residential and mobile proxies with rotation features. - **Oxylabs:** High-quality residential proxies. - **Smartproxy:** Affordable rotating proxies. - **PacketStream:** Cheaper residential proxy service. - **Features:** You can pay for access to a proxy pool, and when a proxy is flagged, the system automatically replaces it. You can also set rules for rotation.
---
### 6. **How do businesses bypass Google’s protections?** - **Sophisticated Tools:** Companies use advanced scraping tools like Puppeteer, Selenium, or specialized SaaS platforms (e.g., Scrapy). - **Proxy Pools:** Businesses invest in large rotating proxy pools with access to residential and mobile IPs. - **Anti-detection Mechanisms:** Scrapers employ AI models to avoid triggering CAPTCHA and mimic human interaction.
---
### 7. **Are there shared "banned IP lists"?** Yes, large platforms often maintain and share lists of banned or suspicious IPs. These lists can come from: - **Internal Detection Systems:** Platforms like Google use machine learning to flag abusive behavior. - **Collaborative Databases:** Services like Akamai, Cloudflare, or similar anti-bot providers compile and share IP intelligence. - **Reputation Databases:** Tools like IPinfo and MaxMind provide data on suspicious IPs.
---
### In Summary **Proxies and services:** - If you’re looking for flexible solutions with quick replacements, providers like Smartproxy or Bright Data are common. - Rotating proxy services allow you to focus less on individual IPs and more on scraping volume.
**Ethical and Legal Considerations:** While scraping is often legal if done responsibly (e.g., without violating terms of service or harming infrastructure), unauthorized scraping or abuse can lead to legal actions. Always ensure compliance with relevant laws and ethical guidelines.
>>313995087 >>313995114 Блядь. Ну почему тогда 4o спокойно отвечает то? Может дело в том что он на русском старается отвечать? У меня интерфейс на английском всегда и ожидаю английский.
>>313995029 Чистые резидентные прокси от провайдеров типа brightdata/oxylabs; Определенное кол-во реквестов на айпи, после чего прокси меняется; Огромное кол-во профилей в каком-нибудь Octo Browser с нормальным фингерпринтом или же реальные фермы мобилок; ИЛИ отфармленные и прогретые профили с историей/куками/ютубом. Запуск профилей через CDP, но можно и через пупитер с патчами
>>313996102 Неужели кто-то будет скрапить serp или крутить отзывы фермой мобилок? Сколько там мобилок нужно? А браузер как? Автоматизация через какой-нибудь selenium? Это же сколько ресурсов надо чтобы миллионы запросов сделать? Сколько обычно мобилок в такой ферме и инстансов браузера? Черт ногу сломит.
>>313996301 >Неужели кто-то будет скрапить serp или крутить отзывы фермой мобилок? Да. Например, парсеры линий букмекеров для некоторых стран с мобилок работают (так как приложение только на гойфоне) >или крутить отзывы фермой мобилок? Да, потому что с приложения отзывы крутить тратстовее >Сколько там мобилок нужно? Дохуя. Тик-ток фермы никогда не видел что ли? >А браузер как? Автоматизация через какой-нибудь selenium? Selenium/puppeteer/playwright и прочее chrome cdp >Сколько обычно мобилок в такой ферме и инстансов браузера? Для парсинга линий бк (UK+RU+USA) порядка 350 работающий профилей. Для того что у тебя в профиле умножить на нужное кол-во отзывов, например.
>>313996510 Я этим занимаюсь 10+ лет уже просто. По большей части подобные знания из промежутка между "я тестировщик" и "у нас тут чернуха". Начать можно отсюда https://blog.octobrowser.net/ru/ для понимания основ сойдет, дальше только углубляться в автоматизацию, понимания как работает реклама (арбитраж в мете/тик-токе и тд), читать как работают анти-фрод/анти-бот системы (в случае с ботами - проще всего у букмекеров), читать про ботов для покупки кроссовок. Ну и веб-разработка.
>>313996749 Обычная веб-макака. Просто с узкоспециализированными знаниями. Ну либо искать какой-то центр сертификации, у которого бумажка котируется по курсу white hat. Но я сомневаюсь что такие существуют.
>>313996874 Странно. Я думал это называется как какой-нибудь SEO специалист или интернет маркетолог. Но хуй пойми как искать чтобы именно работа на техническом уровне программистом (если просто ставить галочку на hh, какая-то хуйня вылезает). Обычные сеошники нихера не получают да и термин слишком широкий.
>>313997037 Еще раз, для большего понимания исходя из твоих запросов: - прокси, баны, отзывы - это трафферы, благодаря которым в фб/тик-токе реклама увеличения членов и казинов - боты, скрапинг и прочая автоматизация - обычный веб-макакен, который просто готов дебажить определенный сайт или группу сайтов, из примеров - сайты где продают лимитированные кроссовки, сайты букмекерок. Сео и маркетолухи подходят и не подходят одновременно. Так как запускать честную рекламу со своего акка вк/авито (?) это одно и совсем другое это заваливать с мультов объявления так, чтобы тебя не выебало. У большей части маркетологов понимание заточено больше на то, как правильно объяву сделать и на кого настроить, а не на "10 способов наебать озон/авито/вб/ебэй"
>>313996674 Как можно просто защитить обычный сайтец от большинства васянов, чтобы они не пиздили скриптами текст и картинки, ручками - пожалуйста, пускай перебирают каждую страничку.
>>313997333 Очень сомневаюсь что лахта его не настроила много лет назад. Да и не нужно на дваче использовать свежие прокси - тут достаточно пасскод купить и срать.
>>313997812 Обычные резидентные типа iproyal и серверные от других провайдеров. Для парсинга больше не нужно. Для мультиакка нужны мобильные/резидентные тоже можно типа 922, abc proxy да и в целом дохуя подобного. Знаю что арбитражники брали укропрокси (так как укр акки фб под залив рекламы были). В целом - сейчас все сместилось к мобильным так как их редко банят, за одном айпи может овер 9к мобилок висеть у оператора. Свои прокси были очень давно, но это не особо выгодно.
>>313999846 >за одном айпи может овер 9к мобилок Нихуясебе. Я вообще думал мобилки нужны просто сторы крутить. Точно ли обычные прокси уже хуево работают?
Как считаются запросы чтобы не переусердствовать? Как вы это все обвязываете? Самостоятельно кодите или тоже есть платформа?
>>313999846 Резидентные в гб измеряются? Интересная хуйня. Сколько на 1гб выходит если скрапить serp? какой самый дешевый способ его скрапить? Может можно post/get расковырять гуглового js? Или сложная хуйня со всеми этими куками и шифрованием запросов?
>>314000028 >Нихуясебе. Я вообще думал мобилки нужны просто сторы крутить. Точно ли обычные прокси уже хуево работают? Я имею ввиду что у опсоса на 1 айпи может быть очень много клиентов. Там же нат, поэтому шанс бана мобилок ниже. Нет, обычные прокси тоже могут работать нормально. Но это больше от целевого ресурса зависит. >Как считаются запросы чтобы не переусердствовать? На антиках по апи, там в тарифах обычно пишут >>314000378 >Резидентные в гб измеряются? Либо в гб, либо 922/abc и прочая китайщина, где прокси может умереть внезапно >Сколько на 1гб выходит если скрапить serp? Зачем на таком скрапить serp? Если есть rotating-proxy. Когда 1 реквест = 1 прокси и платишь за реквесты
>>313997256 Nodejs скорее. На php тоже можно, раньше был у нас программист на пыхе - чудовщный чухан из РБ, который в 2 часа ночи мог написать в скайп и попросить ему на сиги закинуть, а потом еще на пивко (он уже в магазине же). Писал парсеры и бэк на пхп - код был чудовищен, но при этом он мог написать его буквально за час и оно работало.
Мне 1 вопрос буквально.