Бесплатный телеграм бот для поиска людей. Аналог чат-бота Глаз Бога

Как мы Глаз Бога разрабатывали

 

Дисклеймер: Мы выступаем против использования информации в незаконных целях, не призываем к повторению нашего опыта, а статья написана в образовательных целях.

 

Историческая справка

С середины 2010-х годов, в связи с развитием и укреплением телекоммуникационных сетей и социальных медиа, в обществе заметно вырос спрос на поиск информации о физических лицах в интернете. И если раньше достаточно было ввести в поисковик номер телефона или email, и без труда найти проиндексированные поисковой машиной сайты/форумы/объявления, где засветился номер, то сегодня это уже невозможно: поисковые системы удаляют такие сведения из результатов, а в сети появилось множество однотипных сайтов, которые засоряют выдачу намерено оптимизированным под поисковый запрос контентом, но не содержат никакой полезной информации.

В 2020 году специалист в области информационных технологий Евгений Антипов, первым создал в мессенджере Telegram бота «Глаз Бога». Этот бот позволял получить персональные данные практически любого гражданина РФ без особых усилий.

Евгений Антипов даёт интервью
Евгений Антипов даёт интервью

Безусловно тема «пробива» существовала и раньше, но оставалась уделом что называется специалистов узкого профиля, профессиональных игроков на рынке было немного, все друг друга знали, и работали, (инфа сотка) под чутким руководством прикомандированных сотрудников, что позволяло в определённой мере контролировать рынок.

Антипов же, запустив своего бота вывел тему пробива физлиц на новый уровень и самое главное «в массы», теперь, условно, любой школьник или домохозяйка, едва освоив телеграм получали доступ к огромному объёму информации, заботливо собранной г-ном Антиповым. Разумеется, после запуска бота «Глаз Бога» он стал объектом внимания СМИ и экспертных сообществ, заинтересованных в вопросах защиты персональных данных. Всё это наложилось на непростую внешнеполитическую ситуацию в стране и справедливо опасаясь, что теперь любой наймит недружественного государства может получить персональные данные граждан повышенного социального ранга, власть отреагировала симметрично, ужесточив в марте 2025 года наказание по соответствующей этому деянию статье 272.1 УК РФ, вплоть до 10 лет лишения свободы.

Вскоре после этого, Глаз Бога перестал работать. Антипов сначала заявлял, что это временные технические неполадки и скоро всё «починят», но впоследствии признал, что выключил Глаз Бога в связи с «наездом» силовиков. Текущий статус проекта остаётся туманным. По нашей, не публичной информации, Евгений Вячеславович планирует-таки запустить Глаз Бога, уже летом 2025 года, существенно сократив как объём выдаваемой информации, так и её получателей, исключив анонимную составляющую. Вероятно, сейчас проходит согласование работы его сервиса, по одной из версий это больше не будет телеграм бот.

А что же, собственно, мы?

Являясь обособленным подразделением компании, работающей на рынке легальных информационных услуг, мы следили за развитием ситуации вокруг бота Глаз Бога. Более того, у нас имелись проекты в смежной сфере, и этот рынок был нам близок и понятен.

Можно по-разному относиться к такому явлению как персональные данные и к их защите.

Если говорить о нас, мы не приветствуем такую махровую торговлю персональными данными, которую организовал Антипов. В то же время, мы убеждены, что существуют оправданные сценарии использования автоматизированной системы получения данных о физлице. Вот примеры из нашей практики, которые мы разработали для наших клиентов:

Приём сотрудника на работу. Любой работодатель, нанимая человека «с улицы» хочет быть уверенным в порядочности своего нового коллеги и интегрированные в кабинет HR`а средства пробива помогают минимизировать риски. Это действительно удобно – сотрудник при оформлении вбивает номер паспорта и сразу же видит надпись «Лицо с уголовным прошлым, осужден по статье xxx» Причём это касается не только больших компаний, которые нанимают персонал на чувствительные позиции, но и обычных граждан – представьте, что вы подыскиваете нянечку для своих детей, прораба которому доверите ремонт или сторожа в свой загородный дом.

Другой кейс – пропускной режим на частной территории. Как часто вам приходилось, оформляя пропуск, чтобы пройти в некое ООО, стоять в очереди, наблюдая, как пожилой вахтёр оператор турникета неспеша переписывает в тетрадочку паспортные данные очередного посетителя? Мы предложили нашим клиентам существенную модернизацию процесса – сотрудник прикладывает паспорт к специальному считывателю и распознанные данные автоматические регистрируются в журнале посетителей, а на мониторе специалист СБ видит дополнительную информацию, например что паспорт является недействительным или его владелец входит в реестр террористов/экстремистов или находится в розыске.

Лицо находящееся в розыске МВД
Лицо находящееся в розыске МВД

Однако вернёмся к боту. Помимо перечисленных выше вариантов использования персональных данных в приемлемых на наш взгляд сценариях, существуют и другие, которые так же выглядят допустимыми:

Конечно, существуют и строго противоположные примеры, когда поиском информации по физическим лицам злоупотребляют мошенники, сталкеры и шантажисты. Можно долго дискутировать на тему доступа к персональным данным, но абсолютно точно можно постулировать, что в эпоху тотальной цифровизации населения, к тому же активно поощряемой государством, доступность тех или иных данных вопрос небольших усилий. Ни для кого не секрет, что в даркнете скан паспорта с селфи в придачу стоит 3 доллара, а за 500 можно получить полный пробив по актуальным ведомственным системам, включая записи с городских камер наблюдения.

Торговля персданными в даркнете
Торговля персданными в даркнете

Итак, оставляя морально-нравственную оценку этого явления на усмотрение читателя, опишем нашу историю с технической точки зрения.

После закрытия Глаза Бога, мы ради эксперимента попробовали воспроизвести его функционал для внутренней аудитории, ограниченной рамками нашего отдела.

В целом, для успешного запуска телеграм бота, аналогичного Глазу Бога, требуются три составляющие:

Мы намеренно опускаем вопрос монетизации сервиса, поскольку вопросы извлечения прибыли не являлись ни нашей целью, ни мотивом и в этой статье рассмотрены не будут.

Базы данных.

Итак, источники данных – альфа и омега рассматриваемого сервиса. Нужно сразу сказать, что конечно же никакой единой базы у Глаза Бога нет. Все подобные сервисы, и бот Антипова не исключение, работают со множеством не связанных между собой баз данных, отличающихся между собой как качеством, так и количеством информации.

Взаимосвязи различных таблиц СУБД
Взаимосвязи различных таблиц СУБД

Откуда вообще берутся базы персональных данных?

На заре зарождения такого явления как «Пробив человека», когда интернет только выходил в массы и никаких альтернатив персональным компьютерам не существовало, доминантным игроком являлся небезызвестный в профессиональных кругах СУБД «Кронос», ведущий свою историю ещё с 90-х годов, первые версии которой работали под управлением MS DOS. В разное время эту систему использовали такие ведомства как МВД, ФСНП, АП РФ, банковский сектор и различные государственные бюджетные учреждения. Кронос по сути являлся платформой построения банков данных, не имел централизованного хранилища и использовался для управления базами данных локально, на предприятиях. Соответственно утечки данных допускались сотрудниками на местах, администрировавшими свои СУБД. В те времена никакого закона о персональных данных не существовало, и утечки носили массовый характер. Каждый уважающий себя «безопасник» произвольного ООО имел в своём распоряжении коллекцию трёхдюймовых НЖМД с гигабайтами СУБД в формате Кроноса, а компакт диски с персональными данными открыто продавались на улицах с яркими, напечатанными на принтере обложками типа «Все жители Москвы» или «База МГТС 2002». Несмотря на своё явное устаревание, эти базы до сих пор являются основой систем пробива информации, наподобие Глаза Бога.

СУБД Кронос
 СУБД Кронос
 

В эпоху становления онлайн коммерции, собственными базами обзавелись всевозможные интернет-магазины, онлайн сервисы, медицинские центры, салоны красоты, а затем социальные сети и маркетплейсы. По нашим оценкам лишь единицы процентов утечек персональных данных являются следствием кибератак, в подавляющем же большинстве – это умышленный человеческий фактор. Базы данных являются предметом купли-продажи и сливают их именно с этой целью.

Однако же ситуация на рынке меняется, и если раньше в даркнете можно было купить полные архивы слитых баз в десятки, а то и сотни миллионов строк, то сейчас, вероятно ввиду возросшего спроса, продавцы предлагают параметризованные выгрузки, в несколько тысяч строк, под указанные параметры.

Так или иначе, наличие подобных баз является определяющем условием при создании системы поиска информации по физлицам. Далее слово за программистами.

Программный код.

Одного лишь наличия баз данных недостаточно для запуска чат бота. Как уже было сказано ранее, не существует единой базы, скорее это набор разрозненных данных, представленных в различных форматах: CSV, JSON, XML, таблицы Excel, DBF, иногда дампы SQL. И если со зверинцем форматов особой сложности не возникает, любой квалифицированный разработчик без особого труда загрузит эти данные в свою СУБД, то дальше встаёт вопрос непосредственно архитектуры поисковых запросов от внешнего пользователя к СУБД.

Прежде чем отдавать в чат бот информацию о физлице, необходимо его идентифицировать. Сделать это можно различными способами, рассмотрим основные.

Естественными идентификаторами человека являются:

Причём, если ФИО и паспорт могут со временем изменяться, то ИНН и СНИЛС, однажды присвоенные гражданину РФ, остаются с ним навсегда.

В самом простом случае пользователь чат-бота вводит известные ему идентификатор, например паспорт, далее можно отправлять запрос в СУБД и вытаскивать имеющиеся данные и отдавать пользователю. Но есть несколько «Но».

Во-первых, не всегда все таблицы содержат все эти идентификаторы (вернее всегда не содержат).

Во-вторых, мы можем захотеть дать пользователю возможность искать по запросам, которые только условно можно назвать идентификатором – по номеру телефона или госномеру автомобиля и т.п.

Для этого все базы проходят этап предварительной обработки и насыщения.

На первом этапе валидируются все поля, для которых это имеет смысл, приводятся к единому формату и очищается мусор. Большинство баз когда-то и кем-то заполнялись вручную, здесь высок процент опечаток, а степень формализации низка. Например, телефоны могут быть указаны в произвольном формате, зачастую сразу несколько номеров через запятую, данные паспортов введены текстом, серия и номер вперемешку с другими данными и т.п.

Пример записей в БД
Пример записей в БД

 

В своём решении мы применили следующий подход – все поля, по которым может осуществляться поиск привели к единому формату и вынесли в отдельную поисковую таблицу, присвоив каждой строке уникальный идентификатор (им может быть обычный автоинкремент), который указывает на конкретное физлицо во всех смежных таблицах. Таким образом, обрабатывая запрос от пользователя мы получаем этот ID из поисковой таблицы, по которому, в свою очередь вытаскиваем имеющиеся данные.

Отдельно стоит упомянуть о насыщении данных. Допустим у нас есть две таблицы – в одной ФИО, Дата рождения, Адрес, Email. В другой ФИО, телефон, email. Казалось бы, в первой таблице мы можем искать по ФИО + ДР, во второй по телефону. Но помимо прочего, можно найти совпадения email адресов в обеих таблицах, и таким образом связать их между собой, донасытив данные между ними. Это на самом деле очень мощный механизм, позволяющий, иногда, на глубине 4-5 уровней связать записи в разных таблицах.

Далее, разобравшись с данными остаётся реализовать интерфейс взаимодействия с прикладной системой – в нашем случае API телеграм. Это достаточно тривиальная задача, описывать её нет смысла.

Продвижение продукта

Итак, код написан, первая версия бота протестирована и готова к работе. Тут возникают ещё несколько вопросов.

Нужно зарегистрировать бота, возможно телеграм-канал для информационной поддержки. Учитывая специфику бота и уголовный кодекс - допустимо ли регистрировать аккаунт на свой телефон? Для базы данных и программного кода нужен сервер – нельзя просто так купить VPS со своей карты и залить туда гигабайты персональных данных. Бот или канал могут заблокировать, соответственно нужен резервный ресурс с актуальными ссылками. Создание, настройка и безопасное администрирование всей сетевой инфраструктуры – тема для отдельной статьи, которую мы опубликуем в следующий раз, а пока вернёмся к нашему боту.

Запуск состоялся и у нашего бота есть целый ноль пользователей. Создаётся парадоксальная ситуация – есть работающий, функциональный продукт, бесплатный, не требующий регистрации, подписок, каких-либо условий. Есть уверенный запрос на этот продукт, но сам факт его существования никому не известен.

Рекламная компания – первое, что приходит в голову и тут сразу же нужно сказать, что она не пройдёт модерацию ни в одной сети – Яндекс, ВК, Телеграм, Youtube, Rutube не пропустят объявление типа «Встречайте – новый Глаз Бога». Тоже самое касается и рекламы у блогеров и медийных площадок. Тем более, что изменение в законе о рекламе, с осени 2023 года обязывают маркировать рекламный контент и регистрировать каждое объявление у оператора рекламных данных.

Несмотря на жёсткие запреты со стороны рекламных площадок и откровенно криминальный душок чат-бота у нас было и определённое преимущество – максимально широкая целевая аудитория. Если какой-нибудь узкоспециализированный продукт требовал жёсткого таргетирования – только бухгалтера, только мамочки в декрете, только владельцы дизельного автомобиля и т.п., то в нашем случае мы могли, разве что исключить женщин 40+ и мужчин старше 60 – все остальные, потенциально могут заинтересоваться нашим продуктом, а тем более и бесплатным.

Изучая вопрос, мы выделили несколько вариантов продвижения продукта, которые условно можно поделить на чёрные методы:

Предложение услуг по чёрному продвижению на популярном сайте
Предложение услуг по чёрному продвижению на популярном сайте

от которых мы решили отказаться по этическим соображениям и серые:

В общем, подводя итоги, можно сказать следующее – чат-бот, который задумывался как экспериментальный аналог Глаза Бога запущен и работает. Техническая реализация его не сложна и потребовала месяц работы от обсуждения идеи до релиза на прод и усилия двух разработчиков уровня сеньор. Общие финансовые затраты на этапе запуска мы оцениваем в 1 млн рублей, в цифрах 2025 года. Это без учёта баз данных, доступ к которым, как мы писали выше – является определяющим фактором всего мероприятия.

На этом мы заканчиваем нашу обзорную статью и с удовольствием ответим на все вопросы в комментариях.

Наш бот доступен совершенно бесплатно, найти его можно по запросу @pandora_search1_bot в телеграм.

Наш канал: pandora_search_new