Telegram-парсер с расширенной фильтрацией сообщений
Цели приложения
- Автоматизировать парсинг сообщений из заданных Telegram-чатов.
- Фильтровать сообщения по ключевым словам, а также синонимам и словам с похожим значением.
Основные функции
1. Парсинг чатов
- Подключение к открытым и закрытым Telegram-чатам через API.
- Сбор сообщений с учетом следующих параметров:
- Текст сообщения.
- ID отправителя.
- Время и дата сообщения.
- Ссылка на сообщение (если доступно).
- Работа с закрытыми чатами через авторизованный Telegram-аккаунт.
- Хранение собранных данных в базе данных или выгрузка в файлы (JSON/CSV).
2. Расширенная фильтрация сообщений
- Поиск сообщений по ключевым словам.
- Фильтрация сообщений по словам-синонимам и словам с похожим значением:
- Подключение NLP-библиотеки для работы с семантическим анализом.
- Использование предобученных моделей (например, Word2Vec, FastText, BERT).
- Настройка коэффициента схожести (например, 70% соответствия).
- Работа с мультиязычными текстами (например, поддержка русского и английского).
- Настройка "белого" и "черного" списка слов (включение или исключение определенных слов и фраз).
Технические параметры
- Фильтрация на основе NLP
- Библиотеки:
spaCy
илиNLTK
— для работы с текстами и поиска синонимов.gensim
(Word2Vec, FastText) или Hugging Face Transformers (BERT) — для семантического анализа.
- Настройка порога схожести:
- Значение от 0 до 1 (например, 0.7 для поиска похожих слов).
- Библиотеки:
- Язык разработки
- Python.
- Интерфейс пользователя
- Веб-панель для управления:
- Добавление новых ключевых слов и синонимов.
- Настройка порога схожести.
- Просмотр логов парсинга.
- Добавление чатов
- Веб-панель для управления: