ru24.pro
Работа
Январь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
27
28
29
30
31

Telegram-парсер с расширенной фильтрацией сообщений

0

Цели приложения

  1. Автоматизировать парсинг сообщений из заданных Telegram-чатов.
  2. Фильтровать сообщения по ключевым словам, а также синонимам и словам с похожим значением.

Основные функции

1. Парсинг чатов

  • Подключение к открытым и закрытым Telegram-чатам через API.
  • Сбор сообщений с учетом следующих параметров:
    • Текст сообщения.
    • ID отправителя.
    • Время и дата сообщения.
    • Ссылка на сообщение (если доступно).
  • Работа с закрытыми чатами через авторизованный Telegram-аккаунт.
  • Хранение собранных данных в базе данных или выгрузка в файлы (JSON/CSV).

2. Расширенная фильтрация сообщений

  • Поиск сообщений по ключевым словам.
  • Фильтрация сообщений по словам-синонимам и словам с похожим значением:
    • Подключение NLP-библиотеки для работы с семантическим анализом.
    • Использование предобученных моделей (например, Word2Vec, FastText, BERT).
    • Настройка коэффициента схожести (например, 70% соответствия).
  • Работа с мультиязычными текстами (например, поддержка русского и английского).
  • Настройка "белого" и "черного" списка слов (включение или исключение определенных слов и фраз).

Технические параметры

  1. Фильтрация на основе NLP
    • Библиотеки:
      • spaCy или NLTK — для работы с текстами и поиска синонимов.
      • gensim (Word2Vec, FastText) или Hugging Face Transformers (BERT) — для семантического анализа.
    • Настройка порога схожести:
      • Значение от 0 до 1 (например, 0.7 для поиска похожих слов).
  2. Язык разработки
    • Python.
  3. Интерфейс пользователя
    • Веб-панель для управления:
      • Добавление новых ключевых слов и синонимов.
      • Настройка порога схожести.
      • Просмотр логов парсинга.
      • Добавление чатов