ru24.pro
«Фрилансим»
Октябрь
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
29
30
31

Дописать парсер на java

0
Написан парсер на Java клиент северное приложение на socket. Так же используется многопоточность.
ЕСть сайт заказов написанный на php крутится на nginx, доступ туда по логину и паролю сотрудника. Основная задача, туда приходят заказы, смысл парсера
- если есть ключевые слова в заказе то он берёт автоматически данный заказ (переходит по ссылке) и отправляет информацию в телеграм чат пользователю
- если заказ не проходит по ключевым словам и попадает в слова исключения, то приходит информация в телеграм бот с кнопкой "Взять в ручную заказ", если пользователя устраивает он тыкает на кнопку тем самым берёт заказ
Проверка на то что заказ взят пользователем - парсится дополнительная страница после присылает информацию в телеграм
- авторизация на сайте когда заканчивается время куки происходит автоматически, капча парится через Adobe reader, в проекте есть батник на запуск распознования капчи

На сайте реализован некая проверка на бота, если страница перегруженна 19-20 раз, то таблица с заказами становятся пустой, для решения данной проблемы установлен this.wait он настраиваеся через базу данных.
Так же присутствует дополнительная проверка, если очень часто перезагружашь страницу то идёт блок на сессию!

О парсере:

- Все настройки хранятся в базе данных PGSQL
- Всего два приложения один клиент который парсит сайт, другой сервер который взаимодействует с телегой и принимает данные с клиента
- на jsoup'e
- чистый Java без фрейма

Задача:
- увеличить скорость поиска ключевых, исключений слов
- увеличить скорость парсера, в автоматическом режиме по ключевым словам заказ не берётся, есть коллеги которые берут заказ на 20 сек быстрее, надо чтобы мы брали быстрее
- если есть компетентность найти лазейку на сайте при котором можно отказаться от задержки работы бота