Дописать парсер на java
Написан парсер на Java клиент северное приложение на socket. Так же используется многопоточность.
ЕСть сайт заказов написанный на php крутится на nginx, доступ туда по логину и паролю сотрудника. Основная задача, туда приходят заказы, смысл парсера
- если есть ключевые слова в заказе то он берёт автоматически данный заказ (переходит по ссылке) и отправляет информацию в телеграм чат пользователю
- если заказ не проходит по ключевым словам и попадает в слова исключения, то приходит информация в телеграм бот с кнопкой "Взять в ручную заказ", если пользователя устраивает он тыкает на кнопку тем самым берёт заказ
Проверка на то что заказ взят пользователем - парсится дополнительная страница после присылает информацию в телеграм
- авторизация на сайте когда заканчивается время куки происходит автоматически, капча парится через Adobe reader, в проекте есть батник на запуск распознования капчи
На сайте реализован некая проверка на бота, если страница перегруженна 19-20 раз, то таблица с заказами становятся пустой, для решения данной проблемы установлен this.wait он настраиваеся через базу данных.
Так же присутствует дополнительная проверка, если очень часто перезагружашь страницу то идёт блок на сессию!
О парсере:
- Все настройки хранятся в базе данных PGSQL
- Всего два приложения один клиент который парсит сайт, другой сервер который взаимодействует с телегой и принимает данные с клиента
- на jsoup'e
- чистый Java без фрейма
Задача:
- увеличить скорость поиска ключевых, исключений слов
- увеличить скорость парсера, в автоматическом режиме по ключевым словам заказ не берётся, есть коллеги которые берут заказ на 20 сек быстрее, надо чтобы мы брали быстрее
- если есть компетентность найти лазейку на сайте при котором можно отказаться от задержки работы бота
ЕСть сайт заказов написанный на php крутится на nginx, доступ туда по логину и паролю сотрудника. Основная задача, туда приходят заказы, смысл парсера
- если есть ключевые слова в заказе то он берёт автоматически данный заказ (переходит по ссылке) и отправляет информацию в телеграм чат пользователю
- если заказ не проходит по ключевым словам и попадает в слова исключения, то приходит информация в телеграм бот с кнопкой "Взять в ручную заказ", если пользователя устраивает он тыкает на кнопку тем самым берёт заказ
Проверка на то что заказ взят пользователем - парсится дополнительная страница после присылает информацию в телеграм
- авторизация на сайте когда заканчивается время куки происходит автоматически, капча парится через Adobe reader, в проекте есть батник на запуск распознования капчи
На сайте реализован некая проверка на бота, если страница перегруженна 19-20 раз, то таблица с заказами становятся пустой, для решения данной проблемы установлен this.wait он настраиваеся через базу данных.
Так же присутствует дополнительная проверка, если очень часто перезагружашь страницу то идёт блок на сессию!
О парсере:
- Все настройки хранятся в базе данных PGSQL
- Всего два приложения один клиент который парсит сайт, другой сервер который взаимодействует с телегой и принимает данные с клиента
- на jsoup'e
- чистый Java без фрейма
Задача:
- увеличить скорость поиска ключевых, исключений слов
- увеличить скорость парсера, в автоматическом режиме по ключевым словам заказ не берётся, есть коллеги которые берут заказ на 20 сек быстрее, надо чтобы мы брали быстрее
- если есть компетентность найти лазейку на сайте при котором можно отказаться от задержки работы бота