Разработка парсера для обработки документов из директории и сохранения в базу данных
Описание задачи:
Необходимо расширить функциональность системы, создав отдельный Python-парсер для обработки документов из заданной директории и сохранения извлеченного текста в базу данных PostgreSQL. Парсер для обработки документов уже существует, нужно либо доработать его, либо на его основе написать новый, но с обязательным фиксом кодировки doc и docx документов.
Что нужно сделать:
• Ознакомиться с текущей архитектурой парсера и базы данных для понимания интеграции. • Разработать самостоятельный парсер для обработки документов из указанной директории. • Обеспечить поддержку различных форматов документов, включая DOC, DOCX, ODT и другие. • Сохранять извлеченный текст в отдельной таблице в базе данных PostgreSQL. • Обеспечить эффективную работу парсера при обработке большого количества файлов.
Капча:
Пожалуйста, ответьте на вопрос: сколько будет 5 + 5?
Укажите телеграм для связи