Дипломный проект. Разборщик шаблона html на С++. Предполагается, что проект будет обрабатывать страницу и вытаскивать инфо: - служебную - заголовки и из метатегов - текстовую, для анализа плотности слов и т.д. - копирайты и счетчики В общем, руководителем была поставлена задача получать страницы сайта и затем их обрабатывать. В основном будет проводиться обработка текста - подсчет тошноты, проверка уникальности и дублей и т.д. Так что возможно в дальнейшем возможно еще обращусь. Требования: 0) Желательно консольное приложение. GUI - не особо нужно. Главное чистый и понятный код. 1) Среда - можно Qt. 2) Библиотеки - можно, только не целые фреймворки. Важна скорость работы 4) Хорошие знания html, xhtml. Обязательно учитывать, что страницы могут содержать корявую разметку, а-ля: "<

Text

>", "New image " и т.д. 5)Нужно, чтобы программа умела находить: голову сайта, тело и подвал. 6)Из тела должна быть выделена текстовая информация. Шаблоны начала и конца парсинга текста нужно брать из файла. Одновременно искать по множеству шаблонов, поскольку страницы не однотипные. Т.е. на входе будет еще файл с N-ным кол-вом границ парсинга текста. Пока предполагается парсинг страниц, находящихся на локальном диске в папке и подпапках. На вход "папка-точка входа", на выходе текстовые файлы. В будущем возможно закажу получениек данных из сети. удаление тегов кроме описаных в файле Файлы ini.txt - входная и выходная директории tags.txt - тэги которые не нужно удалять template.txt - начальный и конечные параметры поиска(парсинга) текста src.zip - архив с файлами для анализа, разместить в папку указанную первой в файле ini.txt После первого запуска программа создает файл progress.tsv и вносятся внего данные по найденным файлам, после второго запуска файл обрабатывается и вносятся изменения. Ищется только первое вхождение контента(требование заказчика, можно изменить). Работает только для локального сайта.