Дипломный проект. Разборщик шаблона html на С++.
Предполагается, что проект будет обрабатывать страницу и вытаскивать инфо:
- служебную - заголовки и из метатегов
- текстовую, для анализа плотности слов и т.д.
- копирайты и счетчики
В общем, руководителем была поставлена задача получать страницы сайта и затем их обрабатывать. В основном будет проводиться обработка текста - подсчет тошноты, проверка уникальности и дублей и т.д. Так что возможно в дальнейшем возможно еще обращусь.

Требования:
0) Желательно консольное приложение. GUI - не особо нужно. Главное чистый и понятный код.
1) Среда - можно Qt.
2) Библиотеки - можно, только не целые фреймворки. Важна скорость работы
4) Хорошие знания html, xhtml.
Обязательно учитывать, что страницы могут содержать корявую разметку, а-ля:
"<<p> Text </p>>", 
"<a href=new image >New image </a>"
и т.д.

5)Нужно, чтобы программа умела находить: голову сайта, тело и подвал.
6)Из тела должна быть выделена текстовая информация. Шаблоны начала и конца парсинга текста нужно брать из файла. Одновременно искать по множеству шаблонов, поскольку страницы не однотипные. 
Т.е. на входе будет еще файл с N-ным кол-вом границ парсинга текста.


Пока предполагается парсинг страниц, находящихся на локальном диске в папке и подпапках.
На вход "папка-точка входа", на выходе текстовые файлы. В будущем возможно закажу получениек данных из сети.

удаление тегов 
кроме описаных в файле

Файлы
ini.txt - входная и выходная директории
tags.txt - тэги которые не нужно удалять
template.txt - начальный и конечные параметры поиска(парсинга) текста
src.zip - архив с файлами для анализа, разместить в папку указанную первой в файле ini.txt

После первого запуска программа создает файл progress.tsv и вносятся внего данные по найденным файлам,
после второго запуска файл обрабатывается и вносятся изменения. Ищется только первое вхождение контента(требование заказчика, можно изменить).

Работает только для локального сайта.