Пишу парсер для новых форматов Office 2007 (.DOCX/.XLSX/.PPTX) и должен сказать, что все очень даже неплохо продумано.
По крайней мере в сравнении с аналогом из OpenOffice (тот же zip-файл с многофайловым содержимым в xml-файлах) все намного кошернее. По крайней мере четко разделено всякое форматирование и содержимое (“текст”)
К сожалению, тот xml из OpenOffice содержит вперемешку и текст, и стили-шрифты.
Для любителей:
http://old.opendocumentfellowship.org/Articles/FormatODFVsMSXML
В любом случае если сравнивать .doc vs. .docx – небо и земля. Если первый явно придумали индусы-первогодки (а потом латали по мере необходимости), то пока новый .docx явно хорошо спроектирован. Через пару версий MS Office он конечно тоже слегка испохабится, но сейчас – вне конкуренции.
http://blogs.msdn.com/brian_jones/archive/2006/10/24/whitepaper-summarizing-the-office-open-xml-standard.aspx