Det borde inte vara några som helst problem att utveckla läsare till Office 2007:s format. Det är faktiskt hyfsat lättöverskådligt och ser enkelt ut att hantera.
En fil (t.ex. .docx eller .xlsx) är egentligen en mapp (som sedan är komprimerad till ett zip-arkiv) vari det ligger ett antal xml-filer med tillbehör. Själva textinnehållet ligger i en fil, t.ex. "word/document.xml", och redan nu är det enkelt att extrahera ut texten.
Jämför gärna med hur Apples filyper .pages eller .rtfd är uppbyggda.
Jag bifogar en fil så den nyfikne kan se strukturen. För att kunna skicka upp den så zippade jag den.
//Mikael