Wie gesagt, für ausgezeichnete Sprachen (RDF, JSON-LD, z.T. XML) gibt es SHACL. Du müßtest also „nur“ Deine Word-Datei in ein Metadaten-Dokument umwandeln, Shapes definieren und dann mit einer Shape-Engine überprüfen.
Der erste Punkt ist das, was schwierig und voller Formalismus ist. Für die Personalpronomen z.B. brauchst Du POS-Tagging, was eine NLP-Engine voraussetzt. Das Dokument geht vorab durch verschiedene Bearbeitungsschritte (Pre-processing), Language detection (welche Sprache wird analysiert, könnte man aus den Dokumenteigenschaften ablesen), Segmentation (Zusammengehörige Blöcke, z.B. Kapitel, Sektionen, Absätze, das ist bei Word z.T. fertig), Satzerkennung, eventuell NER (um zwischen Ente, dem Vogel, oder Ente, dem Spitznamen eines Automobils zu unterscheiden). Danach werden die Ergebnisse des POS-Tagging in einem Metadokument festgehalten, z.B. mittels OLiA (Ontology of Linguistic Annotation). Dann via Shape die Verwendung oder Vermeidung (z.B. durch Auslassung) nachzuweisen, ist wiederum einfach.
Für die Aufgabe mit den vorgegebenen Wörtern bietet sich N-Gram-Analyse an, aber auch hier bräuchte man für ein allgemeines Tool viel Pre-processing, mindestens wieder Spracherkennung, eventuell Segmentation und Satzerkennung sowie einen Stemmer. Für den Abgleich hilft ein einfaches Nachschlagen (z.B. Hash-Join).
Die restichen Punkte sind technischer Natur und durchaus einfach zu implementieren.
Wenn ich die Vorgabe jetzt umsetzen sollte, würde ich zu allererst versuchen, die Allgemeinheit des Tools einzuschränken (soll es z.B. Support (irgendwann) für Japanisch geben, wenn ja, alle Höflichkeitsformen?), dann würde ich klären, ob die Prüfung inkrementell/online erfolgen muß oder im Batch, wie viel Rechenleistung darf ich benutzen. Zur Erklärung: Inkrementell zu prüfen, zwingt mich viel Interna mitzuschleppen, das Metadokument wird laufend im Hintergrund umgeschrieben, so wie der Nutzer Wörter einfügt und wieder löscht. Diese Interna kann ich aber nicht in der Word-Datei abspeichern, sondern eventuell in einer eigenen Datei oder gar nicht. Ich muß also den Batch-Modus (das Dokument so wie es ist in ein Metadokument umschreiben) ohnehin programmieren.
Desweiteren kostet NLP Daten- und Rechenleistung, viel Datenleistung, wenn es gut sein soll. Ich selbst betreue eine Datenbank aller gelisteten Firmen, und das noch nichtmal speziell für NER-Zwecke (Named Entity Recognition), aber ich weiß, daß sie von NER-Diensten verwendet wird. Diese ist aktuell knapp 1.5 TB (on-disk) groß, nicht gerade tauglich für den Desktop-Einsatz. DBpedia, ein Abzug von Wikipedia mit semantischen Annotationen, ist knapp 800 GB (on-disk) und je nach Bereich, mußt Du noch hunderte anderer Datenbanken hinzufügen, nur um z.B. Ich (der Spitzname der Krankheit Ichthyophthirius multifiliis) von Ich (dem Personalpronomen) zu unterscheiden.
Wie Du schon festgestellt hast, irgendwas zum Laufen zu kriegen, ist nicht schwer. Aber auch nicht gerade gut. Lösungen sind bereits fertig, aber eben nicht für Endanwender-Software wie Word.