Häufigkeit von Anfangsbuchstaben in verschiedenen Sprachen gesucht!

Hallo zusammen!

Ich benötige die Information, wie oft in verschiedenen Sprache bestimmte Anfangsbuchstaben verwendet werden. Es müsste also eine Übersicht über das ganze Alphabet der Sprache sein und dann jeweils die Häufigkeit der Wörter, also z.B. A ist bei 7% der Wörter der Anfangsbuchstabe, B bei 3% usw.

Das brauche ich für 18 europäische Sprachen (sowie Türkisch und Russisch), also eine nach Alphabet aufgelisteten Worthäufigkeiten für die jeweilige Sprache. Diese „Anfangsbuchstaben-Häufigkeiten“ könnten z.B. anhand von Standardwörterbüchern bestimmt werden. Nun habe ich nicht mal eben so vergleichbare Wörterbücher für alle 20 Sprachen da und es würde ziemlich lange dauern, auszuzählen (zB Anhand der Seitenzahlen pro Buchstabe), das auf diese Weise zu machen. Vielleicht gibt es da ja bereits solche Statistiken.

Ich habe bereits bei Langenscheidt nachgefragt, jedoch ist da der Arbeitsaufwand zu groß und ich kann auch keine finanzielle Vergütung anbieten.

Wer kann mir helfen?

Danke!

Hallo Viola,

zuerst mal eine Gegenfrage: Um welche Sprachen geht es konkret? Dann ließe sich eventuell eher etwas finden, als wenn man jetzt rumrätseln müsste, welche 20 Sprachen Du suchst. (Nebenbei: Russisch zählt zur indoeuropäischen Sprachfamilie. Rein geographisch betrachtet, könnte man Türkisch auch dazu zählen, wie es ja meist mit Finnisch, Estnisch, Ungarisch und Co. passiert.)

Aber allgemein halte ich Dein Anliegen für nahezu undurchführbar. Denn wie Du hier sehen kannst, macht es schon einen gewaltigen Unterschied, ob man bei einer Sprache eher einen „typischen“ Fließtext (wie auch immer man „typisch“ in diesem Fall definieren möchte) oder eher ein Wörterbuch (wie umfangreich dieses nun auch sein mag) zur Hand nimmt. Dann wäre wiederum die Frage, welches Wörterbuch bzw. welchen Text/welche Textart man als Referenz für die einzelnen Sprachen auswählt.

Daran schließt sich die Frage an, wie Du „Häufigkeit“ definierst:

  1. In einem Wörterbuch findet sich z.B. jedes Wort nur einmal, egal wie häufig oder selten es in einem Fließtext oder der gesprochenen Sprache vorkommt. Nimmst Du also Wörterbuch oder Fließtext als Referenz?
  2. Würdest Du bei flektierten Wörtern (z.B. Haus/Häuser, ein/eine/eines/einem/einen/einer) nur die Grundformen gelten lassen oder auch die jeweiligen Flexionen als einzelne Begriffe zählen?

Eine perfekte Lösung, bei der in jeder Sprache auf vollkommen vergleichbare Weise gezählt wurde, wirst Du also mit ziemlicher Sicherheit nicht finden. Da Du das aber sicher für irgendeine Arbeit o.ä. brauchst, würde ich Dir folgende provisorische Lösungen vorschlagen:

Option Wörterbuch:
Geh in die Unibibliothek und/oder den Buchhandel Deines Vertrauens und schau, ob Du für die größtmögliche Anzahl von Sprachen Wörterbücher findest, die (im Idealfall) aus derselben Reihe desselben Verlags (z.B. Langenscheidt Taschenwörterbuch) und einem ähnlichen Jahr stammen. Damit hättest Du die trügerische Sicherheit, dass der abgedruckte Wortschatz in Umfang und Sprachniveau in etwa vergleichbar ist.

Option Fließtext:
Such Dir einen Text, den es in sehr direkter Übersetzung in verschiedenen Sprachen gibt. Dafür könntest Du – wenn Du die nächsten Jahrzehnte nichts vorhast – die Bibel hernehmen. Wenn es schneller gehen soll und ungenauer sein darf, tut es auch ein Dokument wie die Allgemeine Erklärung der Menschenrechte. Der Haken an diesen beiden Texten ist natürlich der, dass ein übersetzter Text nicht so aussagekräftig ist wie ein Originaltext in der jeweiligen Sprache – zumal es sich in beiden Fällen auch eher um Fach- als um gängige Alltagssprache handelt.

Wie gesagt: Beide Optionen bieten leider nur grobe Annäherungen, die man nur zur Illustrierung, aber nicht als (unangreifbare) Grundlage einer wissenschaftlichen Erörterung benutzen kann.

Gruß,
Stefan

Weitaus zielführender wäre eine Anfrage an die „Kryptoanalyseabteilungen, bzw. -experten“ diverser in- und ausländischer Geheimdienste gewesen (inwiefern Du auf eine solche Anfrage auch eine zufriedenstellende Antwort erhalten wirst, entzieht sich meiner Kenntnis, allerdings spricht nichts wirklich dagegen, sofern diese Anfrage „fachspezifisch“ und „nachvollziehbar realistisch“ begründet ist); auch hier : http://de.wikipedia.org/wiki/International_Associati… oder bei fachspezifisch orientierten Historikern kann man Dir eventuell weiterhelfen…

Gruß
nicolai

Moin,

Das brauche ich für 18 europäische Sprachen

wenn Du das Ripuarisch als Sprache akzeptierst, kann ich Dir sagen, daß das ‚g‘ dort nie als Anlaut eines Wortes vorkommt.
Janz jewiss!

Auch im Binnenbereich ist das g selten, es wird aber in einer großen Vielfalt umschrieben.
Z.B.
Fluchzeuschträjer

Gandalf

Sowas operational zu definieren ist nicht ganz einfach.
Natürlich kannst du Wörterbücher beschaffen und die Seiten abzählen, aber wenn dir das schon zuviel ist, dann brauchen wir über die Auswahl der Wörterbücher gar nicht erst sprechen.

Hallo Stefan,

danke für deine Antwort. Es geht um folgende Sprachen:

• French
• Italian
• Spanish
• Portuguese
• Polish
• Dutch
• Norwegian
• Swedish
• Danish
• Finnish
• Czech
• Slovak
• Hungarian
• Greek
• Bulgarian
• Romanian
• Serbian
• Croatian
• Russian
• Turkish

Ja, ich verstehe das Problem. Es wäre am besten, man würde eine Art Alltagswortschatz als Basis nehmen und nicht das Lexikon.

Es geht aber nicht um die Häufigkeit von Wörtern, sondern um die Häufigkeit von Anfangsbuchstaben.
Und nein, es würde dann nur die Grundform gelten und nicht die Flexionen.

Ich denke es wird darauf hinauslaufen, dass ich Wörterbücher nehmen werde. Nur ist eben hier die Frage, ob es für all diese Sprachen vergleichbare Wörterbücher gibt, das wird sich dann wohl in der Buchhandlung vor Ort herausstellen.

Vielen Dank
Viola