Text per Computer generieren

Servus Experten,

theoretisch versteckt sich in jeder zufällig generierten unendlichen Zahlenfolge jeder Text der einmal geschrieben wurde, bzw. geschrieben werden wird.

Zum Beispiel könnte man der Zahl Pi bei jeder Ziffern-Kombination einen bestimmten Buchstaben zuordnen und würde dann, wenn man nur lange danach sucht, z.B. einen beliebeigen Text darin finden können (siehe hier). 

Ähnliches kennt man ja von der Theorie der unendlich vielen Affen, die auf unendlich vielen Schreibmaschinen irgendwann einmal auch z.B. Romeo und Julia schreiben würden.

Nun werden Computer immer leistungsfähiger und somit die praktische Überprüfung dieser Aussagen möglich. Hat jemals mal jemand spaßeshalber versucht ein Worterkennungsprogramm mit einem „Zahlengenerator“ zu koppeln und zu sehen, ob hierbei wirklich z.B. Moby Dick heraus kommt?

Immerhin hat man die Zahl Pi laut Artikel schon auf zehn Billionen Stellen genau berechnet (eine ziemlich große Anzahl von Ziffern).

Oder ist die Hypothese evtl. in Wirklichkeit fehlerhaft, da

  1. Texte möglicherweise einer höheren Ordnung unterliegen, als dies bei reinen Zufallskombinationen der Fall ist
  2. Für einen richtigen, fehlerfreien Text mit jedem Zeichen an der richtigen Stelle ja die Wahrscheinlichkeit zum Auffinden eines Zahlenpendants unendlich klein wird; andererseits müsste es unendlich viele Versionen des gleichen Textes mit teilweise nur geringfügigen Fehlern geben (und natürlich unendlich viele Versionen verschiedener Texte); ist es dann nicht ein Paradoxon, dass in dieser unendlichen Sammlung von Texten bisher noch kein interessanter Text gefunden wurde?
  3. Oder kann ich einfach mit unendlichen Zahlen nichts anfangen?

Gruß,
Sax 

Moin,

es scheitert an der Wahrscheinlichkeit, dass ein richtiger Text bei rauskommt.
Nehmen wir das Alphabet ohne Sonderzeichen, Satzzeichen und nur Leerstelle kommen wir auf 2x26 +1 Zeichen - also 53 insgesamt
Dass jetzt genau ‚Sax‘ herauskommen soll, beträgt somit schon 148.876 falsche Möglichkeiten und eben 1 Treffer. 53^3
Bei „Gruss Sax“ sinds schon 53^9 = 3.299.763.591.802.132 und eben 1 Treffer (53^9)

Mein PC wäre damit wahrscheinlich über 1 Tag beschäftigt… ein Buchstabe mehr: 53 Tage, 2 Buchstaben mehr: 2809 Tage … 7,7 Jahre

LG
Ce

Servus

theoretisch versteckt sich in jeder zufällig generierten
unendlichen Zahlenfolge jeder Text der einmal geschrieben
wurde, bzw. geschrieben werden wird.

Oder ist die Hypothese evtl. in Wirklichkeit fehlerhaft, da

  1. Texte möglicherweise einer höheren Ordnung unterliegen, als
    dies bei reinen Zufallskombinationen der Fall ist

Da sollte man mal von ausgehen, von der höheren Ordnung. Es kommen ja z.B. nicht alle Buchstaben mit der gleichen Häufigkeit vor. Aber spielt das eine Rolle?
Ein Zufallsgenerator, der alle Zahlen oder Buchstaben mit der gleichen Wahrscheinlichkeit generiert und unendlich viele Versuche hat wird sich nicht an einer höheren Ordnung stören. Angenommen die Zahlenfolge 1,1,2,1,2,2,2,2,2,2,2 sei die Quintessenz deines irdischen Schaffens. Die bekommst du locker mit einem Würfel hin. Du musst nur lange genug würfeln.

  1. Für einen richtigen, fehlerfreien Text mit jedem Zeichen an
    der richtigen Stelle ja die Wahrscheinlichkeit zum Auffinden
    eines Zahlenpendants unendlich klein wird; andererseits müsste
    es unendlich viele Versionen des gleichen Textes
    mit teilweise nur geringfügigen Fehlern geben (und natürlich
    unendlich viele Versionen verschiedener Texte); ist es dann
    nicht ein Paradoxon, dass in dieser unendlichen Sammlung von
    Texten bisher noch kein interessanter Text gefunden wurde?
  2. Oder kann ich einfach mit unendlichen Zahlen nichts
    anfangen?

Die Aspekte 2.) und 3.) sind nur Variationen von Aspekt 1.)

mfg

Peter

Hallo!

Zu 1:

Warum sollte dies der Fall sein? Es handelt sich ja weder um Ziffern noch um Buchstaben, sondern um Zeichen aus einen Zeichenvorrat. Es gibt diesbezüglich keinen Unterschied.

Zu 2:

Richtig, aber

" ist es dann nicht ein Paradoxon, dass in dieser unendlichen Sammlung von Texten bisher noch kein interessanter Text gefunden wurde? "

Nein. Trifft ja nicht so nicht zu. Von „Nostrodamus“ über „Vinci“ und der Bibel: Irgendjemand meint immer, irgendwelche Hinweise auf irgendetwas gefunden zu haben. Wer sucht, der findet.

Zu 3:

Keine Ahnung, wer kann es schon?

Wenn vor einer Tastur ein angetrunkener Affe sitzt (nicht geprägt) , der unendlich viel Zeit hätte, um „zufällig“ irgendwelche Tasten zu betätigen,wird (viel Geduld vorausgesetzt) „die Bibel“ oder „Finnegan’s Wake“ entstehen. Im schlimmsten Fall die aktuelle Koaltionsvereinbarung.

Grüße

fribbe

Hallo,

Wenn vor einer Tastur ein angetrunkener Affe sitzt (nicht
geprägt) , der unendlich viel Zeit hätte, um „zufällig“
irgendwelche Tasten zu betätigen,wird (viel Geduld
vorausgesetzt) „die Bibel“ oder „Finnegan’s Wake“ entstehen.
Im schlimmsten Fall die aktuelle Koaltionsvereinbarung.

na dazu passt aber der heutige Dilbert:

http://www.dilbert.com/dyn/str_strip/000000000/00000…

gruss
b.:

Servus,

klar wird die Wahrscheinlichkeit mit jedem Zeichen immer geringer, aber wird sie gleich Null?

Ich denke nicht. Also ist das Auffinden „nur“ ein Zeitproblem wie von Dir geschildert?

Wenn ja, dann wäre die nächste Frage, ob die Wahrscheinlichkeit so gering ist, dass nicht nur Dein Computer überfordert ist, sondern selbst der physikalisch am schnellsten verwirklichbare Computer nicht mehr in der Lage wäre einen einigermaßen akzeptable langen String zu finden (weil z.B. Lichtgeschwindigkeit, Energiebedarf und Alter des Universums grenzen setzen).

Oder mit anderen Worten: Kann es sein, dass zwar die mathematische (theoretische) Möglichkeit zu Auffinden dieser Texte besteht, aber physikalische Grenzen ein praktisches Auffinden nicht nur heute, sondern für die gesamte Zukunft unmöglich wäre, weil eben die Wahrscheinlichkeit so gering ist, dass z.B. selbst ein Supercomputer mit der Rechenkraft aller derzeit auf der Erde erhältlicher Computer Milliarden von Jahren bräuchte, um auch nur einen Text von der Länge meiner Frage zu finden?

Andererseits könnte man die Wahrscheinlichkeit auch erhöhen, indem man z.B. leichte „Variationen“ im Text zulässt und vor allem nicht „den einen Text“ sucht, sondern lediglich irgendein sinnvolles Textfragment, oder?

Mal folgende Überlegung: Es gibt laut Google ca. 130 Mio. Bücher auf dieser Welt. Also eine große Ansammlung von Texten in hunderten von verschiedenen Sprachen, von denen sich doch wenigstens einer zumindest in einem erkennbar großen Fragment in z.B. dem schon bisher berechneten Teil der Zahl Pi mit zehn Millionen Stellen finden lassen sollte, oder?

Gruß,
Sax

Hallo,

[…] Also eine große Ansammlung von Texten in hunderten von verschiedenen Sprachen, von
denen sich doch wenigstens einer zumindest in einem erkennbar großen Fragment in z.B. dem
dem schon bisher berechneten Teil der Zahl Pi mit zehn Millionen Stellen finden lassen sollte, oder?

ich sehe das ganz anders: Jeder Text ist bereits in den allerersten Nachkommastellen von π codiert! Man muss lediglich die Übersetzungsregel von Zifferngruppen in Buchstaben geeignet wählen (beachte, dass diese Wahl immer willkürlich ist).

Wähle ich z. B. folgende Regel:

141592 = 'E', 653589 = 's', 793238 = ' ', 462643 = 'b',
383279 = 'e', 502884 = 'g', 197169 = 'a', 399375 = 'b',
105820 = ' ', 974944 = 's', 592307 = 'i', 816406 = 'c',
286208 = 'h', 998628 = ' ', 034825 = 'a', 342117 = 'b',
067982 = 'e', 148086 = 'r', 513282 = ' ', 306647 = 'z',
093844 = 'u', 609550 = ' ', 582231 = 'd', 725359 = 'e',
408128 = 'r', 481117 = ' ', 450284 = 'Z', 102701 = 'e',
938521 = 'i', 105559 = 't', 644622 = ',', 948954 = ' ',
930381 = 'd', 964428 = 'a', 930381 = 'ß', 964428 = ' '
(und passend so weiter bis zum Ende des Textes)

dann siehst Du, dass in den ersten ungefähr 36000 (*) Nachkommastellen von π nichts anderes als die Weihnachtsgeschichte codiert ist, denn wenn Du die oben angegebenen Codes hintereinanderschreibst und noch ein „3.“ davorsetzt, dann hast Du exakt den Anfang der Dezimalentwicklung von π:

3.141592653589793238462643383279502884197169399375105820974944592307816…

(*) Die Weihnachtsgeschichte besteht aus ca. 6000 Zeichen und der von mir gewählte Code fasst 6 Dezimalziffern zu einem Zeichen zusammen. Das Produkt ist 36000.

Gruß
Martin

PS: Für alle, die mit der Weihnachtsgeschichte nicht vertraut sind, hier der Anfang (der Version aus dem Lukas-Evangelium):

Es begab sich aber zu der Zeit, daß ein Gebot von dem Kaiser Augustus ausging, daß alle Welt geschätzt würde. Und diese Schätzung war die allererste und geschah zu der Zeit, da Cyrenius Landpfleger von Syrien war. Und jedermann ging, daß er sich schätzen ließe, ein jeglicher in seine Stadt. […]

1 Like

Servus,

jain.

Natürlich gehört zu der Grundannahme dazu, dass ein Zeichen nur einer Zeichenkombination entspricht…

Gruß,
Sax

Hallo,

Natürlich gehört zu der Grundannahme dazu, dass ein Zeichen
nur einer Zeichenkombination entspricht…

das ändert nichts am eigentlichen Wesen des Fragestellung.

Du willst in der π-Nachkommastellenkolonne irgendwelche Sequenzen von Zeichen finden, die ein lese- und schreibkundiger Mensch als sinnvollen Text erkennen würde. Dazu musst Du erstmal den Zeichenvorrat selbst (das Alphabet) festlegen, sowie die Zuordnung der alphabetischen Zeichen zu bestimmten Teilstücken der Nachkommastellenfolge, also z. B. 00→"A", 01→"B", 02→"C" usw. Erst mit einer solchen Zeichenkodierung – kurz Code genannt – kannst Du eine Suche starten.

Nun treffen aber folgende zwei Aussagen zu: 1. Der verwendete Code ist willkürlich. 2. Wo Du was in der π-Nachkommastellenkolonne findest hängt vom verwendeten Code ab. Das heißt: Was auch immer textmäßig Sinnvolles Du in der π-Nachkommastellenkolonne an einer bestimmten Stelle bei einer bestimmten Zeichenkodierung zu sehen bekommst: Bei unzählig vielen anderen Codes würdest Du an derselben Stelle nur Datenmüll sehen.

Ein Beispiel: Mit der Kodierung 00→"A", 01→"B", 02→"C" usw. findest Du in der ersten Billion π-Nachkommastellen etwa Deinen Vornamen ab der Position Nr. 409668523 und Deinen Nachnamen nirgendwo. Bei der Zeichenkodierung 00→[Leerzeichen], 01→".", 02→"–", 03→"?", …, 20→"A", 21→"B", 23→"C" usw. findest Du hingegen den Namen Deiner Katze bereits ab der Position Nr. 51093 sowie Deinen Nachnamen ab Position Nr. 89094562, dafür aber Deinen Vornamen nirgendwo. Oder dachtest Du an die in PCs verwendete ASCII-Codierung mit A, B, C… ab dem Index 65? Geht auch! Mag sein, dass Du mit ihr sogar ein besonders langes Wort wie etwa STEUERERHOEHUNG findest, aber keinen einzigen Namen.

Und jetzt stellt Dir jemand noch eine weitere Billiarde π-Nachkommastellen zur Verfügung – so viel, dass jede weitere Suche nach sinnvollen Wörtern zwei Tage Rechenzeit beansprucht – für jeden Code. Mit welchem Code würdest Du eine Suche starten? Dem ersten oben definierten? Dem zweiten? Dem dritten? Mit allen drei, was die Unternehmung dreimal so teuer macht (entweder dreifache Rechenzeit oder dreifache Hardwarekosten)? Mit noch 1000 weiteren Codes oder mit noch viel mehr? Würdest Du eine Million Euro in Spezialhardware investieren, um sämtliche per Buchstabenpermutation erzeugbaren Codes systematisch durchtesten zu können? Am Ende hättest Du vielleicht herausgefunden, dass beim Code 00→"Y", 01→"T", 02→"C", 03→"M", 04→"E" und wild durcheinander so weiter Dein Vorname an der Position Nr. 289 lesbar ist. Aber welchen Wert hat diese Information?

Verstehst Du den Wesenskern der Angelegenheit? Die Aussage, dass „die unendlich lange π-Nachkommastellenfolge alle nur denkbaren Wörter und Texte enthält“ klingt zwar aufregend, ist aber tatsächlich ohne Sinn, denn die π-Nachkommastellenfolge enthält an sich überhaupt keine Wörter und Texte. Korrekt (aber auch schon viel unspektakulärer) ist: „Man kann in die unendlich lange π-Nachkommastellenfolge alle nur denkbaren Wörter und Texte hineininterpretieren“, wobei die jeweilige Interpretation durch die verwendete Zeichenkodierung zustandekommt. Und wie mein Beispiel mit der Weihnachtsgeschichte andeutet, bleibt die Aussage sogar richtig, wenn man sie auf die allerersten Nachkommastellen von π bezieht. Löst man sie in letzter Konsequenz noch von π ab, liest sie sich so: „Man kann in jede genügend lange Zufallszahlenkolonne alle nur denkbaren Wörter und Texte hineininterpretieren – man muss aus der unendlichen Menge aller möglichen Codes nur einen passenden, genügend komplexen auswählen“. Sehr ernüchternd, nicht wahr?

Übrigens: Bereits die Entscheidung, die _Dezimal_entwicklung von π zu verwenden, hat etwas Willkürliches: Warum Basis 10? Zeichnet die 10 irgendetwas besonders aus, außer dass Menschen normalerweise zehn Finger besitzen? Nein. Man könnte genausogut 7 oder 29 als Basis verwenden. Es gibt allerdings eine kleinste mögliche Zahlenbasis – die 2. In diesem Sinne ist die _Binär_entwicklung von π tatsächlich vor allen anderen ausgezeichnet. Sie lautet übrigens

11,0010010000111111011010101000100010000101101000110…

Was könnte man damit anfangen? Ich schlage vor, alle Bits zwischen dem ersten und dem 100’000’000’000sten als Rohdatenstrom auf eine Festplatte zu kopieren und diese danach ans Mainboard eines handelsüblichen PCs zu klemmen. Die Wahrscheinlichkeit, den PC erfolgreich damit zu booten, ist natürlich praktisch gleich Null, weil der PC mit den Daten überhaupt nichts anfangen kann (*). Also wiederholst Du das Spiel mit allen π-Bits zwischen dem zweiten und dem 100’000’000’001sten. Wieder nix? Dann ein dritter, vierter, fünfter… Versuch. Da die Nachkommastellenkolonne alle überhaupt denkbaren endlichen Bitsequenzen enthält, wird der PC garantiert irgendwann starten. Fahre geduldig fort und Du wirst die Festplatte des PCs, an dem Du diesen Artikel liest, irgendwann bitgenau dupliziert vorfinden – spiel den Gedanken selbst weiter (alle Festplatte auf der ganzen Welt in allen erdenklichen Varianten…) . Es ist nur eine Frage der Zeit – aber glaube mir, diese Zeitspannen übersteigen jedes menschliche Vorstellungsvermögen um [Totenkopfsymbol]-illionen. Das Alter des Universums ist ein Wimpernschlag dagegen.

Gruß
Martin

(*) Auch in diesem Gedankenexperiment muss irgendwo das interpretierende Element stecken, aber wo? Was meinst Du? Richtig: Es ist der „handelsübliche PC“. Es steht Dir ja frei, einen anderen PC mit einer anderen CPU mit einem anderen Instruktionssatz zu nehmen. Das „anders“ kann „beliebig anders“ sein. Insbesondere könntest Du auch eine Spezial-CPU bauen, die einen entsprechenden PC „weihnachtsgeschichtenäquivalent“ bereits mit den allerersten Binärstellen von π erfolgreich booten lässt – mit jedem Betriebssystem Deiner Wahl. Diese CPU wäre zwar unvorstellbar komplex, aber das spielt für die theoretische Betrachtung ja kein Rolle.


––––––––––
MOD: Einen kleinen Sachfehler korrigiert.

2 Like

klar wird die Wahrscheinlichkeit mit jedem Zeichen immer
geringer, aber wird sie gleich Null?

nein

Ich denke nicht. Also ist das Auffinden „nur“ ein Zeitproblem
wie von Dir geschildert?

auch nein. Die Atome im Universum reichen (ganz schnell) nicht mehr aus.

Beispiel: Dass die ersten 100 Stellen von PI in PI auftauche ist 1E-100 ab jeder Stelle. Wenn Du 1 Billiarde (1E15) stellen pro Jahr ermittelst, sinkt die Wahrscheinlichkeit für einen Treffer auf 1E-85, also quasi garnicht. Wenn Du eine Billarde Rechner je 1 Billarde Stellen je 1 Billiarde Jahre rechnen lässt, ist die Wahrscheinlichkeit immer noch 1E-55. also immer noch quasi „0“!

Oder mit anderen Worten: Kann es sein, dass zwar die
mathematische (theoretische) Möglichkeit zu Auffinden dieser
Texte besteht, aber physikalische Grenzen ein praktisches
Auffinden nicht nur heute, sondern für die gesamte Zukunft
unmöglich wäre, weil eben die Wahrscheinlichkeit so gering
ist, dass z.B. selbst ein Supercomputer mit der Rechenkraft
aller derzeit auf der Erde erhältlicher Computer Milliarden
von Jahren bräuchte, um auch nur einen Text von der Länge
meiner Frage zu finden?

Ja. Auch Billarden von Computern mit Billardenfacher Rechenleistung von heute auf Billarden Planeten in Billarden Jahren.

Andererseits könnte man die Wahrscheinlichkeit auch erhöhen,
indem man z.B. leichte „Variationen“ im Text zulässt und vor
allem nicht „den einen Text“ sucht, sondern lediglich
irgendein sinnvolles Textfragment, oder?

nein. Sagen wir, jede 10te Ziffer darf komplett anders sein, sind es immer noch 1E-90.

Und 3 Ziffern entsprechen etwa 2 Buchstaben, das ganze gilt also für einen Text von gerade mal 70 Buchstaben. Das ist weit entfernt von einem Buch.

Gruß
achim

Hallo,

Immerhin hat man die Zahl Pi laut Artikel schon auf zehn
Billionen Stellen genau berechnet (eine ziemlich große Anzahl
von Ziffern).

verglichen mit der Unendlichkeit aber noch verschwindend wenig.

  1. Texte möglicherweise einer höheren Ordnung unterliegen, als
    dies bei reinen Zufallskombinationen der Fall ist

Das auch und die Zahl Pi wurde ja nicht durch Bestimmung von Zufallszahlen ermittelt.

ist es dann nicht ein Paradoxon, dass in dieser unendlichen Sammlung von
Texten bisher noch kein interessanter Text gefunden wurde?

Ich denke, du hast noch keine richtige Vorstellung der Grösse Unendlich.

  1. Oder kann ich einfach mit unendlichen Zahlen nichts
    anfangen?

ja. :wink:

Gruß,
T.