Wer kann mir kleinen Exkurs in Statistik geben?

Ich habe verschiedene Thesen zu einer Person, die ich in verschiedene Bereiche Ka-tegorisieren kann. Die Aussage „Er spielt gern Fußball“ lässt sich beispielsweise in den Bereich „Sport“ kategorisieren, wobei „Er geht gern ins Theater“ vielleicht in den Bereich „Kultur“ passen würde.
Nun stellt euch vor, dass ich als diese Person jede These mit JA oder NEIN beantworten soll, woraus sich nachher berechnen lässt, zu wie viel Prozent ich als Person einen bestimmten Bereich decke. Jemand ist dann quasi zu 74% sportlich oder zu 22% kulturell interessiert usw… So weit, so gut.
Nun stehe ich allerdings vor dem Problem, dass die verschiedenen Bereiche unter-schiedlich viele Thesen haben. Angenommen zu dem Bereich „Sport“ gibt es 11 Thesen, wobei der Bereich Kultur nur 4 Thesen hat. Beantwortet die Person nun im Bereich Sport nur 2 Thesen mit JA und im Bereich Kultur auch nur 2 Thesen mit JA, so käme heraus, dass diese Person mit 50% kulturell interessiert ist – jedoch nur zu 18,18% Prozent sportlich, obwohl in beiden Bereichen die gleiche Anzahl Thesen positiv beantwortet wurde.
Das verfälscht irgendwie das Ergebnis. Nun ist Statistik schon eine Weile her bei mir, doch ich meine mich zu erinnern, dass man das mit Varianzen lösen kann.
Kann mir jemand nochmal von Anfang an erklären, wie ich das Problem am besten anpacke? Ich hab mich schon im Inet belesen wollen, doch da werde ich irgendwie nirgends schlau draus…
Danke schonmal!

Hallo,

JA oder NEIN beantworten soll, woraus sich nachher berechnen
lässt, zu wie viel Prozent ich als Person einen bestimmten
Bereich decke. Jemand ist dann quasi zu 74% sportlich oder zu
22% kulturell interessiert usw… So weit, so gut.

Diese Schlussfolgerung ist nicht zulässig. Wenn du so vorgehst, weiß du nur, wie groß die Abdeckung der von dir vorgegeben Kategorien ist, mehr nicht.

Wenn du etwas über den Befragten wissen willst, musst du auch von ihm ausgehen. Werden 4 Interessen angekreuzt, von denen sich 2 Sport und 2 Kultur zuordnen lassen, ist die Quote 50% zu 50%. Sonst würde das Ergebnis davon abhängen, wie Feinteilig deine Kategorien sind.

Um eine Aussage machen zu können, mit der du auch wirklich was anfangen kannst, müsstest du aus meine Sicht auch noch wissen, mit wieviel Zeit der Befragte den jeweiligen Interessen nachgeht.

Und noch ein Hinweis: Wenn du das mit Echtdaten machen willst, stößt zu relativ schnell an die Grenzen, die Datenschutrechtlich erlaubt sind. Jedenfalls, wenn du das ohne Wissen des Befragten machst.

Grüße

powerblue

Diese Schlussfolgerung ist nicht zulässig. Wenn du so vorgehst,
weiß du nur, wie groß die Abdeckung der von dir vorgegeben
Kategorien ist, mehr nicht.

Wenn du etwas über den Befragten wissen willst, musst du auch
von ihm ausgehen. Werden 4 Interessen angekreuzt, von denen sich
2 Sport und 2 Kultur zuordnen lassen, ist die Quote 50% zu 50%.
Sonst würde das Ergebnis davon abhängen, wie Feinteilig deine
Kategorien sind.

Um eine Aussage machen zu können, mit der du auch wirklich was
anfangen kannst, müsstest du aus meine Sicht auch noch wissen,
mit wieviel Zeit der Befragte den jeweiligen Interessen
nachgeht.

Und noch ein Hinweis: Wenn du das mit Echtdaten machen willst,
stößt zu relativ schnell an die Grenzen, die Datenschutrechtlich
erlaubt sind. Jedenfalls, wenn du das ohne Wissen des Befragten
machst.

Hi Powerblue,
danke für deine Antwort. Das obige Beispiel ist ein von mir erfundenes, um hier mein Problem ansich zu beschreiben. Datenrechtlich etc. brauch sich hier also keiner Sorgen zu machen.
Auch den zeitlichen Aspekt, den du angesprochen hast, möchte ich außen vor lassen, weil das eigentlich auch keine Rolle spielt.
Dass das Ergebnis davon abhängen, wie Feinteilig meine
Kategorien sind ist genau mein Problem. Gibt es keinen Weg das mathematisch irgendwie aufzulösen um diesen feinteiligen Aspekt zu umgehen?

Hi,

na das habe ich doch geschrieben.

Es macht einen Unterschied, ob du wissen willst, wie groß die Abdeckung einzelner Kategorien ist, oder ob du fragst, wie sich sich die Interessen des Befragen auf die Kategorien verteilen.

Was konkret ist denn deine Fragestellung?

Grüße

powerblue

Hallo,

wenn du auch noch Wahrscheinlichkeiten fuer die Kategorien selbst (wie Kultur, Sport) hast, kannst du das Bayestheorem (siehe http://de.wikipedia.org/wiki/Bayestheorem ) benutzen.

Du suchst quasi P(Kultur|Theater).

Spamfilter (und allgemein statistische Klassifikationen) benutzen das, also findest du viel Literatur online, auch haeufig fuer Einsteiger geeignet.

Gruesse,
Moritz