Tutorium der Sektion CL: Einführung in die Statistik für ...

Tutorium der Sektion CL: Einführung in die Statistik für ...

Tutorium der Sektion CL: Einfhrung in die Statistik fr Linguisten mit R 35. Jahrestagung der DGfS 12. Mrz 2013 Stefan Evert (FAU Erlangen-Nrnberg) Amir Zeldes (HU Berlin) Worum gehts? Wir sind im Alltagsleben und in der Forschung von Statistik umgeben Quantitative Aussagen werden oft akzeptiert, ohne dass man sie wirklich versteht Mglichkeiten, anhand der Statistik zu neuen Erkenntnissen zu kommen, werden vernachlssigt Als Geisteswissenschaftler schwer einzusteigen (aus eigener Erfahrung ) Wozu? Ein Beispiel Osnabrck - "Der Trend zur Gewalt ist ungebrochen. Besonders die Zahl gefhrlicher und schwerer

Krperverletzungen ist deutlich gestiegen", sagte der Bundesvorsitzende der Gewerkschaft der Polizei (GdP), Konrad Freiberg, der "Neuen Osnabrcker Zeitung". Zwar htten Niedersachsen, MecklenburgVorpommern und das Saarland ihre Kriminalstatistiken noch nicht vorgelegt, die Tendenz fr den Bund sei dennoch eindeutig. http://www.spiegel.de/panorama/justiz/0,1518,473433,00.ht ml Wozu? Ein Beispiel Osnabrck - "Der Trend zur Gewalt ist ungebrochen. Besonders die Zahl gefhrlicher und schwerer Krperverletzungen ist deutlich gestiegen", sagte der Bundesvorsitzende der Gewerkschaft der Polizei (GdP), Konrad Freiberg, der "Neuen Osnabrcker Zeitung". Zwar htten Niedersachsen, MecklenburgVorpommern und das Saarland ihre Kriminalstatistiken noch nicht vorgelegt, die Tendenz fr den Bund sei dennoch eindeutig. http://www.spiegel.de/panorama/justiz/0,1518,473433,00.ht ml

Noch ein Beispiel Die Arzneimittelausgaben der gesetzlichen Krankenkassen steigen im kommenden Jahr voraussichtlich um 6,6 Prozent auf einen Rekordwert von mehr als 31 Milliarden Euro http://www.sueddeutsche.de/politik/139/313047/text/ Sie steigen sicher nicht genau um 6,6%. Mit welcher Wahrscheinlichkeit ist es 0,5% mehr? Mit welcher Wahrscheinlichkeit gibt es keinen Anstieg? So wie es dasteht, kann es nicht eintreffen Keinerlei berprfbarkeit Professionelle Darstellung solcher Zahlen Die Ergebnisse fr die zwei experimentellen Bedingungen wiesen signikante Differenzen auf. Schler, die nach der neuen Methode unterrichtet wurden, erreichten signifikant bessere Ergebnisse als die nach der traditionellen Methode unterrichteten (t = 6,03, df = 13, p < 0.001) Was ist signifikant? Was bedeutet t, df, und p? Ist das toll?

Zwischenfazit Seinem eigenen Gefhl kann man bei der Beurteilung von Zahlenreihen nicht trauen Viele empirische Fragen sind ohne Statistik schlicht nicht zu beantworten Ernstzunehmende Aussagen ber Zahlen sind ohne Ausbildung unverstndlich: der eigenen Anschauung nicht zu trauen sich Mittel und Wege anzueignen, in Ihrer eigenen Forschung Zahlen angemessen zu deuten fremde Zahlen zu verstehen und zu beurteilen Statistik in der Linguistik Was ist der Unterschied zwischen gesprochener und geschriebener Sprache? unterschiedlichen Textsorten? Geschlechtern? Wie hnlich werden bestimmte Wrter oder Konstruktionen gebraucht? (Was ist Gebrauch?) Wie produktiv sind Wortbildungsmuster im Vergleich? Ab wann ist ein Ausdruck lexikalisiert? Was fllt Deutschlernern besonders schwer?

Kann man Bedeutung mit distributionellen Kriterien empirisch erschlieen? Was ist R? Wir werden in diesem Tutorium auch mit echten Daten arbeiten und statistische Tests anwenden Der einzig sinnvolle Weg ist, ein professionelles Statistikprogramm zu lernen Hier verwenden wir R: http://cran.r-project.org/ Text- und kommandozeilenbasiert Look & Feel unterscheidet sich ziemlich stark von den blichen GUI-Programmen (SPSS, Excel, ...) Der Einstieg in die Arbeit mit R erscheint schwieriger Warum R?

Praktischer Grund: R ist frei (SPSS bspw. sehr teuer) Unheimlich gute graphische Mglichkeiten Extrem flexibel, alles mit allem kombinierbar Erweiterbar durch tausende von Paketen Luft gleichermaen unter Windows/Linux/Mac Erobert sich in der Wissenschaft mehr und mehr eine beherrschende Stellung Fr Linguistik besonders beliebt (Module zur Verarbeitung linguistischer Daten) Ablauf des Tutoriums 10:00-12:00 Einleitung, Hufigkeitsvergleich Mittagspause 13:00-14:30 erste Schritte mit R + bung 1 Kaffee-Pause 15:00-16:10 Konfidenzintervalle + bung 2: Kurze Pause 16:25-18:00

Kreuztafeln und Assoziation + bung 3 Haben alle Teilnehmer R installiert? http://www.r-project.org/ HUFIGKEITSVERGLEICH Quantitative Korpusstudien zufllige Stichprobe Grundgesamtheit (Objekte) Korpusdaten (Hufigkeiten) operationale Hypothese Statistik Linguistische

Fragestellung Ein Fallbeispiel Linguistische Fragestellung Nominalkomposita bei DaF-Lernern (L2) und deutschen Muttersprachlern (L1) Vermutungen L2 bilden weniger Komposita als L1 Abhngigkeit von der L1 des Lerners Quantitative Studie auf Basis des Lernerkorpus Falko (HU Berlin, Reznicek et al. 2010; s. Zeldes, erscheint fr weitere Einzelheiten) Ein Fallbeispiel operationale Hypothese

Operationalisierung: Die Hufigkeit von Nominalkomposita ist bei L2-Sprechern geringer als bei L1-Sprechern Was bedeutet Hufigkeit? Anzahl von Nominalkomposita pro Text? durchschnittliche Anzahl von NK pro Satz? relative Hufigkeit von Nominalkomposita = Anteil von NK unter allen Substantiven Ein Fallbeispiel operationale Hypothese Operationalisierung: Die Hufigkeit von Nominalkomposita ist bei L2-Sprechern geringer als bei L1-Sprechern Was bedeutet Hufigkeit? Anzahl von Nominalkomposita pro Text? durchschnittliche Anzahl von NK pro Satz? relative Hufigkeit von Nominalkomposita = Anteil von NK unter allen Substantiven

In Bezug auf welche Texte? schriftl./mndl.? zufllige Stichprobe Ein Fallbeispiel Korpusdaten (Hufigkeiten) Wir bentigen zwei Stichproben von Nomina 1. aus Texten von deutschen Muttersprachlern 2. aus Texten von DaF-Lernern Was ist eine zufllige Stichprobe? zusammenhngender Text Zufallsstichprobe Stichproben mssen reprsentativ (fr die jeweilige Sprachvariett) und vergleichbar sein hier: Material aus Lernerkorpus Falko (deutsche Essays von L1 und L2 zu gleichen Themen)

zufllige Stichprobe Ein Fallbeispiel Korpusdaten (Hufigkeiten) Stichprobe von unterschiedlichen Wrtern oder einzelnen Vorkommen im Text? Token Gebrauchshufigkeit vs. Typen Vokabulargre (Zusammenhang mit Produktivitt) blicherweise Stichprobe von Token Produktivittsmessung erfordert komplexere statistische Methoden ( Zipfsches Gesetz) Grundgesamtheit? Grundgesamtheit (Objekte)

Was genau ist die Grundgesamtheit? Wir interessieren uns fr Eigenschaften von Sprechern (L1 und L2) Extensionaler Sprachbegriff: Sprache als Menge von uerungen alle tatschlichen und denkbaren uerungen bzw. Texte aus der relevanten Sprachvariett Objekte = Token (hier: Substantive im Text) Statistik trifft Aussagen ber Grundgesamtheit! Korpusstudie: Nominalkomposita zufllige Stichprobe Grundgesamtheit (Objekte) Korpusdaten (Hufigkeiten)

operationale Hypothese Statistik Linguistische Fragestellung Vereinfachung Annahme: Wir kennen bereits die Hufigkeit von Nominalkomposita bei L1 aus bereits publizierten Untersuchungen Ergebnis: 16% Nominalkomposita (hypothetisch!) Nur noch eine Stichprobe erforderlich Substantive aus Texten von DaF-Lernern wichtig: gleiche Textsorte, Domne, usw. Nullhypothese H0 Przise quantitative Formulierung der operationalen Hypothese erforderlich Was ist die einfachste mgliche Hypothese?

L2 bilden < 16% Nominalkomposita? L2 bilden 16% Nominalkomposita? L2 bilden auch genau 16% Nominalkomposita? Nullhypothese H0 Przise quantitative Formulierung der operationalen Hypothese erforderlich Was ist die einfachste mgliche Hypothese? L2 bilden < 16% Nominalkomposita L2 bilden 16% Nominalkomposita L2 bilden auch genau 16% Nominalkomposita Nullhypothese H0 soll widerlegt werden! statistische Verfahren knnen Hypothesen nur ablehnen, nicht besttigen Nullhypothese H0 Mathematische Formulierung von H0: Die Hufigkeit von Nominalkomposita bei L2 betrgt genau 16% In Formeln:

Stichprobe Zufallstichprobe von n = 100 Substantiven Wie erstellt man eine zufllige Stichprobe aus Texten von DaF-Lernern? Erinnerung: Stichprobe muss reprsentativ sein Ergebnis: k = 12 Komposita Erwartung unter H0: k0 = 16 Komposita weniger Komposita als erwartet H0 widerlegt? Zweite Stichprobe: k = 17 Komposita Ablehnung von H0 wre voreilig gewesen! Zufallsschwankungen Anzahl von Komposita in Stichprobe unterliegt Zufallsschwankungen weicht i.d.R. vom tatschlichen Wert ab zufllige Auswahl stellt sicher, dass im Mittel die erwartete Anzahl gefunden wird (falls H0 gilt) Zufallsschwankungen Bedeutung von k = 12 in Stichprobe

a) H0 stimmt nicht, tatschliche Hufigkeit geringer b) H0 stimmt, aber Stichprobe enthlt zufllig weniger Komposita als erwartet Wir knnen (a) nur dann folgern, wenn (b) sehr unwahrscheinlich ist intuitiv: Risiko, falsches Ergebnis zu publizieren bliche Kriterien: Risiko < 5%, 1% oder 0.1% Stichprobenverteilung Wie gro ist das Risiko, k = 12 oder weniger Komposita zu finden, sofern H0 stimmt? Stichprobenverteilung (unter H0) Wir machen unser Leben zunchst etwas einfacher: stellen wir uns vor, die Hufigkeit von Komposita wre 50/100 (oder Singular vs. Plural, ...) H0: = 0.5 Wie wahrscheinlich sind jetzt 12 Komposita / 100 Nomina? 12 statt 50 von 100?

Alle Ergebnisse sind prinzipiell mglich (wir ziehen ja zufllige Nomina, wie ein Mnzwurf) Aber sie haben unterschiedliche Wahrscheinlichkeiten Nur eine Folge fhrt zu 100 Mal NK: P(100*NK) = P(NK) * P(NK) * * P(NK) = P(NK)100 = 0.5100 = 7.888609e-31 12 statt 50 von 100? Auch fr 0 NK bzw. 100x Simplex sorgt nur eine Folge: P(100*S) = P(S) * P(S) * * P(S) = P(S)100 = 0.5100 = 7.888609e-31 Viele Kombinationen knnen zu 50 Mal NK fhren (NK,S,NK,NK,S oder S,NK,NK,...) 12 statt 50 von 100? Da alle Kombinationen gleich wahrscheinlich sind, mssen wir nur zhlen, wie viele kombinationen zu 12 x NK fhren Wenn wir unglaublich viele Stichproben

ziehen wrden... wrden wir eine Verteilung bekommen Bestimmte Ergebnisse werden hufiger vorkommen als andere Stichprobenverteilung Simulation von Mnzwrfen: Galtonbrett fr Japan-Fans: Pachinko-Maschine Stichprobenverteilung Jetzt nehmen wir an, P(NK) ist nicht 0.5, sondern 16/100. Geht das immer noch so? P(NK)=0.5 ist hnlich wie ein Mnzwurf jeweils 16% Wahrscheinlichkeit fr Kompositum (unter H0: = 0.16) entspricht ungefhr Wurf von 6 Augen Auswahl von 100 Token = 100-maliges Wrfeln Stichprobenverteilung Auch hier gibt es wahrscheinlichere und weniger wahrscheinliche Ergebnisse Wahrscheinlichkeit, in 3x Wrfeln 2x 6 zu

bekommen: {6+~6+6, 6+6+~6, ~6+6+6} Das kann man auch fr 100x Wrfeln machen Wie oft kommen 12 NK in einer Stichprobe von 100 Nomina vor, wenn P(NK) = 0.16? 10 10.710.8 10.2 9.8 8.9 8 8.3 7.4 6.4 6

5.7 4.5 4 4.1 2.9 2.8 1.8 2 1.7 0 0 0 0

0 0.1 0.2 0.4 1.1 0.9 0.6 0.4 0.2 0.1 0 0 28 30 0 percentage of samples

12 Binomialverteilung graphisch 0 2 4 6 8 10 12 14 16

18 observed frequency k 20 22 24 26 Gibt es wirklich einen Unterschied? Wir wissen nun, wie wahrscheinlich 12xNK sind (ca. 6,4% der Kombinationen unter H0) Ist das jenseits von einem plausiblen Ergebnis, wenn H0 stimmt? Wir knnen die Grenze zwischen plausibel und unplausibel beliebig verschieben Das ndert nur die Wahrscheinlichkeit, dass wir berreagieren

Was ist die Wahrscheinlichkeit, dass diese Grenze falsch ist? 10 Signifikanzwert = p-value = Risiko falscher Ablehnung (Typ 1 / Alpha-Fehler) 10.710.8 onesided pvalue p = 17.0% 9.8 10.2 8.9 8 8.3

7.4 6.4 6 5.7 4.5 4 4.1 2.9 2.8 1.8 2 1.7 0

0 0 0 0 0.1 0.2 0.4 1.1 0.9 0.6 0.4 0.2 0.1 0 0 28

30 0 percentage of samples 12 Binomialverteilung graphisch 0 2 4 6 8 10

12 14 16 18 observed frequency k 20 22 24 26 Einseitig oder zweiseitig? Wir haben gerade gezeigt, dass wir in 17% der Flle einen Fehler machen wrden, auch wenn H0 stimmt

Wir haben aber eine Alternative nicht bercksichtigt Was passiert, wenn Lerner in Wirklichkeit mehr Komposita produzieren? Keine Mglichkeit der Ablehnung aufgrund von zu vielen NK Binomialverteilung graphisch 10 twosided pvalue p = 33.9% Signifikanzwert = p-value = Risiko falscher Ablehnung (Typ 1 / Alpha-Fehler) 10.710.8 9.8 10.2

8.9 8 8.3 7.4 6.4 6 5.7 4.5 4 4.1 2.9 2.8 1.8

2 1.7 0 0 0 0 0 0.1 0.2 0.4 1.1 0.9 0.6 0.4 0.2 0.1 0

0 28 30 0 percentage of samples 12 zweiseitiger Test (empfohlen) 0 2 4 6

8 10 12 14 16 18 observed frequency k 20 22 24 26

Signifikanzniveau Wann darf H0 abgelehnt werden? Signifikanzwert p beziffert das Fehlerrisiko Ermessensfrage: welches Risiko ist akzeptabel? bliche Signifikanzniveaus p < .05 p < .01 p < .001 (5%) (1%) (0.1%) * ** *** Eine kleine Strkung, bevor wir uns mit R beschftigen MittagsPAUSE

ERSTE SCHRITTE MIT R Erste Schritte in R Starten Sie jetzt R: Windows/Mac: einfaches R-GUI unter Windows Rgui.exe unter Mac Os X R bzw. R64 Linux, SunOS, : Befehl R auf Kommandozeile empfohlenes GUI: RStudio (Windows, Mac, Linux) Das Programm gibt einen Prompt aus und wartet auf Ihre Eingabe: > Erste Schritte in R Sie geben einen Befehl ein bzw. stellen eine Anfrage: > 2+2 Das Programm antwortet Ihnen und wartet auf weitere Befehle: > 2+2

[1] 4 > Ignorieren Sie frs erste die Markierung [1] vor der Antwort ihre Bedeutung wird bald klar werden. R als Taschenrechner Die Bedeutung der Symbole + * / ist leicht zu erkennen: plus, minus, mal, geteilt Der Ausdruck: 2^3 bedeutet 23 = 222. Vorsicht: Auf manchen Tastaturen mssen Sie die Taste ^ zweimal drcken, damit Sie etwas sehen (dead key)! Alle wichtigen mathematischen Funktionen sind schon vorhanden: sqrt(4) = 4 = 2 log2(256) = log2 256 = 8 (weil 28 = 256) ...

Kleine bung Berechnen Sie: 1 1/5 2 - 2 = 1.8 5 1 1/(5-2) = 0.3333333 5 2 = 25 (2(2+3)^2 3) 2 2 223* 3^2 = 18 5 2

= 8 22^(5-2) = 9.265e-05 sin(3sin(3.1415) .1415) Ergebnisse in Variablen merken Berechnungen wiederholen sich oft Sie wollen mit Zwischenergebnissen weiterrechnen Dafr gibt es Variablen: a <- 3 erzeugt eine Variable (Behlter) namens a Dieser Behlter enthlt nun den Zahlenwert 3 Wenn Sie einfach nur a auf der Kommandozeile eingeben, bekommen Sie den Inhalt der Variablen angezeigt Die Zeichen <- gehren zusammen () und dienen dazu, einer Variablen einen Wert zuzuweisen Sie knnen Variablen auch zu neuen verknpfen, z.B. c <- a + b Was gibt R aus, wenn Sie der Variablen Mio die Zahl 1000000 zuweisen und dann ihren Wert

anzeigen lassen? Was bedeutet das? Mehr zu Variablen Es ist meist sinnvoll, den Variablen sprechendere Namen zu geben als a, b oder c: Reaktionszeit.Mittelwert oder alter_standardabweichung Regeln: Trennzeichen . und _ ; Umlaute vermeiden (Hier geht's frs erste weiter mit a, b, c, das ist krzer) Sie knnen den Wert einer Variablen verndern. Ganz wichtig ist das in folgendem Beispiel: > a <- 5 > a <- a + 1 > a [1] 6 Eine praktische Kleinigkeit Mit der Zeit werden Ihre Befehle lnger werden und es ist mhsam, sie immer wieder neu einzutippen Mit der Pfeil-Hoch-Taste () bekommen Sie den vorherigen Befehl angezeigt

Sie knnen Ihn wiederverwenden und bearbeiten Sie knnen auch weiter zurckblttern durch alle Befehle, die Sie bisher eingegeben haben Mit der Tabulator-Taste () knnen Sie Variablenund Dateinamen automatisch vervollstndigen Vergleichsoperationen Sie knnen mit R auch Zahlenwerte vergleichen: > 5 < 10 [1] TRUE > 2 + 2 == 5 [1] FALSE Das Ergebnis lsst sich als Wahrheitswert in einer Variablen speichern: > a <- (-1 < 0) Die Klammern sind hier > a eigentlich nicht [1] TRUE erforderlich Vergleichsoperatoren

Operator > >= < <= == != Bedeutung grer als grer oder gleich kleiner als kleiner oder gleich ist gleich ist nicht gleich Ist 1000 grer oder kleiner als 33? Weisen Sie der Variable groesser im ersten Fall den Wert TRUE zu, sonst den Wert FALSE. Zeichenketten R kann auch mit Zeichenketten umgehen

( wichtig fr uns Korpuslinguisten ;-) Zeichenketten werden in einfachen oder doppelten Anfhrungszeichen geschrieben Knnen beliebigen Variablen zugewiesen werden > a <- "Hallo" Ich bin ein > b <- 'Welt' Kommentar > paste(a, b) # miteinander verketten [1] "Hallo Welt" Vektoren Sie knnen auch mehrere Zahlen in einer Variable speichern, indem Sie sie mit c() aneinanderhngen > noten <- c(2.0, 1.7, 3.3, 1.0, 2.7) > noten [1] 2.0 1.7 3.3 1.0 2.7 Mit solchen Vektoren lassen sich viele statistische Berechnungen sehr einfach durchfhren > sum(noten) # Summe

> length(noten) # Anzahl > mean(noten) # Mittelwert > sd(noten) # Standardabweichung Vektoren Ein zweites Beispiel: Zahlenreihen > n <- 1:100 # : erzeugt eine Zahlenreihe > quadrate <- n^2 > quadrate [1] 1 4 9 16 25 36 49 [8]

64 81 100 121 144 169 196 ... jetzt sollte klar sein, was [1] und [8] bedeuten Direkter Zugriff auf einzelne Elemente eines Vektors: > quadrate[5] > quadrate[1:10] > quadrate[7] <- 42 # geschummelt! Wahrscheinlichkeiten in R Fr den Binomialtest wollten wir wissen: Was ist die Wahrscheinlichkeit von 12/100 NK falls die Nullhypothese = 16/100 stimmt?

R bietet vordefinierte Funktion fr die Binomial- und viele andere statistische Verteilungen > dbinom(12, 100, 16/100) [1] 0.06417714 R nimmt die Sache ziemlich genau 10 10.710.8 10.2 9.8 8.9 8 8.3 7.4 6.4 6 5.7

4.5 4 4.1 2.9 2.8 1.8 2 1.7 0 0 0 0

0 0.1 0.2 0.4 1.1 0.9 0.6 0.4 0.2 0.1 0 0 28 30 0 percentage of samples

12 Wahrscheinlichkeiten in R 0 2 4 6 8 10 12 14 16

18 observed frequency k 20 22 24 26 Binomialtest in R Die eigentliche Frage war aber anders: Wie gro ist das Risiko, das Ergebnis 12 NK oder ein noch ungewhnlicheres Ergebnis zu erhalten, falls die Nullhypothese = 16/100 tatschlich stimmt? Passiert das in weniger als 5% aller Flle? Binomialtest Binomialtest in R

Signifikanzwert = p-value = Risiko falscher Ablehnung (Typ 1 / Alpha-Fehler) 10.710.8 10 twosided pvalue p = 33.9% 9.8 10.2 8.9 8 8.3 7.4 6.4

6 5.7 4.5 4 4.1 2.9 2.8 1.8 2 1.7 0 0 0

0 0 0.1 0.2 0.4 1.1 0.9 0.6 0.4 0.2 0.1 0 0 28 30 0

percentage of samples 12 zweiseitiger Test 0 2 4 6 8 10 12 14

16 18 observed frequency k 20 22 24 26 Binomialtest in R Nullhypothese > binom.test(12, n = 100, p = 16/100) Exact binomial test Stichprobengre

data: 12 and 100 number of successes = 12, number of trials = 100, p-value = 0.3392 alternative hypothesis: true probability of success is not equal to 0.16 95 percent confidence interval: 0.0635689 0.2002357 sample estimates: probability of success 0.12 Binomialtest in R > binom.test(x, n = 100, p = 16/100) Eine kleine bung: Ab welchem x ist Signifikanz p < 0.05* erreicht? Ab welchem x ist Signifikanz p < 0.01** erreicht? ausprobieren Ein kleiner Unterschied Was ist, wenn Lerner tatschlich weniger Komposita verwenden: im Schnitt 12/100 statt 16/100?

dann finden wir in einer Stichprobe von 100 Substantiven blicherweise ca. 12 NK Dieser Unterschied ist nach dem Binomialtest nicht signifikant kann man ihn also nie erkennen? nur wenn zuflligerweise noch weniger als 12 NK auftreten Ein kleiner Unterschied Bisher standen sog. Typ I- oder Alpha-Fehler im Mittelpunkt: irrtmliche Ablehnung von H0 Signifikanzwert berechnet Riskio von Alpha-Fehlern Typ II- oder Beta-Fehler: H0 ist falsch, kann aber nicht abgelehnt werden z.B. tatschliche Hufigkeit von 12% NK bei L2 Risiko von Beta-Fehlern ist schwer abzuschtzen hngt von tatschlichem Durchschnittswert ab je grer der Unterschied zur Nullhypothese, desto kleiner ist das Risiko, einen Beta-Fehler zu begehen Typ II/Beta-Fehler

Knnen Sie das Risiko fr Beta-Fehler abschtzen? Nullhypothese: 16% NK tatschlicher Wert bei L2-Sprechern: 12% NK H0 wird abgelehnt bei 8 / 100 NK in Stichprobe Wie gro ist die Wahrscheinlichkeit, eine solche Stichprobe zu erhalten? > dbinom(0:8, 100, 12/100) > sum(dbinom(0:8, 100, 12/100)) [1] 0.1385921 Risiko fr Beta-Fehler: 100% 13.86% = 86.14% Trennschrfe Knnen wir das Risiko von Beta-Fehlern verringern? Was wre bei einer 5x greren Stichprobe? tatschlich im Schnitt 12/100 NK bei L2 in Stichprobe von n = 500 Substantiven sind also blicherweise 60 NK zu erwarten > binom.test(60, n = 500, p = 16/100) p = .01452*

grere Stichprobe bessere Trennschrfe (power) kleinere Differenz von H0 (Effektgre) gengt, um BetaFehler zu vermeiden Passieren jetzt berhaupt keine Beta-Fehler mehr? Hufigkeitsvergleich Wie kann H0 formuliert werden, wenn die Kompositahufigkeit bei L1 nicht bekannt ist? Hufigkeitsvergleich von 2 Stichproben keine Annahme ber genauen Wert von 1 = 2 vergleichbare Stichproben aus L1- und L2-Texten, aber Stichprobengre darf unterschiedlich sein R-Befehl: prop.test() Hufigkeitsvergleich Stichprobe L2: k = 52 NK, n = 500 Stichprobe L1: k = 76 NK, n = 500 > prop.test(c(52, 76), c(500, 500)) Hufigkeitsvergleich Stichprobe L2: k = 52 NK, n = 500

Stichprobe L1: k = 76 NK, n = 500 > prop.test(c(52, 76), c(500, 500)) 2-sample test for equality of proportions with data: c(52, 76) out of c(500, 500) X-squared = 4.7395, df = 1, p-value = 0.02948 alternative hypothesis: two.sided 95 percent confidence interval: -0.091306444 -0.004693556 sample estimates: prop 1 prop 2 0.104 0.152 R beenden Sie drfen R jetzt kurz verlassen: > q() Save workspace image? [y/n/c]: n Falls Sie ein GUI verwenden, whlen Sie den entsprechenden Befehl im Men aus im Dialogfenster ebenfalls nicht speichern anklicken BUNG 1

Deutschkenntnisse & Bilingualitt Fragestellung: Lernen bilinguale Schler schlechter Deutsch als monolinguale? Operationalisierung: Anzahl Fehler bei Diktat (500 Wrter) zwei Gruppen deutscher Muttersprachler: (a) monolingual (b) bilingual (Deutsch-Englisch oder Deutsch-Russisch) jeweils Schler der 4. Klasse an einer Berliner Schule Ergebnisse zusammengestellt in tabellarischer Form in der Datei diktate.txt Deutschkenntnisse & Bilingualitt Datei diktate.txt 20 Zeilen = Schler + Kopfzeile 3 Spalten Fallnummer Sprache: MONO / BI Anzahl Fehler in Diktat von 500 Wrtern

Fall Sprache Fehler 1 MONO 22 2 MONO 20 3 MONO

10 4 MONO 16 11 BI 21 12

BI 19 13 BI 28 14 BI 28

Deutschkenntnisse & Bilingualitt Was ist unsere Nullhypothese? Wie gro sind die Stichproben? Welche Hufigkeiten werden verglichen? Fall Sprache Fehler 1 MONO 22 2

MONO 20 3 MONO 10 4 MONO 16

11 BI 21 12 BI 19 13 BI 28 14 BI

28 Schritt 1: Einlesen der Tabelle R kann tabellarische Daten in Textform mit dem Befehl read.table() einlesen kann mit geeigneten Parametern an zahlreiche unterschiedliche Formate angepasst werden Voreinstellung fr TAB-getrennte Felder: read.delim() Voreinstellung fr CSV-Format: read.csv(), read.csv2() Wir bentigen die Option header=TRUE, da die Tabelle eine Kopfzeile enthlt Schritt 1: Einlesen der Tabelle

Drei Mglichkeiten zur Auswahl der Datei 1. Arbeitsverzeichnis wechseln (GUI-Men) oder R im entsprechenden Verzeichnis starten (Kommandozeile) im Rechnerpool: cd Desktop/DGFS/, dann R starten 2. Vollen Pfad zur Datei angeben (Verzeichnis + Dateiname), bei GUI oft per Drag & Drop mglich 3. Interaktive Auswahl mit file.choose() Einlesen der Tabelle in Variable Diktate > Diktate <- read.table("diktate.txt", header=TRUE) oder > Diktate <- read.table(file.choose(), header=TRUE) > Diktate Schritt 2: Zugriff auf Tabellen Statistische Auswertungen werden sehr oft auf tabellarischen Daten durchgefhrt R hat dafr einen eigenen Datentyp data.frame (analog zu Zahlen, Zeichenketten, Vektoren, ) wird beim Einlesen mit read.table() erzeugt

Zugriff auf Zeilen, Spalten und einzelne Elemente > Diktate[12, "Sprache"] > Diktate[12, 2] > Diktate[12, ] # ganze Zeile > Diktate$Fehler # ganze Spalte Schritt 3: Tabellen bearbeiten Wir bentigen die gesamte Anzahl der Fehler fr jede Gruppe von Schlern (MONO und BI) Dazu spalten wir die Tabelle in zwei Teile auf: > MONO <- subset(Diktate, Sprache == "MONO") > BI <- subset(Diktate, Sprache == "BI") Jetzt knnen wir die Werte in der dritten Spalte jeder Teiltabelle aufsummieren: > sum(MONO$Fehler) > sum(BI$Fehler) R-Profis machen es so: rowsum(Diktate$Fehler, Diktate$Sprache)

Schritt 4: Hufigkeitsvergleich Stichprobe BI: k = 226 Fehler, n = 5000 Stichprobe MONO: k = 185 Fehler, n = 5000 > prop.test(c(226, 185), c(5000, 5000)) 2-sample test for equality of proportions with data: c(226, 185) out of c(5000, 5000) X-squared = 4.0598, df = 1, p-value = 0.04392 alternative hypothesis: two.sided 95 percent confidence interval: 0.0002197596 0.0161802404 sample estimates: prop 1 prop 2 0.0452 0.0370 Diskussion Ergebnis: bilinguale Schler machen signifikant mehr Fehler als monolinguale Schler (p = 0.044 < 0.05*) Was bedeutet dieses Ergebnis? Wie gro ist der Unterschied eigentlich? Stichprobe BI: 226/5000 Wrter = 4.5/100 falsch

Stichprobe MONO: 185/5000 Wrter = 3.7/100 falsch Machen bilinguale Schler tatschlich ber 20% mehr Fehler als monolinguale? D.h. betrgt der tatschliche Unterschied zwischen BI und MONO ebenfalls 0.8/100 Wrter (wie in Stichproben)? Endlich! Kaffeepause KonfidenzintervallE Konfidenzintervalle Was ist, wenn gar keine Hypothese vorliegt? Fragestellung: Wie hufig bilden L2-Sprecher Komposita? Hufigkeitsschtzung auf Basis einer Stichprobe von n = 1000 Substantiven Ergebnis: k = 120 NK unter n = 1000 Substantiven direkter Schtzwert = Punktschtzer:

entspricht Schtzwerten in der Diskussion von bung 1 Wie zuverlssig ist dieser Schtzwert? Konfidenzintervalle Mehrere Stichproben (jeweils n = 1000) 1) 2) 3) 4) 5) 6) 7) k = 120 k = 105 k = 129 k = 126 k = 111 k = 92 k = 117

= 12.0% = 10.5% = 12.9% = 12.6% = 11.1% = 9.2% = 11.7% Konfidenzintervalle Welcher dieser Schtzwerte ist plausibel? wir wollen auf Basis einer Stichprobe entscheiden knnen tatschlichen Wert von nicht genau bestimmen, sondern nur auf einen bestimmten Bereich eingrenzen Bereich plausibler Schtzwerte = Konfidenzintervall

Idee: Ausschlussverfahren Stichprobe: 120 NK unter 1000 Substantiven Ist der Schtzwert = 10% plausibel? Nullhypothese H0 Binomialtest: p < 0.05* = 10% ist nicht plausibel fr alle mglichen Schtzwerte ausprobieren Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4

f =120 5 H0 : m =8% rejected 60 80 100 120 observed frequency k 140 160 Konfidenz: invertierter Test

3 2 1 0 percentage of samples 4 f =120 5 H0 : m =9% rejected 60 80 100

120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120 5

H0 : m =10% rejected 60 80 100 120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1

0 percentage of samples 4 f =120 5 H0 : m =10.1% plausible 60 80 100 120 observed frequency k

140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120 5 H0 : m =10.2% plausible 60

80 100 120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples

4 f =120 5 H0 : m =11% plausible 60 80 100 120 observed frequency k 140 160

Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120 5 H0 : m =12% plausible 60 80 100

120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120

5 H0 : m =13% plausible 60 80 100 120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2

1 0 percentage of samples 4 f =120 5 H0 : m =14% plausible 60 80 100 120 observed frequency k

140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120 5 H0 : m =14.1% plausible

60 80 100 120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples

4 f =120 5 H0 : m =14.2% rejected 60 80 100 120 observed frequency k 140 160

Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120 5 H0 : m =15% rejected 60 80

100 120 observed frequency k 140 160 Konfidenz: invertierter Test 3 2 1 0 percentage of samples 4 f =120

5 H0 : m =16% rejected 60 80 100 120 observed frequency k 140 160 Konfidenzintervall in R > binom.test(120, n = 1000) Exact binomial test

data: 120 and 1000 number of successes = 120, number of trials = 1000, p-value < 2.2e-16 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.1005009 0.1417669 ... Tatschliche Hufigkeit im Bereich 10.1% 14.2% mit 95% Konfidenz (bei Signifikanzniveau p < 0.05) Konfidenzintervall fr bung 1 > prop.test(c(226, 185), c(5000, 5000)) 2-sample test for equality of proportions with data: c(226, 185) out of c(5000, 5000) X-squared = 4.0598, df = 1, p-value = 0.04392 alternative hypothesis: two.sided 95 percent confidence interval: 0.0002197596 0.0161802404

Tatschlicher Unterschied der Fehlerhufigkeiten liegt zwischen 0.02 und 1.62 Fehlern / 100 Wrter! Konfidenzintervall fr bung 1 Unterschied in bung 1 war signifikant (p < 0.05*) bilinguale Schler machen mehr Fehler als monolinguale Wir knnen aber mit (95%iger) Sicherheit nur sagen, dass die bilingualen Schler mindestens 0.02 Fehler mehr je 100 Wrter machen nicht relevant Signifikanz (Fehlerrisiko) vs. Relevanz (Effektgre) Tatschlicher Unterschied knnte aber auch bei 1.62 Fehlern / 100 Wrter liegen wre relevant Wie knnen wir die Effektgre genauer bestimmen? grere Stichprobe bessere Trennschrfe des Tests Konfidenzintervall wird kleiner Signfikanz vs. Relevanz Studie 1: k1 = 11, n1 = 90 | k2 = 35, n2 = 110 Studie 2: k1 = 12500, n1 = 51000 | k2 = 11200, n2 = 48000

Welche Studie ist interessanter? Warum? Signfikanz vs. Relevanz Studie 1: k1 = 11, n1 = 90 | k2 = 35, n2 = 110 p = 0.001888 Studie 2: k1 = 12500, n1 = 51000 | k2 = 11200, n2 = 48000 p = 0.000015 Welche Studie ist interessanter? Warum? Signfikanz vs. Relevanz Studie 1: k1 = 11, n1 = 90 | k2 = 35, n2 = 110 p = 0.001888 2 1 7.56 / 100 Wrter Studie 2: k1 = 12500, n1 = 51000 | k2 = 11200, n2 = 48000 p = 0.000015 1 2 0.64 / 100 Wrter Welche Studie ist interessanter? Warum?

Unterschied bei Studie 2 ist hher signifikant, aber linguistisch (vermutlich) nicht relevant BUNG 2 bung Komposita in L2-Deutsch Wir nehmen nun eine grere (echte ) Stichprobe von Substantiven, um herauszufinden, ob der Unterschied zwischen L1 und L2 tatschlich signifikant ist (Daten aus dem Falko-Korpus, Reznicek et al. 2010) Falls kein Zufall dahinter steckt, werden auch weitere Daten einen signifikanten Unterschied aufweisen Daten herunterladen Wer die Daten noch nicht hat: http://u.hu-berlin.de/falko_comp bzw. von Webseite des Tutoriums Datei speichern: compound_noun_falko_all_v2.2.ta

b Daten einlesen > comp_data <- read.table(file.choose(), header=TRUE, as.is=TRUE, fileEncoding="UTF-8") > head(comp.data,12) fr Umlaute tok lemma head modifier trancription_name L1 type 1 Videospiele Videospiel Spiel Video dcs001_2007_10 deu compound 2 Haftstrafen

Haftstrafe Strafe Haft dcs001_2007_10 deu compound 3 Volksmund Volksmund Mund Volks dcs001_2007_10 deu compound 4 TV-Shows TV-Show Show TVdcs001_2007_10 deu compound 5 Kleinkriminelle Kleinkriminelle Kriminelle Klein dcs001_2007_10 deu compound 6 Extrembeispiele Extrembeispiel Beispiel Extrem

dcs001_2007_10 deu compound 7 Verkehrsunflle Verkehrsunfall Unfall Verkehrs dcs001_2007_10 deu compound 8 Feststellung Feststellung Stellung Fest dcs001_2007_10 deu compound 9 Gegenbeweise Gegenbeweis Beweis Gegen dcs001_2007_10 deu compound 10 Personen Person Person NULL dcs001_2007_10 deu simplex

11 Ansicht Ansicht Ansicht NULL dcs001_2007_10 deu simplex 12 Kriminalitt Kriminalitt Kriminalitt NULL dcs001_2007_10 deu simplex attach() Mit attach() kann man auf einzelne Spalten leichter zugreifen: > attach(comp_data) #Direktzugriff auf Spalten > head(modifier) #erste Werte von modifier [1] Video Haft Volks TVKlein Extrem > levels(factor(L1)) #alle Ausprgungen von L1 [1] "afr" "cat" "ces" "cma" "dan" "deu" "ell" "eng" "fin" "fra" "hbs" "hin" "hun" "iii" "ita" "jpn" "kik" "kor" "kua" "lub" "luy" "nde" "nld" "nor"

"pol" "ron" "rus" "slk" "sme" [30] "spa" "sqi" "swe" "tat" "tur" "ukr" "uzb" "vie" "zho" > length(levels(factor(L1))) #Lnge der Liste der Ausprgungen [1] 38 Daten darstellen Uns interessiert die Verteilung von Komposita/Simplizia: > table(L1,type) type L1 compound simplex afr 81 864 cat 9 88 ces 26 358

cma 17 87 ... vie 22 106 zho 42 400 Unser 1. Balkendiagramm 5000 0 ??? 10000 15000 20000 25000 Das war schwer zu lesen... Wir htten gern ein Diagramm dieser Daten

Das geht einfach mit R: > barplot(table(L1,type)) compound simplex Unser 2. Balkendiagramm 0 2000 4000 6000 8000 10000 die Funktion barplot() erwartet eine Spalte fr jeden Balken,

keine Zeile Tabelle transponieren mit t(): > barplot(t(table(L1,type))) afr ces dan ell fin hbs hun ita kik kua luy

nld pol rus sme sqi tat ukr vie Unser 3. Balkendiagramm Und ein bisschen hbscher: > barplot(t(table(L1,type)), cex.names=0.6, las=2, col=c("blue","red")) > legend("topright", c("comp","simp"), fill=c("blue","red")) 10000 comp simp

8000 6000 4000 2000 afr cat ces cma dan deu ell eng fin fra hbs hin hun

iii ita jpn kik kor kua lub luy nde nld nor pol ron rus slk sme spa sqi swe tat tur ukr

uzb vie zho 0 Ein besseres Diagramm Das ist nicht so hilfreich... Unterschiedlich viele Daten aus jeder L1 Anteile nicht direkt vergleichbar Zuverlssigkeit der Zahlen nicht vergleichbar Ein besseres Diagramm Eine bessere Darstellung mit spineplot() spineplot() mchte Zeilen, nicht Spalten, daher nicht transponieren: > spineplot(table(L1,type)) > L1 vs. L2

Als nchstes interessiert uns die allgemeine Frage: verwenden Lerner weniger Komposita? Wir brauchen eine neue Tabelle: > L1L2_tab <- table(L1=="deu",type) > L1L2_tab type compound simplex FALSE 2113 19067 TRUE 1476 9789 prop.test() mit Tabellen Wir knnten die Zahlen in prop.test() eingeben Bequemerweise darf man Tabellen direkt benutzen: > prop.test(L1L2_tab) 2-sample test for equality of proportions with continuity correction data: L1L2_tab X-squared = 72.7311, df = 1, p-value < 2.2e-16

alternative hypothesis: two.sided 95 percent confidence interval: -0.03875335 -0.02376939 sample estimates: prop 1 prop 2 0.09976393 0.13102530 Verhalten sich die Lerner gleich? Wir hatten bisher immer einen Vergleich zweier Stichproben Jetzt mchten wir wissen, ob alle Lerner Gruppen sich vergleichbar verhalten prop.test() kann auch mehrere Gruppen vergleichen: > prop.test(c(a,b,c,...,z),c(A,B,C,...,Z)) Verhalten sich die Lerner gleich? Noch einfacher geht es mit einer groen Tabelle (immer nur mit 2 Spalten): > L2.data=table(L1[L1!="deu"],type[L1!="deu"])

> prop.test(L2.data) 37-sample test for equality of proportions without continuity correction data: L2.data X-squared = 248.0218, df = 36, p-value < 2.2e-16 alternative hypothesis: two.sided sample estimates: prop 1 prop 2 prop 3 prop 4 prop 5 prop 6 prop 7 0.08571429 0.09278351 0.06770833 0.16346154 0.14711477 0.06435644 0.09308284 ... Warning message: In prop.test(L2.data) : Chi-squared approximation may be incorrect Ein Unterschied Mindestens eine Gruppe ist mit den anderen nicht vergleichbar Wir schauen uns den Anteil der Komposita in jeder

Gruppe an: > L2.props = L2.data[,"compound"]/(L2.data[,"simplex"]+L2.data[,"compound"]) > L2.props afr cat ces cma dan ell eng 0.08571429 0.09278351 0.06770833 0.16346154 0.14711477 0.06435644 0.09308284 ... Einige Gruppen sind hnlich, bspw. "afr", "eng" Vergleich ausgewhlter Gruppen > eng_afr.data=table(L1[L1=="eng"|L1=="afr"], type[L1=="eng"|L1=="afr"]) #englisch oder afrikaans > eng_afr.data compound simplex afr

81 864 eng 436 4248 > prop.test(eng_afr.data) 2-sample test for equality of proportions with continuity correction data: eng_afr.data X-squared = 0.4273, df = 1, p-value = 0.5133 alternative hypothesis: two.sided 95 percent confidence interval: -0.02769702 0.01295993 sample estimates: prop 1 prop 2 0.08571429 0.09308284 Weitere bungen Sortieren Sie die Proportionen mit sort() Stellen Sie die sortierten Proportionen als Balkendiagramm mit barplot() dar

Vergleichen Sie die zwei Gruppen mit den meisten Komposita mit prop.test() (nutzen Sie wieder die Tabelle L2.data) Verhalten sich die romanischen Sprache hnlich? (cat,fra,ita,spa,ron) Testen Sie, ob die Unterschiede signifikant sind und stellen Sie die Daten mit spineplot() dar Endlich! Kaffeepause ASSOZIATION UND UNABHNGIGKEITSTEST Vergleich von Merkmalen Bisher: Vergleich von zwei Stichproben aus verschiedenen Grundgesamtheiten Jetzt: Vergleich von zwei Merkmalen unterschiedliche Eigenschaften derselben Token eine Stichprobe aus einer Grundgesamtheit

Fallbeispiel: englische Dativalternation Peter gave [NP his friend] the book vs. Peter gave the book [PP to his friend] Besteht ein Zusammenhang mit Informationsstatus? Dativalternation Was fr eine Stichprobe wird bentigt? Token = Instanzen von VPen mit Dativobjekt (manuell) annotiert: Dativ-Realisierung (NP/PP), Informationsstatus (new, given, accessible), aus welchen Textquellen? Hier: Teilmenge von Bresnan et al. (2007) give-VPen aus Wall Street Journal (Zeitungsartikel) und Switchboard-Dialogen (gesprochene Sprache) komplett in R-Paket languageR (Baayen 2008) Dativalternation > Give <- read.delim("dative_give.txt") > Give <- read.delim(file.choose()) # alternativ

Voreinstellung fr TAB-getrennte > dim(Give) [1] 250 6 Tabellen mit Kopfzeile > head(Give, 5) 1 2 3 4 5 Recip AccessRec AccessTheme AnimRec AnimTheme VerbClass PP new new animate inanimate transfer PP

given accessible animate inanimate transfer NP new accessible inanimate inanimate abstract PP new new inanimate inanimate abstract NP accessible accessible animate inanimate abstract Dativalternation > summary(Give) # berblick ber Kategorien Recip NP:199 PP: 51 AccessRec accessible: 70 given :146 new : 34

AnimRec animate :209 inanimate: 41 AccessTheme accessible:134 given : 15 new :101 AnimTheme animate : 2 inanimate:248 VerbClass abstract :224 communication: 10 transfer : 16

Assoziation Wie knnen wir feststellen, ob es einen Zusammenhang zwischen den Merkmalen Recip und AccessRec gibt? (Assoziation) Was bedeutet Zusammenhang in diesem Kontext? Wie oft kommen bestimmte Merkmalsausprgungen miteinander vor? sog. Kreuztabelle (contingency table) Wie erstellt man eine Kreuztabelle in R? > kt <- table(Give$Recip, Give$AccessRec) Kreuztabellen > kt <- table(Give$Recip, Give$AccessRec) > kt access given new NP

48 137 14 PP 22 9 20 Zusammenhang erkennbar? Woran? Insgesamt oder fr einzelne Felder? Signifikanz? Kookkurrenz & Unabhngigkeit

Ein Zusammenhang besteht, wenn bestimmte Merkmalskombinationen auffallend hufig oder selten auftauchen sog. Kookkurrenz von Merkmalsausprgungen Hngt von Hufigkeit einzelner Kategorien ab Erwartung: viele Kookkurrenzen bei zwei hufigen Kategorien, wenige bei zwei seltenen Kategorien unter der Hypothese, dass die Merkmale statistisch unabhngig sind, lsst sich die erwartete Hufigkeit mit einer mathematischen Formel berechnen Notation fr Kreuztabellen > kt <- table(Give$Recip, Give$AccessRec) > kt access given new access given

new NP 48 137 14 NP n11 n12 n13 = n1 PP

22 9 20 PP n21 n22 n23 = n2 = n1 = n2 = n3

n Notation fr Kreuztabellen > kt <- table(Give$Recip, Give$AccessRec) > kt > addmargins(kt) access given new access given new NP 48 137 14

= 199 NP n11 n12 n13 = n1 PP 22 9 20 = 51

PP n21 n22 n23 = n2 = 70 = 146 = 34 250 = n1 = n2

= n3 n Erwartete Hufigkeit H0: Unabhngigkeitshypothese Wk fr NP = n1 / n Wk fr given = n2 / n Kookkurrenz-Wk = n1 n2 / n2 Erwartete Hufigkeit e12 fr n Token E access given new E NP = 199

NP PP = 51 PP = 70 = 146 = 34 250 access given new e12

= n1 = n2 = n1 = n2 = n3 n Erwartete Hufigkeit H0: Unabhngigkeitshypothese Wk fr NP = n1 / n Wk fr given = n2 / n Kookkurrenz-Wk = n1 n2 / n2 Erwartete Hufigkeit e12 fr n Token E access given

new E access given new NP 55.7 116.2 27.1 = 199 NP e11 e12

e13 = n1 PP 14.3 29.8 6.9 = 51 PP e21 e22 e23

= n2 = 70 = 146 = 34 250 = n1 = n2 = n3 n Erwartete Hufigkeit Erwartete Hufigkeit in R (fr Profis) > >

> > > > E n_rows <- rowSums(kt) n_cols <- colSums(kt) n <- sum(kt) kt.e <- outer(n_rows, n_cols) / n round(kt.e, 1) addmargins(kt.e) access given new E access given new

NP 55.7 116.2 27.1 = 199 NP e11 e12 e13 = n1 PP 14.3

29.8 6.9 = 51 PP e21 e22 e23 = n2 = 70 = 146 = 34

250 = n1 = n2 = n3 n Assoziation & Chi-Quadrat-Test Vergleich von erwarteten und tatschlichen Hufigkeiten Hypothesentest fr H0: Merkmale sind unabhngig Chi-Quadrat-Statistik Signifikanzwert E access given new

access given new NP 55.7 116.2 27.1 = 199 NP 48 137 14 = 199

PP 14.3 29.8 6.9 = 51 PP 22 9 20 = 51 = 70

= 146 = 34 250 = 70 = 146 = 34 250 Chi-Quadrat-Test in R > ergebnis <- chisq.test(kt) > ergebnis Pearson's Chi-squared test data: kt X-squared = 54.376, df = 2, p-value = 1.557e12 Resultat: p = 1.557 x 1012 = 0.000000000001557

R-Profis knnen X2 auch direkt berechnen: > X2 <- sum( (kt - kt.e)^2 / kt.e ) Chi-Quadrat-Test in R Welche Merkmalskombinationen sind auffllig? Standardisierte Abweichung (z-score) fr jede Kombination Unter H0: jedes zij folgt einer Standardnormalverteilung > round(ergebnis$expected, 1) > round(ergebnis$residuals, 2) # = zij Chi-Quadrat-Test in R access given new NP

1.03 1.93 2.51 PP 2.04 3.81 4.96 PP Z Recip NP

> round(ergebnis$residuals, 2) > 2 * pnorm(2.51, lower=FALSE) # NP / new > assocplot(t(kt)) # t() = transponieren accessible given AccessRec new Mini-bung Gibt es Evidenz fr andere Einflsse auf die Dativalternation (z.B. Belebtheit)? Zusammenhang zw. Informationsstatus von Dativobjekt und Akkusativobjekt? ndert sich der Signifikanzwert bei einer greren Stichprobe? Mini-bung: Lsungen > kt2 <- table(Give$Recip, Give$VerbClass) > chisq.test(kt2)

Pearson's Chi-squared test data: kt2 X-squared = 3.8243, df = 2, p-value = 0.1478 (?) Warning message: In chisq.test(kt2) : Chi-squared approximation may be incorrect > fisher.test(kt2) # exakter Test (aufwendig) Fisher's Exact Test for Count Data data: kt2 p-value = 0.1301 alternative hypothesis: two.sided Mini-bung: Lsungen > kt3 <- table(Give$AccessRec, Give$AccessTheme) > kt3 accessible given new accessible 49 2 19 given

76 10 60 new 9 3 22 > chisq.test(kt3) Pearson's Chi-squared test data: kt2 X-squared = 18.0605, df = 4, p-value = 0.001201 Warning message: > fisher.test(kt3) Mini-bung: Lsungen > fisher.test(kt2)$p.value [1] 0.1301211 > fisher.test(2 * kt2)$p.value [1] 0.02515787 > fisher.test(5 * kt2)$p.value [1] 0.000151227 > fisher.test(10 * kt2)$p.value

[1] 3.426715e-08 BUNG 3 bung Wir arbeiten als nchstes mit informationsstrukturell annotierten Daten Zwei Variablen: (Guidelines des SFB632, Dipper et al. 2007) infstat: giv(en), new, acc(essible), idiom topic: ab(outness), fs = framesetter, nt = not-topic Genauere Unterteilung in "active" bzw. "inactive", "inferrable", "generic" etc. bung Forschungsfragen: Wie hngt Topikalitt mit Bekanntheit zusammen? Gibt es Unterschiede dabei zwischen Vorerwhntheit und Erschliebarkeit? Framesetter und Aboutness-Topik?

Formulierung von Hypothesen Erstellung von passenden Kreuztabellen Daten herunterladen Wer die Daten noch nicht hat: http://u.hu-berlin.de/infstat_data bzw. von Webseite des Tutoriums Datei speichern: infstat_data.tab Daten einlesen > infstruct.data <- read.table(file.choose(), header=TRUE, as.is=TRUE, fileEncoding="UTF-8") > head(infstruct.data) 1 2 3 4

5 6 ID referent infstat topic infstat_fine 1 Die_Jugendlichen new ab new 2 Zossen new ab new 3 ein_Musikcaf new nt new 4 Das

giv nt giv-active 5 sie giv ab giv-active 6 der_ersten_Zossener_Runde new fs new Kreuztabelle > attach(infstruct.data) > is_tab <- table(infstat, topic) > is_tab topic infstat ab fs nt acc 48 9 72 giv

59 6 56 idiom 1 0 35 new 29 5 60 Erste Hypothese Frage: hngt Informationsstatus mit Topikalittzusammen? Nullhypothese H0: Kein Zusammenhang zwischen den Variablen Wir fangen an mit einer groben Untersuchung: referentieller Inf-Status und binre Topikalitt Ausprgung "Idiom" entfernen Ausprgungen "fs" und "ab" zusammentun Tabelle erstellen > no_idiom <- subset(infstruct.data, infstat!="idiom") > topic_infstat topic_infstat acc giv new

nt 72 56 60 t 57 65 34 plot(topic_infstat) topic_infstat new giv acc Zusammenhang? nt t Zur Erinnerung: was ist H0? Heit kein Zusammenhang: alles in jeder Zelle der Tabelle gleich?

Wir fgen Zwischensummen hinzu: > addmargins(topic_infstat) acc giv new Sum nt 72 56 60 188 t 57 65 34 156 Sum 129 121 94 344 Erwarten wir 344/6 = 57.33 in jeder Kombination? Zur Erinnerung: was ist H0? Nicht wirklich: es kann sein, dass es mehr NichtTopiks gibt als Topiks Es kann sein, dass die meisten Referenten neu sind Aber es darf keine Interaktion geben (mehr neu wenn nicht Topik) > chisq.test(topic_infstat)$expected acc giv new

nt 70.5 66.12791 51.37209 t 58.5 54.87209 42.62791 gleich verteilt gleich verteilt Zusammenhang testen > chisq.test(topic_infstat) Pearson's Chi-squared test data: topic_infstat X-squared = 6.6862, df = 2, p-value = 0.03533 Irgendwo sind Zeilen und Spalten nicht unabhngig, H0 gilt nicht Residuen Die residuen drcken den Unterschied zwischen Erwartung und Beobachtung aus: Residuals = (observed - expected) / sqrt(expected) > chisq.test(topic_infstat)$residuals

acc giv new nt 0.1786474 -1.2454529 1.2037653 t -0.1961161 1.3672374 -1.3214735 Zweite Kreuztabelle Bekommen wir ein besseres Bild mit allen Kategorien von topic ~ infstat? > is_tab <- table(infstat, topic) > is_tab topic infstat ab fs nt acc 48 9 72 giv 59 6 56 idiom 1 0 35 new 29 5 60 > plot(is_tab)

plot(is_tab) is_tab giv idiom new ab acc nt topic fs Keine Flle von idiom & fs infstat

Wann gibt es "ab" und "idiom"? > infstruct.data[infstruct.data$infstat=="idiom" & infstruct.data$topic=="ab",] ID referent infstat topic infstat_fine 155 155 Das_Fllhorn idiom ab idiom Satz: "Das Fllhorn schlielich schttet man ber Kitas und Schulen aus." chisq.test Gibt es Zusammenhnge mit allen Variablenausprgungen? > is_test <- chisq.test(is_tab) Warning message: In chisq.test(is_tab) : Chi-squared approximation may be incorrect

> is_test Pearson's Chi-squared test data: is_tab X-squared = 32.7535, df = 6, p-value = 1.17e-05 Welche Zusammenhnge fallen auf? > is_test$residuals topic infstat ab fs nt acc 0.21879436 0.84835502 0.42555433 giv 2.32804365 -0.14599183 1.78101040 idiom -3.32505567 -1.37649440 3.01842175 new -0.83990410 0.02366243 0.65123443

fs nt topic ab assocplot(is_tab) (o-e) (o-e)/sqrt(e) sqrt(expected) acc giv idiom infstat new

Warnung? Zu wenig Daten zu den Idiomen: > is_tab topic infstat ab fs nt acc 48 9 72 giv 59 6 56 idiom 1 0 35 new 29 5 60 Genauerer Test mit fisher.test() > fisher.test(table(topic, infstat), workspace=2e6) Fisher's Exact Test for Count Data data: xtabs(~topic + infstat, data = infstat_data) p-value = 9.734e-07 alternative hypothesis: two.sided

Weitere bungen Was passiert, wenn man die noch feineren Kategorien in infstruct.data$infstat_fine nimmt? Was passiert, wenn man "acc" und "giv" zusammen mit "new" kontrastiert? schlussworte + Evaluation Literaturempfehlungen Fr den Einstieg: Gries, Stefan Th. (2008). Statistik fr Sprachwissenschaftler. Gttingen: Vandenhoeck & Ruprecht. Gries, Stefan Th. (2009). Statistics for Linguistics with R: A Practical Introduction. Berlin: Mouton de Gruyter, Berlin. Oakes, Michael P. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Bortz, Jrgen (2005). Statistik fr Sozialwissenschaftler. Heidelberg: Springer. Fortgeschrittene Methoden: Baayen, R. Harald (2008). Analyzing Linguistic Data: A Practical Introduction to Statistics. Cambridge: Cambridge University Press.

Rietveld, Toni & van Hout, Roeland (2005). Statistics in Language Research: Analysis of Variance. Berlin/New York: Mouton de Gruyter. Online-Materialien Handouts & Daten zum Tutorium: http://wordspace.collocations.de/doku.php/corpus_tutorial:dgfs2013 SIGIL-Kurs (Baroni & Evert): http://sigil.r-forge.r-project.org/ Butler, C. (1985). Statistics in Linguistics. Oxford: Blackwell. http://www.uwe.ac.uk/hlss/llas/statistics-in-linguistics/bkindex.shtml Galtonbrett-Simulation: http://www.math.psu.edu/dlittle/java/probability/plinko/ R-Homepage (u.a. Lehrbcher & Online-Tutorien): http://www.r-project.org/

Recently Viewed Presentations

  • Quantitative Analysis.pptx - DePaul University

    Quantitative Analysis.pptx - DePaul University

    - Interval data meets the assumptions necessary to conduct certain arithmetic operations. addition and subtraction. violates assumptions to perform multiplication or division . With careful interpretation, use of any arithmetic operation may be justifiable. without a meaningful (absolute) zero, a...
  • Learning Objectives Affective and Psychomotor Domains

    Learning Objectives Affective and Psychomotor Domains

    Emotional conflict. Interpersonal difficulties that arise over feelings of anger, mistrust, dislike, fear, resentment, etc. Different Types of Conflict Relationship Conflict Data Conflict Values Conflict Structural Conflict Interest Conflict Goal Conflict Method Conflict Conflict Scale Types of conflict. Functional (or...
  • Objectives of the Information System

    Objectives of the Information System

    Sales and Cash Receipts Sales (approving the transaction) Sales Dept: From the Purchase Order, fill out the Charge Sale Invoice document, leaving blank the "verified by" space then give it to A/R. This is a Sales Order Header. Accts Receivable:...
  • Why is the Universe Accelerating?

    Why is the Universe Accelerating?

    Beyond the Trapezium Θ1 Ori C Angel G. Fuentes 02/09/2005 HST picture of Trapezium Bally et al. A preliminary study of the Orion nebula cluster structure and dynamics Lynne A. Hillenbrand and Lee W. Hartmann The inner Trapezium region should...
  • Anti-Obesity Drugs

    Anti-Obesity Drugs

    The cause of excess subcutaneous and visceral fat deposition in an individual is the cumulative effect of an imbalance between the energy of ingested food and that expended in the course of daily activities. Essentially, the deposition of fat is...
  • Mathematics

    Mathematics

    Sine and cosine rules. Area of triangle - ½ absinC. New to Foundation: Use of pi and surds standard form. Reverse percentages compound interest. Factorising quadratics simultaneous equations. Basic trigonometry direct and inverse proportion.
  • EXPERIENCING FREEDOM THROUGH JESUS CHRIST GODS PLAN God

    EXPERIENCING FREEDOM THROUGH JESUS CHRIST GODS PLAN God

    (BHAD) The Process: Renewing our minds. Do not conform to the pattern of this world, but be. transformed by the renewing of your mind. Then you. will be able to test and approve what God's will is— ...
  • Discovering High Grade Copper Deposits in Manitoba, Canada

    Discovering High Grade Copper Deposits in Manitoba, Canada

    Mike Muzylowski - Callinan Mines Ltd. (CAA-TSX.V) accomplished President and CEO, has played key roles in the discovery of 15 Canadian mines, 13 in Manitoba, during his distinguished career as a geologist, geophysicist and senior mining executive.