Corpora on mediensprache.net

The corpus area on mediensprache.net contains different corpora that are listed below. Some corpora may be inaccessible (non-public).
 

Alpenpanorama D/A/CH/I

Short description: Im Alpenpanorama auf 3sat präsentieren sich Alpenferienorte und -regionen mit Echtzeitbildern (Kamera), Wetterinformationen sowie mit max. zweizeiligen Werbetexten (Ortsinformationen, Veranstaltungen, Aktionen)
Repräsentativ für das ganzjährige Alpenpanorama; die Datenerhebung erfolgte (wg. geringer, vor allem saisonalen Änderungen) alle zwei Monate jeweils am 29. (29.11.2002, 29.01./03./05./07./09.2003).

Survey period: 29.11.2002-29.09.2003
Sample: 681 elements
Copyright: © Torsten Siever
CorpusId: 104

 

Bons (Artikelbezeichnungen)

Short description: Das Korpus beinhaltet Artikelbezeichnungen auf Belegen/Bons, die aufgrund der Raumbeschränkung zumeist gekürzt werden müssen.
Nicht repräsentativ aufgrund fehlender Randomisierung und Auswahl von Einträgen (keine ungekürzten).

Survey period: 01.01.2002-31.12.2005
Sample: 271 elements
Copyright: © Torsten Siever
CorpusId: 103

 

Chatbot (Max)

Short description: Chatprotokoll des Chatbots namens Max am Heinz-Nixdorf-MuseumsForum, Paderborn. Suchergebnisse und Wortindizes können auf Turns von System/User beschränkt werden.
Vollkorpus

Survey period: 01.01.2003-01.08.2006
Sample: 79906 elements
Copyright: © Ipke Wachsmuth
CorpusId: 110

 

Fahrgastfernsehen der X-CITY MEDIEN, Hannover

Short description: Das Fahrgastfernsehen der X-CITY MEDIEN ist in hannoverschen Stadtbahnen und U-Bahn-Stationen zu sehen und beinhaltet redaktionelle Beiträge zu aktuellen, vor allem regionalen Themen. Werbeeinblendungen sind hier nicht aufgenommen worden.
Repräsentativ für das Fahrgastfernsehen in Hannover; zum Zeitpunkt der Erhebung überregional für Norddeutschland. Erhebung: ein Quartal lang an jedem zweiten Tag jede zweite Meldung.

Survey period: 15.05.2005-15.08.2005
Sample: 789 elements
Copyright: © Torsten Siever
CorpusId: 101

 

Inflektive (Micky Mouse, 1951-1964)

Short description: Inflektivbelege in frühen Micky-Mouse-Heften (1951-1964) mit Angabe von Erstbelegstatus; dazu sind die Geschehnisse im Bild parallel zum Beleg ausgewiesen.
Vollkorpus

Survey period: 01.01.1951-31.12.1964
Sample: 1712 elements
Copyright: © Peter Schlobinski
CorpusId: 111
Download: Download corpus (PDF)

 

Kleinanzeigen der deutschen Tagespresse (1955)

Short description: Kleinanzeigen aus dem Jahr 1955 aus der Süddeutschen Zeitung, der Frankfurter Allgemeinen Zeitung sowie der Hannoverschen Allgemeinen Zeitung. Beschränkt wurde die Erhebung auf Kleinanzeigen der Rubrik "Verschiedenes", d.h. Anzeigen für Immobilien, Bekanntschaften oder den Automarkt wurden nicht berücksichtigt.
Repräsentativ für unspezifische Kleinanzeigen der Rubrik "Verschiedenes" deutscher Tageszeitungen aus dem Jahr 1955. Erhebung: ein Quartal lang an jedem Samstag 20 Anzeigen (Auswahl: von y Anzeigen jede x. bei x=y/20).

Survey period: 14.05.1955-13.08.1955
Sample: 675 elements
Copyright: © Torsten Siever
CorpusId: 105

 

Kleinanzeigen der deutschen Tagespresse (2005)

Short description: Unspezifische Kleinanzeigen aus der Süddeutschen Zeitung, der Frankfurter Allgemeinen Zeitung sowie der Hannoverschen Allgemeinen Zeitung. Beschränkt wurde die Erhebung auf Kleinanzeigen der Rubrik "Verschiedenes", d.h. Anzeigen für Immobilien, Bekanntschaften oder den Automarkt wurden nicht berücksichtigt.
Repräsentativ für unspezifische Kleinanzeigen der Rubrik "Verschiedenes" deutscher Tageszeitungen. Erhebung: ein Quartal lang an jedem Samstag 20 Anzeigen (Auswahl: von y Anzeigen jede x. bei x=y/20).

Survey period: 15.05.2005-15.08.2005
Sample: 771 elements
Copyright: © Torsten Siever
CorpusId: 102

 

Nachrichtenticker EinsExtra (ARD digital)

Short description: Nachrichtenticker des digitalen Info-Kanals EinsExtra (ARD). Die Kurznachrichten werden eingeblendet im linken Bildschirmrand im Rahmen eines Split-Screens, während im Hauptbereich (oben rechts) das reguläre Programm läuft.
Repräsentativ für den Nachrichtenticker auf ARD digital (die Erhebung erfolgte alle zwei Tage innerhalb des Zeitraums von vier Wochen).

Survey period: 15.02.2006-15.03.2006
Sample: 161 elements
Copyright: © Torsten Siever
CorpusId: 109

 

Schülerbriefe (Handzettel)

Short description: Zettel unterschiedlicher Größe und Form, die vornehmlich während des Unterrichts verfasst, zusammengefaltet und weitergereicht werden.
Nicht repräsentativ (gesammelte Briefe einer Schülerin in der Region Hannover).

Survey period: 01.01.1995-31.12.2004
Sample: 190 elements
Copyright: © Torsten Siever
CorpusId: 108

 

Science-Fiction-Wörter

Short description: Die Wörter entstammen Science-Fiction-Literatur. Die Auswahl der zugrunde liegenden Texte repräsentiert einen breiten Querschnitt des Genres. Frühe Autoren wie Jules Verne, H.G. Wells oder Hugo Gernsback sind ebenso vertreten wie aktuelle Vertreter der Science-Fiction, etwa Charles Stross, Justina Robson, Alastair Reynolds oder Adam Roberts. Als Lemmata für die Einträge unseres Lexikons haben wir in erster Linie solche Wörter ausgewählt, die für den jeweiligen Quellentext besonders wichtig oder aussagekräftig sind, genretypische Motive benennen oder charakteristischen Wortbildungsmustern des Genres folgen, darüber hinaus aber auch Wörter, die den Einfallsreichtum von Science-Fiction-Autoren in seiner ganzen Breite anschaulich werden lassen. Viele Einträge enthalten weitere, auf die Lemmata bezogene Neubildungen, so dass insgesamt eine breite Materialbasis präsentiert werden kann.
Nicht repräsentativ, aber umfangreiche Auswahl von 1380 aus mehr als 15.000 Wörtern.

Survey period: 01.01.2007-30.06.2008
Sample: 1375 elements
Copyright: © Peter Schlobinski & Oliver Siebold
CorpusId: 113
Download: Download corpus (PDF)

 

SMS-Mitteilungen Hannover

Short description: SMS-Mitteilungen von vorwiegend Schülern und Studenten in Hannover (Schule, Universität, Sportverein). Suchergebnisse und Wortindizes können auf Altersgruppe und/oder Geschlecht eingeschränkt werden.
Nicht repräsentativ, aber umfangreiches Korpus mit 738 Mitteilungen.

Survey period: 01.04.2001-30.09.2001
Sample: 738 elements
Copyright: © Peter Schlobinski et al.
CorpusId: 107
Download: Download corpus (PDF)

 

SMS-Mitteilungen Osnabrück

Short description: SMS-Mitteilungen von vorwiegend Schülern und Studenten in Osnabrück (Mensa, Ratsgymnasium und Carolinum)
Nicht repräsentativ, aber umfangreiches Korpus mit 673 Mitteilungen.

Survey period: 01.01.2000-31.12.2000
Sample: 673 elements
Copyright: © Peter Schlobinski et al.
CorpusId: 106
Download: Download corpus (PDF)

 

Twitter

Short description: Twitter.com ist ein Dienst im Microblogging-Web, mit dem max. 140 Zeichen lange Mitteilungen auf verschiedene Weise (Web, SMS etc.) online gestellt werden können.
Die zwar nicht repräsentative, aber zufallsauswahlbasierte Erhebung umfasst jeweils 320 Einträge von 32 als männlich und 32 als weiblich ausgewiesenen Personen (= 64), die über zufällig ausgewählte Vornamen ausgesucht wurden, zehn Nachrichten pro Person. Mit Beginn der aktuellsten Nachricht (4.5.2009) wurde jede sechste Nachricht ausgewählt.

Survey period: 14.01.2009-04.05.2009
Sample: 640 elements
Copyright: © Torsten Siever & Peter Schlobinski
CorpusId: 119

 

Zeitungsartikel

Short description: Zeitungsartikel (Berichterstattung) von Online-Angeboten der SZ, HAZ und FAZ (sueddeutsche.de, haz.de, faz.net) im Umfang von rund 1500 bis 3000 Zeichen jeweils aus den Rubriken Politik, Wirtschaft, Sport und Feuilleton.
Nicht repräsentative Zusammenstellung von jeweils vier Artikeln pro Zeitung.

Survey period: 13.09.2008-14.09.2008
Sample: 12 elements
Copyright: © Torsten Siever
CorpusId: 112

 

 

Torsten Siever