Corpora

Corpora: Overview

The corpus area on mediensprache.net contains different corpora that are listed below. Please note: You have to log-in for an access of the databases.

Alpenpanorama D/A/CH/I

Short description: Im Alpenpanorama auf 3sat präsentieren sich Alpenferienorte und -regionen mit Echtzeitbildern (Kamera), Wetterinformationen sowie mit max. zweizeiligen Werbetexten (Ortsinformationen, Veranstaltungen, Aktionen)
Repräsentativ für das ganzjährige Alpenpanorama; die Datenerhebung erfolgte (wg. geringer, vor allem saisonalen Änderungen) alle zwei Monate jeweils am 29. (29.11.2002, 29.01./03./05./07./09.2003).
Survey period: 11/29/2002-9/29/2003
Sample: 681
Copyright: © Torsten Siever

Bons (Artikelbezeichnungen)

Short description: Das Korpus beinhaltet Artikelbezeichnungen auf Belegen/Bons, die aufgrund der Raumbeschränkung zumeist gekürzt werden müssen.
Nicht repräsentativ aufgrund fehlender Randomisierung und Auswahl von Einträgen (keine ungekürzten).
Survey period: 1/1/2002-12/31/2005
Sample: 271
Copyright: © Torsten Siever

Chatbot (Max)

Short description: Chatprotokoll des Chatbots namens Max am Heinz-Nixdorf-MuseumsForum, Paderborn. Suchergebnisse und Wortindizes können auf Turns von System/User beschränkt werden.
Vollkorpus
Survey period: 1/1/2003-8/1/2006
Sample: 79906
Copyright: © Ipke Wachsmuth

Fahrgastfernsehen der X-CITY MEDIEN, Hannover

Short description: Das Fahrgastfernsehen der X-CITY MEDIEN ist in hannoverschen Stadtbahnen und U-Bahn-Stationen zu sehen und beinhaltet redaktionelle Beiträge zu aktuellen, vor allem regionalen Themen. Werbeeinblendungen sind hier nicht aufgenommen worden.
Repräsentativ für das Fahrgastfernsehen in Hannover; zum Zeitpunkt der Erhebung überregional für Norddeutschland. Erhebung: ein Quartal lang an jedem zweiten Tag jede zweite Meldung.
Survey period: 5/15/2005-8/15/2005
Sample: 789
Copyright: © Torsten Siever

Inflektive (Micky Mouse, 1951–1964)

Short description: Inflektivbelege in frühen Micky-Mouse-Heften (1951–1964) mit Angabe von Erstbelegstatus; dazu sind die Geschehnisse im Bild parallel zum Beleg ausgewiesen.
Vollkorpus
Survey period: 1/1/1951-12/31/1964
Sample: 1712
Copyright: © Peter Schlobinski
Download: Download corpus (PDF)

Kleinanzeigen der deutschen Tagespresse (1955)

Short description: Kleinanzeigen aus dem Jahr 1955 aus der Süddeutschen Zeitung, der Frankfurter Allgemeinen Zeitung sowie der Hannoverschen Allgemeinen Zeitung. Beschränkt wurde die Erhebung auf Kleinanzeigen der Rubrik "Verschiedenes", d.h. Anzeigen für Immobilien, Bekanntschaften oder den Automarkt wurden nicht berücksichtigt.
Repräsentativ für unspezifische Kleinanzeigen der Rubrik "Verschiedenes" deutscher Tageszeitungen aus dem Jahr 1955. Erhebung: ein Quartal lang an jedem Samstag 20 Anzeigen (Auswahl: von y Anzeigen jede x. bei x=y/20).
Survey period: 5/14/1955-8/13/1955
Sample: 675
Copyright: © Torsten Siever

Kleinanzeigen der deutschen Tagespresse (2005)

Short description: Unspezifische Kleinanzeigen aus der Süddeutschen Zeitung, der Frankfurter Allgemeinen Zeitung sowie der Hannoverschen Allgemeinen Zeitung. Beschränkt wurde die Erhebung auf Kleinanzeigen der Rubrik "Verschiedenes", d.h. Anzeigen für Immobilien, Bekanntschaften oder den Automarkt wurden nicht berücksichtigt.
Repräsentativ für unspezifische Kleinanzeigen der Rubrik "Verschiedenes" deutscher Tageszeitungen. Erhebung: ein Quartal lang an jedem Samstag 20 Anzeigen (Auswahl: von y Anzeigen jede x. bei x=y/20).
Survey period: 5/15/2005-8/15/2005
Sample: 771
Copyright: © Torsten Siever

Nachrichtenticker EinsExtra (ARD digital)

Short description: Nachrichtenticker des digitalen Info-Kanals EinsExtra (ARD). Die Kurznachrichten werden eingeblendet im linken Bildschirmrand im Rahmen eines Split-Screens, während im Hauptbereich (oben rechts) das reguläre Programm läuft.
Repräsentativ für den Nachrichtenticker auf ARD digital (die Erhebung erfolgte alle zwei Tage innerhalb des Zeitraums von vier Wochen).
Survey period: 2/15/2006-3/15/2006
Sample: 161
Copyright: © Torsten Siever

Nicknamen

Short description: Knapp 6.000 Nicknamen aus dem Internationalen Nicknamen-Projekt, an dem sich 14 Sprach-Teams beteiligt haben (im Regelfall 500 Nicknamen pro Sprache). Aus Datenschutzgründen (DSGVO und NDSG) können wir leider keine Realnamen mehr ausgeben, die der Entschlüsselung der Nicknamen dienen können.
Nicht durchgängig repräsentativ
Survey period: 2/22/2016-10/16/2016
Sample: 5800
Copyright: © François Conrad, Rute Isabel Fernandes Soares, Mário Franco, Viktoria Kaziaba, Ho Jin Kim, Netaya Lotze, Sandro Moraldo, Michaela Oberwinkler, Anita Pintaric, Peter Schlobinski, Oliver Siebold, Christina Siever, Torsten Siever, Naima Tahiri, Jia Zhu, Yao Zhang
Request: Get access (researchers only!)

Schülerbriefe (Handzettel)

Short description: Zettel unterschiedlicher Größe und Form, die vornehmlich während des Unterrichts verfasst, zusammengefaltet und weitergereicht werden.
Nicht repräsentativ (gesammelte Briefe einer Schülerin in der Region Hannover).
Survey period: 1/1/1995-12/31/2004
Sample: 190
Copyright: © Torsten Siever

Science-Fiction-Wörter

Short description: Die Wörter entstammen Science-Fiction-Literatur. Die Auswahl der zugrunde liegenden Texte repräsentiert einen breiten Querschnitt des Genres. Frühe Autoren wie Jules Verne, H.G. Wells oder Hugo Gernsback sind ebenso vertreten wie aktuelle Vertreter der Science-Fiction, etwa Charles Stross, Justina Robson, Alastair Reynolds oder Adam Roberts. Als Lemmata für die Einträge unseres Lexikons haben wir in erster Linie solche Wörter ausgewählt, die für den jeweiligen Quellentext besonders wichtig oder aussagekräftig sind, genretypische Motive benennen oder charakteristischen Wortbildungsmustern des Genres folgen, darüber hinaus aber auch Wörter, die den Einfallsreichtum von Science-Fiction-Autoren in seiner ganzen Breite anschaulich werden lassen. Viele Einträge enthalten weitere, auf die Lemmata bezogene Neubildungen, so dass insgesamt eine breite Materialbasis präsentiert werden kann.
Nicht repräsentativ, aber umfangreiche Auswahl von 1380 aus mehr als 15.000 Wörtern.
Survey period: 1/1/2007-6/30/2008
Sample: 1375
Copyright: © Peter Schlobinski & Oliver Siebold
Download: Download corpus (PDF)

SMS-Mitteilungen Hannover

Short description: SMS-Mitteilungen von vorwiegend Schülern und Studenten in Hannover (Schule, Universität, Sportverein). Suchergebnisse und Wortindizes können auf Altersgruppe und/oder Geschlecht eingeschränkt werden.
Nicht repräsentativ, aber umfangreiches Korpus mit 738 Mitteilungen.
Survey period: 4/1/2001-9/30/2001
Sample: 738
Copyright: © Peter Schlobinski et al.
Download: Download corpus (PDF)

SMS-Mitteilungen Osnabrück

Short description: SMS-Mitteilungen von vorwiegend Schülern und Studenten in Osnabrück (Mensa, Ratsgymnasium und Carolinum)
Nicht repräsentativ, aber umfangreiches Korpus mit 673 Mitteilungen.
Survey period: 1/1/2000-12/31/2000
Sample: 673
Copyright: © Peter Schlobinski et al.
Download: Download corpus (PDF)

Twitter

Short description: Twitter.com ist ein Dienst im Microblogging-Web, mit dem max. 140 Zeichen lange Mitteilungen auf verschiedene Weise (Web, SMS etc.) online gestellt werden können.
Die zwar nicht repräsentative, aber zufallsauswahlbasierte Erhebung umfasst jeweils 320 Einträge von 32 als männlich und 32 als weiblich ausgewiesenen Personen (= 64), die über zufällig ausgewählte Vornamen ausgesucht wurden, zehn Nachrichten pro Person. Mit Beginn der aktuellsten Nachricht (4.5.2009) wurde jede sechste Nachricht ausgewählt.
Survey period: 1/14/2009-5/4/2009
Sample: 640
Copyright: © Torsten Siever & Peter Schlobinski

Zeitungsartikel

Short description: Zeitungsartikel (Berichterstattung) von Online-Angeboten der SZ, HAZ und FAZ (sueddeutsche.de, haz.de, faz.net) im Umfang von rund 1500 bis 3000 Zeichen jeweils aus den Rubriken Politik, Wirtschaft, Sport und Feuilleton.
Nicht repräsentative Zusammenstellung von jeweils vier Artikeln pro Zeitung.
Survey period: 9/13/2008-9/14/2008
Sample: 12
Copyright: © Torsten Siever

Your Opinion

Comments belonging to this Page

Bewerten Sie die Seite per Klick! created: 3/30/2013 by si updated: 26.11.2017