British National Corpus

Englischer Textkorpus für gesprochene und geschriebene Sprache

Das British National Corpus (BNC) ist ein englisches Textkorpus in Form einer 100 Millionen Wörter umfassenden Sammlung von geschriebener und gesprochener Sprache. Es umfasst eine Vielzahl verschiedener Quellen, um einen repräsentativen Querschnitt durch das Britische Englisch des späten 20. Jahrhunderts für wissenschaftliche Zwecke zur Verfügung stellen zu können.

Merkmale

Bearbeiten

Rund neunzig Prozent des BNC bestehen aus Sprachdaten schriftlicher Sprache, etwa Auszügen aus regionalen und überregionalen Zeitungen, Fachzeitschriften, Zeitschriften aus vielen unterschiedlichen Interessensgebieten, akademischen Büchern, Belletristik (Romane etc.), offiziellen und privaten Briefen, Aufsätzen aus Schule und Universität sowie vielen anderen Textsorten.

Die verbleibenden zehn Prozent sind mündliche Sprachdaten und beinhalten zum Großteil spontansprachliche Aufzeichnungen aus dem Alltag, die von Freiwilligen unterschiedlichen Alters, unterschiedlicher Herkunft und unterschiedlicher sozialer Klasse aufgenommen wurden, um so ein demographisches Gleichgewicht zu erreichen. Die aufgezeichneten Gespräche entstanden in unterschiedlichsten Situationen und reichen von formellen Geschäfts- und Regierungsversammlungen bis hin zu Radiosendungen und Telefongesprächen.

Die Arbeit am BNC begann im Jahre 1991 und dauerte bis 1994. Nach der Fertigstellung des Projektes wurden keine neuen Texte hinzugefügt, dennoch wurde das Textkorpus vor der Veröffentlichung der zweiten Auflage unter der Bezeichnung „BNC World“ leicht überarbeitet. Zwei Sub-Korpora mit Auszügen aus dem BNC wurden veröffentlicht: der BNC Sampler (eine Sammlung von je einer Million Wörter geschriebener und gesprochener Sprache) und BNC Baby (vier Millionen Wörter aus vier unterschiedlichen Textsorten).

Das BNC hat hinsichtlich der Bestimmungskriterien von Textkorpora vier Haupteigenschaften:

  • Es ist einsprachig. Das BNC umfasst modernes Britisches Englisch ohne Daten aus anderen Sprachen, die auf den Britischen Inseln verwendet werden. Dennoch tauchen Wörter nichtbritischer Herkunft im BNC auf.
  • Es ist synchronisch. Das BNC deckt allein das Britische Englisch des späten 20. Jahrhunderts ab. Es ermöglicht keinen Einblick in die historischen Entwicklungen, die es hervorgebracht haben, und keine historischen Vergleiche.
  • Es ist allgemein. Das BNC beinhaltet viele verschiedene Stile und Varietäten und beschränkt sich nicht auf ein spezielles thematisches Gebiet, Genre oder Register.
  • Es beinhaltet Textauszüge (Samples). Für die schriftlichen Quellen wurden 45.000 Wörter aus unterschiedlichen Teilen eines einzigen Textes des jeweiligen Autors entnommen. Kürzere Texte bis zu einem Umfang von 45.000 Wörtern sowie Texte von mehreren Autoren (wie etwa Magazine und Zeitungsartikel) wurden jedoch vollständig in das BNC aufgenommen. Die Aufnahme von Textauszügen ermöglicht eine größere Bandbreite unterschiedlicher Textsorten innerhalb der 100-Millionen-Grenze zu repräsentieren und vermeidet somit eine Überrepräsentation idiosynkratischer Texte.

Siehe auch

Bearbeiten
Bearbeiten