Браунівський корпус

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 22:49, 27 квітня 2022, створена Olha Voronova (обговорення | внесок) (Створено шляхом перекладу сторінки «Brown Corpus»)
Перейти до навігації Перейти до пошуку
Кафедра когнітивної лінгвістики і психологічних наук Браунського університету

Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус ) — це електронне зібрання текстів американської англійської мови, перший великий структурований корпус різних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді, це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно мільйон слів, зібраних з робіт, опублікованих у Сполучених Штатах у 1961 році.

Історія

У 1967 році Кучера і Френсіс опублікували свою класичну роботу «Обчислювальний аналіз сучасної американської англійської мови », яка надала основні статистичні дані про те, що сьогодні відомо просто як Корпус Брауна . [1]

Корпус Брауна представляв собою ретельно зібрану добірку поточної американської англійської мови, що налічує близько мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс піддали його різноманітним обчислювальним аналізам, з яких вони склали багатий і різноманітний опус, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. [2]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів у трьох рядках для свого нового словника американської спадщини . Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був складений з використанням корпусної лінгвістики для частоти слів та іншої інформації.

Початковий Brown Corpus мав лише самі слова, а також ідентифікатор розташування для кожного. Протягом наступних кількох років застосовувалися теги частини мови. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.

Корпус Брауна з тегами використовував вибірку приблизно з 80 частин мови, а також спеціальні індикатори для складених форм, скорочень, іншомовних слів та кількох інших явищ і сформував модель для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена. (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). [3] [4] Позначення корпусу дозволило зробити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. [5]

Один цікавий результат полягає в тому, що навіть для досить великих вибірок графік слів у порядку зменшення частоти зустрічається показує гіперболу : частота n -го найчастішого слова приблизно пропорційна 1/ n . Таким чином, «the» становить майже 7% Корпусу Брауна, «to» і «of» більше ніж ще 3% кожен; в той час як приблизно половина загального словникового запасу, що складає близько 50 000 слів, становить hapax legomena : слова, які зустрічаються лише один раз у корпусі. [6] Цей простий зв’язок між рангом і частотою був відзначений надзвичайною різноманітністю явищ Джорджем Кінгслі Зіпфом (наприклад, див. його «Психобіологія мови ») і відомий як закон Ципфа .

Незважаючи на те, що Корпус Брауна став першим у галузі корпусної лінгвістики, на даний момент типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) мають тенденцію бути набагато більшими, близько 100 мільйонів слів.

Класифікація текстів

Корпус включає 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну на 15 жанрів. Усі відібрані роботи були вперше опубліковані в 1961 роц й написані носіями американської англійської мови.

Кожен зразок починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.

Початкове введення даних було здійснювалося на перфораційних машинах тільки у великих літерах; великі літери позначалися попередньою зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні коди.

Спочатку корпус (1961) містив 1 014 312 слів із 15 текстових категорій:

  • А. ПРЕСА: Репортаж (44 тексти)
    • Політичний
    • Спорт
    • Суспільство
    • Екстрені новини
    • Фінансовий
    • Культурний
  • B. ПРЕСА: Редакційна стаття (27 текстів)
    • Інституційний щоденник
    • Особисте
    • Листи до редакції
  • C. ПРЕСА: Рецензії (17 текстів)
    • театр
    • книги
    • музика
    • танці
  • D. РЕЛІГІЯ (17 текстів)
    • Книги
    • Періодичні видання
    • Трактати
  • E. НАВИЧКИ ТА ХОБІ (36 текстів)
    • Книги
    • Періодичні видання
  • F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
    • Книги
    • Періодичні видання
  • G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
    • Книги
    • Періодичні видання
  • H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
    • Урядові документи
    • Звіти фонду
    • Галузева звітність
    • Корпоративний каталог
    • Галузь внутрішнього органу
  • J. НАУКОВИЙ (80 текстів)
    • Природничі науки
    • Медицина
    • Математика
    • Соціальні та поведінкові науки
    • Політологія, Право, Освіта
    • Гуманітарні науки
    • Технологія та техніка
  • K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
    • Романи
    • Розповіді
  • L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
    • Романи
    • Розповіді
  • M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
    • Романи
    • Розповіді
  • N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
    • Романи
    • Розповіді
  • P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
    • Романи
    • Розповіді
  • R. ГУМОР (9 текстів)
    • Романи
    • Нариси тощо.

Теги на позначення частин мови

Тег Визначення
CC сполучник сурядності (і, або)
CD кількісні числівники (один, два, 2 і т. )
CS сполучник підрядності (якщо, хоча)
EX квантор існування
JJ прикметник
JJA прикметник + допоміжне дієслово
JJC прикметник, вища ступінь порівняння
JJCC прикметник + сполучник
JJS прикметник найвищого ступеня порівняння семантичної групи (головний, верхній)
JJF прикметник + жіночий рід
JJM прикметник + чоловічий рід
NN іменник однини або множини
NNA іменник + допоміжне дієслово
NNC іменник + сполучник
NNS іменник + множина
NNP власне ім'я або частина іменної фрази
NNPC власний ім'я + сполучник
PRP особовий займенник, однина
PRPS особовий займенник, множина
PRP$ присвійний займенник
RB прислівник
RBR прислівник у вищій ступені порівняння
RBS прислівник у найвищій ступені порівняння
VB дієслово, інфінітив
VBA дієслово + допоміжне дієслово, однина, теперішній час
VBD дієслово, минулий час
VBG дієслово, дієприкметник теперішнього часу/герундій
VBN дієслово, дієприкметник минулого часу
VBZ дієслово, 3 ос. однини теперішнього часу
FW іноземні слова
PUN усі розділові знаки

Див. також

Джерела

  1. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  2. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
  3. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
  4. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  5. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  6. Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.