Браунівський корпус

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 22:09, 27 квітня 2022, створена Olha Voronova (обговорення | внесок) (Створено шляхом перекладу сторінки «Brown Corpus»)
Перейти до навігації Перейти до пошуку
Кафедра когнітивної лінгвістики і психологічних наук Браунського університету

Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус ) — це електронна колекція текстів американської англійської мови, перший великий структурований корпус різних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді, це загальномовний корпус, що містить 500 зразків англійської мови загальною кількістю приблизно мільйон слів, укладений з робіт, опублікованих у Сполучених Штатах у 1961 році.

Історія

У 1967 році Кучера і Френсіс опублікували свою класичну роботу «Обчислювальний аналіз сучасної американської англійської мови », яка надала основні статистичні дані про те, що сьогодні відомо просто як Корпус Брауна . [1]

Корпус Брауна представляв собою ретельно зібрану добірку поточної американської англійської мови, що налічує близько мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс піддали його різноманітним обчислювальним аналізам, з яких вони склали багатий і різноманітний опус, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. [2]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів у трьох рядках для свого нового словника американської спадщини . Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був складений з використанням корпусної лінгвістики для частоти слів та іншої інформації.

Початковий Brown Corpus мав лише самі слова, а також ідентифікатор розташування для кожного. Протягом наступних кількох років застосовувалися теги частини мови. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.

Корпус Брауна з тегами використовував вибірку приблизно з 80 частин мови, а також спеціальні індикатори для складених форм, скорочень, іншомовних слів та кількох інших явищ і сформував модель для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена. (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). [3] [4] Позначення корпусу дозволило зробити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. [5]

Один цікавий результат полягає в тому, що навіть для досить великих вибірок графік слів у порядку зменшення частоти зустрічається показує гіперболу : частота n -го найчастішого слова приблизно пропорційна 1/ n . Таким чином, «the» становить майже 7% Корпусу Брауна, «to» і «of» більше ніж ще 3% кожен; в той час як приблизно половина загального словникового запасу, що складає близько 50 000 слів, становить hapax legomena : слова, які зустрічаються лише один раз у корпусі. [6] Цей простий зв’язок між рангом і частотою був відзначений надзвичайною різноманітністю явищ Джорджем Кінгслі Зіпфом (наприклад, див. його «Психобіологія мови ») і відомий як закон Ципфа .

Незважаючи на те, що Корпус Брауна став першим у галузі корпусної лінгвістики, на даний момент типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) мають тенденцію бути набагато більшими, близько 100 мільйонів слів.

Класифікація текстів

Корпус включає 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну на 15 жанрів. Усі відібрані роботи були опубліковані в 1961 році; наскільки можна було визначити, вони вперше були опубліковані тоді й написані носіями американської англійської мови.

Кожен зразок починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.

Початкове введення даних було здійснювалося на перфораційних машинах тільки у великих літерах; великі літери позначалися попередньою зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні коди.

Спочатку корпус (1961) містив 1 014 312 слів із 15 текстових категорій:

  • А. ПРЕСА: Репортаж (44 тексти)
    • Політичний
    • Спорт
    • Суспільство
    • Екстрені новини
    • Фінансовий
    • Культурний
  • B. ПРЕСА: Редакційна стаття (27 текстів)
    • Інституційний щоденник
    • Особисте
    • Листи до редакції
  • C. ПРЕСА: Рецензії (17 текстів)
    • театр
    • книги
    • музика
    • танці
  • D. РЕЛІГІЯ (17 текстів)
    • Книги
    • Періодичні видання
    • Трактати
  • E. НАВИЧКИ ТА ХОБІ (36 текстів)
    • Книги
    • Періодичні видання
  • F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
    • Книги
    • Періодичні видання
  • G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
    • Книги
    • Періодичні видання
  • H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
    • Урядові документи
    • Звіти фонду
    • Галузева звітність
    • Каталог коледжів
    • Галузь внутрішнього органу
  • J. НАУКОВИЙ (80 текстів)
    • Природничі науки
    • Медицина
    • Математика
    • Соціальні та поведінкові науки
    • Політологія, Право, Освіта
    • Гуманітарні науки
    • Технологія та техніка
  • K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
    • Романи
    • Розповіді
  • L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
    • Романи
    • Розповіді
  • M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
    • Романи
    • Розповіді
  • N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
    • Романи
    • Розповіді
  • P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
    • Романи
    • Розповіді
  • R. ГУМОР (9 текстів)
    • Романи
    • Нариси тощо.

Теги на позначення частин мови

Тег Визначення
CC сполучник сурядності (і, або)
CD кількісні числівники (один, два, 2 і т. )
CS сполучник підрядності (якщо, хоча)
EX екзистенційний там
JJ прикметник
JJA прикметник + допоміжне дієслово
JJC прикметник, вища ступінь порівняння
JJCC прикметник + сполучник
JJS прикметник найвищого ступеня порівняння семантичної групи (головний, верхній)
JJF прикметник + жіночий рід
JJM прикметник + чоловічий рід
NN іменник однини або множини
NNA іменник + допоміжне дієслово
NNC іменник + сполучник
NNS іменник + множина
NNP власне ім'я або частина іменної фрази
NNPC власний ім'я + сполучник
PRP особовий займенник, однина
PRPS особовий займенник, множина
PRP$ присвійний займенник
RB прислівник
RBR прислівник у вищій ступені порівняння
RBS прислівник у найвищій ступені порівняння
VB дієслово, інфінітив
VBA дієслово + допоміжне дієслово, однина, теперішній час
VBD дієслово, минулий час
VBG дієслово, дієприкметник теперішнього часу/герундій
VBN дієслово, дієприкметник минулого часу
VBZ дієслово, 3 ос. однини теперішнього часу
FW Іноземні слова
PUN Усі розділові знаки

Див. також

Джерела

  1. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  2. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
  3. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
  4. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  5. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  6. Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.