Браунівський корпус: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][неперевірена версія]
Створено шляхом перекладу сторінки «Brown Corpus»
Мітки: перше редагування суміш розкладок у тексті [вмісту] [вмісту 2»]
 
м Uliana Sasiuk перейменував сторінку з Brown Corpus на Браунівський корпус: Неправильна мова перекладу назви
(Немає відмінностей)

Версія за 21:06, 27 квітня 2022

Кафедра когнітивної лінгвістики та психологічних наук Браунівського університету

Стандартний корпус сучасної американської англійської мови Браунівського університету (або просто Браунівський корпус ) — це електронне зібрання текстових зразків американської англійської мови, перший великий структурований корпус різноманітних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти категорій слів та їх розподілу у повсякденному мовленні. Складений Генрі Кучерою та В. Нельсоном Френсісом з Браунівського університету в Род-Айленді, це загальний мовний(?) корпус, що містить 500 текстових уривків англійською мовою загальною кількістю приблизно мільйон слів, зібраних з робіт, опублікованих у Сполучених Штатах у 1961 році.

Історія

У 1967 році Кучера і Френсіс опублікували свою роботу «Комп'ютерний аналіз сучасної американської англійської мови», яка надала основні статистичні дані про те, що сьогодні відомо просто як Браунівський корпус.[1]

Браунівський корпус представляв собою ретельно складену збірку поточної американської англійської мови, що налічувала близько мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс піддали його різноманітним комп'ютерним аналізам, з яких вони склали багатий і різноманітний опус, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів цієї галузі.[2]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Хоутон-Міфлін звернувся до Кучери, щоб надати трирядкову базу цитат на мільйон слів для нового Словника американської спадщини. Цей новаторський словник, який з’явився у 1969 році, був першим словником, який був складений з використанням корпусної лінгвістики для частоти слів та іншої інформації.

Початковий корпус мав лише самі слова, а також ідентифікатор розташування для кожного з них. Протягом наступних кількох років застосовувалися теги частин мови. Програма додавання тегів Greene and Rubin (див. розмічування частин мови) значно допомогла в цьому, але високий рівень помилок означав, що було потрібно багато ручної коректури.

Розмічений Браунівський корпус використовував вибірку приблизно з 80 частин мови, а також спеціальні індикатори для складених форм, скорочень, іншомовних слів та кількох інших явищ і сформував модель для багатьох пізніших корпусів, таких як корпус Ланкастера-Осло-Бергена (британська англійська початку 1990-х) та корпус Фрайбурга-Брауна американської англійської мови (FROWN) (американська англійська початку 1990-х).[3][4] Розмічення корпусу дозволило робити набагато складніший статистичний аналіз.

Один цікавий результат полягає в тому, що навіть для досить великих вибірок графік слів у порядку зменшення частоти їх появи показує гіперболу: частота n-го найчастішого слова приблизно пропорційна 1/n . Таким чином, артикль «the» становить майже 7% Браунівського корпусу, прийменники «to» і «of» - більше ніж 3% кожен; тим часом як приблизно половина загального словника, який складається з понад 50 000 слів, становлять гапакси (hapax legomenon): слова, які зустрічаються у корпусі лише один раз.[5] Цей простий зв’язок між категорією і частотою був відзначений надзвичайною різноманітністю явищ Джорджем Кінгслі Ципфом (наприклад, див. «Психобіологія мови») і відомий як закон Ципфа .

Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, сучасні типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови) зазвичай є набагато більшими (приблизно 100 мільйонів слів).

Класифікація текстів

Корпус складається з 500 текстів, розподілених у 15 жанрах приблизно пропорційно до кількості текстів, опублікованих в 1961 році в кожному з цих жанрів. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.

Кожен зразок починався з випадкового речення-межі у статті чи іншому вибраному підрозділі й продовжувався до першого речення після 2000 слів. У кількох випадках неправильні підрахунки призвели до того, що вибірки становили трохи менше 2000 слів.

Оригінальне введення даних було зроблено на перфораторах з лише великими літерами; великі літери позначалися попередньою зірочкою, а різні спеціальні елементи, такі як формули, також мали спеціальні коди.

Спочатку корпус (1961) містив 1 014 312 слів із 15 текстових категорій:

  • ПРЕСА: Репортаж (44 тексти)
    • Політичні
    • Спортивні
    • Суспільні
    • Точкові новини
    • Фінансові
    • Культурні
  • ПРЕСА: Редакція (27 текстів)
    • Інституційний щоденник
    • Особисті
    • Листи до редакції
  • ПРЕСА: Рецензії (17 текстів)
    • театр
    • книги
    • музика
    • танці
  • РЕЛІГІЯ (17 текстів)
    • Книги
    • Періодичні видання
    • Трактати
  • НАВИЧКИ ТА ХОБІ (36 текстів)
    • Книги
    • Періодичні видання
  • ПОПУЛЯРНА НАУКА (48 текстів)
    • Книги
    • Періодичні видання
  • БЕЛЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
    • Книги
    • Періодичні видання
  • РІЗНЕ: уряд і органи палати США (30 текстів)
    • Урядові документи
    • Звіти фонду
    • Галузеві звіти
    • Корпоративний каталог
    • Промислові органи палат
  • ВИВЧЕНЕ (80 текстів)
    • Природничі науки
    • Медицина
    • Математика
    • Соціальні та поведінкові науки
    • Політологія, право, освіта
    • Гуманітарні науки
    • Технологія та інженерія
  • ХУДОЖНЯ ЛІТЕРАТУРА: загальне (29 текстів)
    • Романи
    • Оповідання
  • ХУДОЖНЯ ЛІТЕРАТУРА: містика та детектив (24 тексти)
    • Романи
    • Оповідання
  • ХУДОЖНЯ ЛІТЕРАТУРА: наука (6 текстів)
    • Романи
    • Оповідання
  • ХУДОЖНЯ ЛІТЕРАТУРА: пригоди та вестерн (29 текстів)
    • Романи
    • Оповідання
  • ХУДОЖНЯ ЛІТЕРАТУРА: романтика та історії кохання (29 текстів)
    • Романи
    • Оповідання
  • ГУМОР (9 текстів)
    • Романи
    • Нариси тощо.

Теги для частин мови

тег Визначення
CC координаційний сполучник (і, або)
CD кількісний числівник (один, два, 2 і т. )
CS підрядний сполучник (якщо, хоча)
EX квантор існування
JJ прикметник
JJA прикметник + допоміжне дієслово
JJC порівняльний прикметник
JJCC прикметник + сполучник
JJS найвищий ступінь порівняння прикметника
JJF прикметник + жіночий рід
JJM прикметник + чоловічий рід
NN іменник однини або незлічуваний іменник
NNА іменник + допоміжне дієслово
NNC іменник + сполучник
NNS іменник множини
NNP власний іменник або частина імені (де, ла, фон)
NNPC власний іменник + сполучник
PRP особовий займенник, однина
PRPS особовий займенник, множина
PRP$ присвійний займенник
RB прислівник
RBR порівняльний прислівник
RBS вищий ступінь порівняння прислівника
VB дієслово, форма основи (інфінітив без частки to)
VBA дієслово + допоміжне дієслово, однина, теперішній час
VBD дієслово, минулий час
VBG дієслово, дієприкметник теперішнього часу/герундій
VBN дієслово, дієприкметник минулого часу
VBZ дієслово, 3-ї особи однини теперішнього часу
FW іноземні слова
PUN усі розділові знаки

Дивись також

Посилання

  1. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  2. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
  3. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
  4. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  5. Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

Зовнішні посилання