Браунівський корпус: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
м Uliana Sasiuk перейменував сторінку з Brown Corpus на Браунівський корпус: Неправильна мова перекладу назви
BunykBot (обговорення | внесок)
м автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті
 
(Не показані 25 проміжних версій 10 користувачів)
Рядок 1: Рядок 1:
{{Видання
[[Файл:Metcalf_Research_Laboratory_(Brown)_05.jpg|міні| Кафедра когнітивної лінгвістики та психологічних наук [[Браунський університет|Браунівського університету]]]]
|назва = Браунівський корпус
'''Стандартний корпус сучасної американської англійської мови Браунівського університету''' (або просто '''Браунівський корпус''' ) — це електронне зібрання текстових зразків американської англійської мови, перший великий структурований [[Корпус текстів|корпус]] різноманітних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти категорій слів та їх розподілу у повсякденному мовленні. Складений Генрі Кучерою та В. Нельсоном Френсісом з [[Браунський університет|Браунівського університету]] в [[Род-Айленд|Род-Айленді]], це загальний мовний(?) корпус, що містить 500 текстових уривків англійською мовою загальною кількістю приблизно мільйон слів, зібраних з робіт, опублікованих у Сполучених Штатах у 1961 році.
|розмір = ~ 1 млн. слововживань.
|автор = [[W. Nelson Francis|В. Нельсон Франсис]], [[Henry Kučera|Генрі Кучера]]
|Назва мовою оригіналу = Brown Corpus
|країна = [[Сполучені Штати Америки|США]]
|мова = [[Англійська мова|Англійська]] (американський варіант)
|тема = [[Корпус текстів|лінгвістичний корпус]]
|видавець = The Cooperative Research Program of the U.S. Office of Education, [[Brown University]]
|дата публікації = [[1964|1964 р.]] (оригінальна версія)
}}
[[Файл:Metcalf_Research_Laboratory_(Brown)_05.jpg|міні| Кафедра когнітивної лінгвістики і психологічних наук [[Браунський університет|Браунського університету]]]]
'''Стандартизований корпус сучасної американської англійської мови Браунського університету''' (або '''Браунівський корпус''') — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований [[Корпус текстів|корпус]] різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений [[Генрі Кучера|Генрі Кучерою]] та [[В. Нельсон Френсіс|В. Нельсоном Френсісом]] з [[Браунський університет|Браунського університету]] в [[Род-Айленд]]і. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.

Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.<ref>{{Cite web|url=https://varieng.helsinki.fi/CoRD/corpora/BROWN/index.html|title=The Standard Corpus of Present-Day Edited American English (the Brown Corpus)}}</ref>

Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. <ref>{{Cite web|url=http://icame.uib.no/brown/bcm.html|title=Manual of Information to accompany A Standard Corpus of Present-Day Edited American English|last=Francis, W. N. and H. Kučera|date=1964|publisher=Rhode Island: Department of Linguistics, Brown University|accessdate=27 квітня 2022|archive-date=18 травня 2014|archive-url=https://web.archive.org/web/20140518135250/http://icame.uib.no/brown/bcm.html}}</ref>)


== Історія ==
== Історія ==
У 1967 році Кучера і Френсіс опублікували свою роботу ''«Комп'ютерний аналіз сучасної американської англійської мови''», яка надала основні статистичні дані про те, що сьогодні відомо просто як ''Браунівський корпус''.<ref>Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.</ref>
У 1967 році Кучера і Френсіс оприлюднили свою знакову працю ''«Обчислювальний аналіз сучасної американської англійської мови''», яка стала майбутньою статистичною базою для створення Браунівського корпусу. <ref>Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.</ref>


Браунівський корпус представляв собою ретельно складену збірку поточної американської англійської мови, що налічувала близько мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс піддали його різноманітним комп'ютерним аналізам, з яких вони склали багатий і різноманітний опус, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в [[Математична лінгвістика|комп’ютерній лінгвістиці]] і протягом багатьох років був одним з найбільш цитованих ресурсів цієї галузі.<ref>Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.</ref>
Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в [[Математична лінгвістика|комп’ютерній лінгвістиці]] і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. <ref>Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html {{Webarchive|url=https://web.archive.org/web/20140518135250/http://icame.uib.no/brown/bcm.html |date=18 травня 2014 }}.</ref>


Невдовзі після публікації першого лексикостатистичного аналізу [[Бостон|бостонський]] видавець Хоутон-Міфлін звернувся до Кучери, щоб надати трирядкову базу цитат на мільйон слів для нового ''Словника американської спадщини''. Цей новаторський словник, який з’явився у 1969 році, був першим словником, який був складений з використанням корпусної лінгвістики для частоти слів та іншої інформації.
Невдовзі після публікації першого лексикостатистичного аналізу [[Бостон|бостонський]] видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового {{iw|Словник Американської Спадщини|«Словника Американської Спадщини»|en|The American Heritage Dictionary of the English Language}}. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.


Початковий корпус мав лише самі слова, а також ідентифікатор розташування для кожного з них. Протягом наступних кількох років застосовувалися теги частин мови. Програма додавання тегів Greene and Rubin (див. [[розмічування частин мови]]) значно допомогла в цьому, але високий рівень помилок означав, що було потрібно багато ручної коректури.
На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. [[Розмічування частин мови|розділ «Позначення тегів у мові»]] ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.


Розмічений Браунівський корпус використовував вибірку приблизно з 80 [[Частини мови|частин мови]], а також спеціальні індикатори для складених форм, скорочень, іншомовних слів та кількох інших явищ і сформував модель для багатьох пізніших корпусів, таких як [[Корпус Ланкастер-Осло-Берген|корпус Ланкастера-Осло-Бергена]] (британська англійська початку 1990-х) та корпус Фрайбурга-Брауна американської англійської мови (FROWN) (американська англійська початку 1990-х).<ref>Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM</ref><ref>Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ''ICAME Journal'' 29. 83–98.</ref> Розмічення корпусу дозволило робити набагато складніший статистичний аналіз.
Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як [[Корпус Ланкастер-Осло-Берген|Корпус Ланкастера-Осло-Бергена]] (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). <ref>Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM {{Webarchive|url=https://web.archive.org/web/20140403144030/http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM |date=3 квітня 2014 }}</ref> <ref>Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ''ICAME Journal'' 29. 83–98.</ref> Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. <ref>Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.</ref>


Один цікавий результат полягає в тому, що навіть для досить великих вибірок графік слів у порядку зменшення частоти їх появи показує [[Гіпербола (математика)|гіперболу]]: частота ''n''-го найчастішого слова приблизно пропорційна 1/''n'' . Таким чином, артикль «the» становить майже 7% Браунівського корпусу, прийменники «to» і «of» - більше ніж 3% кожен; тим часом як приблизно половина загального словника, який складається з понад 50 000 слів, становлять ''[[Гапакс|гапакси (hapax legomenon)]]'': слова, які зустрічаються у корпусі лише один раз.<ref>Kirsten Malmkjær, ''[https://books.google.com/books?id=IG7tE4-p-uUC The Linguistics Encyclopedia]'', 2nd ed, Routledge, 2002, {{ISBN|0-415-22210-9}}, p. 87.</ref> Цей простий зв’язок між категорією і частотою був відзначений надзвичайною різноманітністю явищ [[Джордж Ципф|Джорджем Кінгслі Ципфом]] (наприклад, див. ''«Психобіологія мови''») і відомий як [[закон Ципфа]] .
Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює [[Гіпербола (математика)|гіперболу]]: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить ''[[Гапакс|hapax legomena]]'': слова, які зустрічаються лише один раз у корпусі. <ref>Kirsten Malmkjær, ''[https://books.google.com/books?id=IG7tE4-p-uUC The Linguistics Encyclopedia] {{Webarchive|url=https://web.archive.org/web/20220211194938/https://books.google.com/books?id=IG7tE4-p-uUC |date=11 лютого 2022 }}'', 2nd ed, Routledge, 2002, {{ISBN|0-415-22210-9}}, p. 87.</ref> Це відношення порядку та частотності досліджувалося [[Джордж Ципф|Джорджем Кінгслі Зіпфом]] (наприклад, див. ''«Психобіологія мови''») і відоме як [[закон Ципфа]] .


Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, сучасні типові корпуси (наприклад, [[Корпус сучасної американської англійської мови]], [[Британський національний корпус]] або [[Міжнародний корпус вивчення англійської мови|Міжнародний корпус англійської мови]]) зазвичай є набагато більшими (приблизно 100 мільйонів слів).
Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, [[Корпус сучасної американської англійської мови]], [[Британський національний корпус]] або [[Міжнародний корпус вивчення англійської мови|Міжнародний корпус англійської мови]] ) зазвичай є набагато більшими - близько 100 мільйонів слів.


== Класифікація текстів ==
== Класифікація текстів ==
[[Файл:Figure1 brown.gif|міні|Розподіл текстів у Браунівському корпусі за тематикою]]
Корпус складається з 500 текстів, розподілених у 15 жанрах приблизно пропорційно до кількості текстів, опублікованих в 1961 році в кожному з цих жанрів. Усі відібрані роботи були ''вперше'' опубліковані в 1961 році й написані носіями американської англійської мови.
Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були ''вперше'' опубліковані в 1961 році й написані носіями американської англійської мови.


Кожен зразок починався з випадкового речення-межі у статті чи іншому вибраному підрозділі й продовжувався до першого речення після 2000 слів. У кількох випадках неправильні підрахунки призвели до того, що вибірки становили трохи менше 2000 слів.
Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.


Оригінальне введення даних було зроблено на [[Перфоратор (ЕОМ)|перфораторах]] з лише великими літерами; великі літери позначалися попередньою зірочкою, а різні спеціальні елементи, такі як формули, також мали спеціальні коди.
Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.


Спочатку корпус (1961) містив 1 014 312 слів із 15 текстових категорій:
Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:


* ПРЕСА: Репортаж (''44 тексти'')
* А. ПРЕСА: Репортаж (''44 тексти'')
** Політичний
** Політичні
** Спорт
** Спортивні
** Суспільство
** Суспільні
** Точкові новини
** Екстрені новини
** Фінансовий
** Фінансові
** Культурний
** Культурні
* ПРЕСА: Редакція (''27 текстів'')
* B. ПРЕСА: Редакційна стаття (''27 текстів'')
** Інституційний щоденник
** Інституційний щоденник
** Особисте
** Особисті
** Листи до редакції
** Листи до редакції
* ПРЕСА: Рецензії (''17 текстів'')
* C. ПРЕСА: Рецензії (''17 текстів'')
** театр
** ''театр''
** книги
** ''книги''
** музика
** ''музика''
** танці
** ''танці''
* РЕЛІГІЯ (''17 текстів'')
* D. РЕЛІГІЯ (1''7 текстів'')
** Книги
** Книги
** Періодичні видання
** Періодичні видання
** Трактати
** Трактати
* НАВИЧКИ ТА ХОБІ (''36 текстів'')
* E. НАВИЧКИ ТА ХОБІ (''36 текстів'')
** Книги
** Книги
** Періодичні видання
** Періодичні видання
* ПОПУЛЯРНА НАУКА (''48 текстів'')
* F. НАРОДНІ ПЕРЕКАЗИ (''48 текстів'')
** Книги
** Книги
** Періодичні видання
** Періодичні видання
* БЕЛЛЕТРИСТИКА - Біографія, мемуари тощо (''75 текстів'')
* G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (''75 текстів'')
** Книги
** Книги
** Періодичні видання
** Періодичні видання
* РІЗНЕ: уряд і органи палати США (''30 текстів'')
* H. ІНШЕ: Уряд і внутрішні органи США (''30 текстів'')
** Урядові документи
** Урядові документи
** Звіти фонду
** Звіти фонду
** Галузева звітність
** Галузеві звіти
** Корпоративний каталог
** Корпоративний каталог
** Галузь внутрішнього органу
** Промислові органи палат
* ВИВЧЕНЕ (''80 текстів'')
* J. НАУКОВИЙ (''80 текстів'')
** Природничі науки
** Природничі науки
** Медицина
** Медицина
** Математика
** Математика
** Соціальні та поведінкові науки
** Соціальні та поведінкові науки
** Політологія, право, освіта
** Політологія, Право, Освіта
** Гуманітарні науки
** Гуманітарні науки
** Технологія та інженерія
** Технологія та техніка
* ХУДОЖНЯ ЛІТЕРАТУРА: загальне (''29 текстів'')
* K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (''29 текстів'')
** Романи
** Романи
** Розповіді
** Оповідання
* ХУДОЖНЯ ЛІТЕРАТУРА: містика та детектив (''24 тексти'')
* L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (''24 тексти'')
** Романи
** Романи
** Розповіді
** Оповідання
* ХУДОЖНЯ ЛІТЕРАТУРА: наука (''6 текстів'')
* M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (''6 текстів'')
** Романи
** Романи
** Розповіді
** Оповідання
* ХУДОЖНЯ ЛІТЕРАТУРА: пригоди та вестерн (''29 текстів'')
* N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (''29 текстів'')
** Романи
** Романи
** Розповіді
** Оповідання
* ХУДОЖНЯ ЛІТЕРАТУРА: романтика та історії кохання (''29 текстів'')
* P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (''29 текстів'')
** Романи
** Романи
** Розповіді
** Оповідання
* ГУМОР (''9 текстів'')
* R. ГУМОР (''9 текстів'')
** Романи
** Романи
** Нариси тощо.
** Нариси тощо.


== Теги для частин мови ==
== Теги на позначення граматичних категорій ==
{| class="wikitable"
{| class="wikitable"
!Тег
!тег
! Визначення
! Визначення
|-
|-
| CC
| CC
| координаційний сполучник (і, або)
| сполучник сурядності (and, or)
|-
|-
| CD
|CD
| кількісні числівники (one, two і т.д.)
| кількісний числівник (один, два, 2 і т. )
|-
|-
| CS
| CS
| підрядний сполучник (якщо, хоча)
| сполучник підрядності (if, although)
|-
|-
| EX
|EX
| квантор існування
| квантор існування ('''there''' is/are ...)
|-
|-
| JJ
| JJ
Рядок 109: Рядок 125:
|-
|-
| JJA
| JJA
| прикметник + допоміжне дієслово
| прикметник + допоміжне слово
|-
|-
| JJC
| JJC
| порівняльний прикметник
| прикметник, вища ступінь порівняння
|-
|-
| JJCC
| JJCC
Рядок 118: Рядок 134:
|-
|-
| JJS
| JJS
| прикметник найвищого ступеня порівняння
| найвищий ступінь порівняння прикметника
|-
|-
| JJF
| JJF
Рядок 127: Рядок 143:
|-
|-
| NN
| NN
| іменник однини або незлічуваний іменник
| іменник однини або множини
|-
|-
|NNA
| NNА
| іменник + допоміжне дієслово
| іменник + допоміжне слово
|-
|-
| NNC
| NNC
Рядок 136: Рядок 152:
|-
|-
| NNS
| NNS
| іменник множини
| іменник + множина
|-
|-
| NNP
|NNP
| власний іменник або частина імені (де, ла, фон)
| власне ім'я або частина іменної фрази
|-
|-
| NNPC
| NNPC
| власний іменник + сполучник
| власний ім'я + сполучник
|-
|-
| PRP
| PRP
| особовий займенник, однина
| особовий займенник, однина
|-
|-
| PRPS
|PRPS
| особовий займенник, множина
| особовий займенник, множина
|-
|-
Рядок 153: Рядок 169:
| присвійний займенник
| присвійний займенник
|-
|-
| RB
|RB
| прислівник
| прислівник
|-
|-
| RBR
| RBR
| порівняльний прислівник
| прислівник у вищій ступені порівняння
|-
|-
| RBS
| RBS
| прислівник у найвищій ступені порівняння
| вищий ступінь порівняння прислівника
|-
|-
| VB
|VB
| дієслово, форма основи (інфінітив без частки to)
| дієслово, інфінітив
|-
|-
| VBA
| VBA
Рядок 174: Рядок 190:
| дієслово, дієприкметник теперішнього часу/герундій
| дієслово, дієприкметник теперішнього часу/герундій
|-
|-
| VBN
|VBN
| дієслово, дієприкметник минулого часу
| дієслово, дієприкметник минулого часу
|-
|-
| VBZ
| VBZ
| дієслово, 3 особи однини теперішнього часу
| дієслово, 3 ос. однини теперішнього часу
|-
|-
| FW
| FW
| іноземні слова
| іноземні слова
|-
|-
| PUN
|PUN
| усі розділові знаки
| усі розділові знаки
|}
|}


== Дивись також ==
== Схожі проєкти ==
Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.


[https://github.com/brown-uk/corpus Браунський корпус української мови] — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.
* [[LOB Corpus]], корпус британської англійської мови, заснований на тих же параметрах, що й Браунівський корпус
* [[Британський національний корпус]]


=== Суміжні проєкти ===
== Посилання ==
The Lancaster-Oslo/Bergen Corpus (LOB Corpus)


The Kolhapur Corpus of Indian English
# {{Reflist}}


The Australian Corpus of English (ACE)
== Зовнішні посилання ==

The Wellington Corpus of Written New Zealand English

The Freiburg-LOB Corpus of British English (FLOB)

The Freiburg-Brown Corpus of American English (FROWN)

The International Corpus of English (ICE)

== Див. також ==

* [[Британський національний корпус]]


== Джерела ==
* [http://clu.uni.no/icame/manuals/ Посібник Brown Corpus]
{{Reflist}}
* [http://www.nltk.org/nltk_data/ Завантажте Brown Corpus]
* [https://the.sketchengine.co.uk/open/ Здійснюйте пошук за допомогою Sketch Engine у Браунівському корпусі анотованим TreeTagger v2]
* [https://web.archive.org/web/20080706074336/http://www.scs.leeds.ac.uk/ccalas/tagsets/brown.html Детальніше про тег Brown Corpus]
* [http://www.nltk.org/ Програмне забезпечення Python для зручного доступу до Браунівського корпусу]
* [http://phpir.com/part-of-speech-tagging PHP (розмітка частин мови)]
[[Категорія:Твори 1961]]
[[Категорія:Твори 1961]]
[[Категорія:Прикладна лінгвістика]]
[[Категорія:Прикладна лінгвістика]]
[[Категорія:Корпусна лінгвістика]]

Поточна версія на 22:49, 4 травня 2024

«Браунівський корпус»
АвторВ. Нельсон Франсис, Генрі Кучера
Назва мовою оригіналуBrown Corpus
КраїнаСША
МоваАнглійська (американський варіант)
Темалінгвістичний корпус
ВидавництвоThe Cooperative Research Program of the U.S. Office of Education, Brown University
Видано1964 р. (оригінальна версія)
Кафедра когнітивної лінгвістики і психологічних наук Браунського університету

Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований корпус різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.

Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.[1]

Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. [2])

Історія

[ред. | ред. код]

У 1967 році Кучера і Френсіс оприлюднили свою знакову працю «Обчислювальний аналіз сучасної американської англійської мови», яка стала майбутньою статистичною базою для створення Браунівського корпусу. [3]

Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. [4]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового «Словника Американської Спадщини»[en]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.

На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.

Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). [5] [6] Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. [7]

Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює гіперболу: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить hapax legomena: слова, які зустрічаються лише один раз у корпусі. [8] Це відношення порядку та частотності досліджувалося Джорджем Кінгслі Зіпфом (наприклад, див. «Психобіологія мови») і відоме як закон Ципфа .

Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) зазвичай є набагато більшими - близько 100 мільйонів слів.

Класифікація текстів

[ред. | ред. код]
Розподіл текстів у Браунівському корпусі за тематикою

Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.

Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.

Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.

Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:

  • А. ПРЕСА: Репортаж (44 тексти)
    • Політичний
    • Спорт
    • Суспільство
    • Екстрені новини
    • Фінансовий
    • Культурний
  • B. ПРЕСА: Редакційна стаття (27 текстів)
    • Інституційний щоденник
    • Особисте
    • Листи до редакції
  • C. ПРЕСА: Рецензії (17 текстів)
    • театр
    • книги
    • музика
    • танці
  • D. РЕЛІГІЯ (17 текстів)
    • Книги
    • Періодичні видання
    • Трактати
  • E. НАВИЧКИ ТА ХОБІ (36 текстів)
    • Книги
    • Періодичні видання
  • F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
    • Книги
    • Періодичні видання
  • G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
    • Книги
    • Періодичні видання
  • H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
    • Урядові документи
    • Звіти фонду
    • Галузева звітність
    • Корпоративний каталог
    • Галузь внутрішнього органу
  • J. НАУКОВИЙ (80 текстів)
    • Природничі науки
    • Медицина
    • Математика
    • Соціальні та поведінкові науки
    • Політологія, Право, Освіта
    • Гуманітарні науки
    • Технологія та техніка
  • K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
    • Романи
    • Розповіді
  • L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
    • Романи
    • Розповіді
  • M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
    • Романи
    • Розповіді
  • N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
    • Романи
    • Розповіді
  • P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
    • Романи
    • Розповіді
  • R. ГУМОР (9 текстів)
    • Романи
    • Нариси тощо.

Теги на позначення граматичних категорій

[ред. | ред. код]
Тег Визначення
CC сполучник сурядності (and, or)
CD кількісні числівники (one, two і т.д.)
CS сполучник підрядності (if, although)
EX квантор існування (there is/are ...)
JJ прикметник
JJA прикметник + допоміжне слово
JJC прикметник, вища ступінь порівняння
JJCC прикметник + сполучник
JJS прикметник найвищого ступеня порівняння
JJF прикметник + жіночий рід
JJM прикметник + чоловічий рід
NN іменник однини або множини
NNA іменник + допоміжне слово
NNC іменник + сполучник
NNS іменник + множина
NNP власне ім'я або частина іменної фрази
NNPC власний ім'я + сполучник
PRP особовий займенник, однина
PRPS особовий займенник, множина
PRP$ присвійний займенник
RB прислівник
RBR прислівник у вищій ступені порівняння
RBS прислівник у найвищій ступені порівняння
VB дієслово, інфінітив
VBA дієслово + допоміжне дієслово, однина, теперішній час
VBD дієслово, минулий час
VBG дієслово, дієприкметник теперішнього часу/герундій
VBN дієслово, дієприкметник минулого часу
VBZ дієслово, 3 ос. однини теперішнього часу
FW іноземні слова
PUN усі розділові знаки

Схожі проєкти

[ред. | ред. код]

Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.

Браунський корпус української мови — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.

Суміжні проєкти

[ред. | ред. код]

The Lancaster-Oslo/Bergen Corpus (LOB Corpus)

The Kolhapur Corpus of Indian English

The Australian Corpus of English (ACE)

The Wellington Corpus of Written New Zealand English

The Freiburg-LOB Corpus of British English (FLOB)

The Freiburg-Brown Corpus of American English (FROWN)

The International Corpus of English (ICE)

Див. також

[ред. | ред. код]

Джерела

[ред. | ред. код]
  1. The Standard Corpus of Present-Day Edited American English (the Brown Corpus).
  2. Francis, W. N. and H. Kučera (1964). Manual of Information to accompany A Standard Corpus of Present-Day Edited American English. Rhode Island: Department of Linguistics, Brown University. Архів оригіналу за 18 травня 2014. Процитовано 27 квітня 2022.
  3. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  4. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html [Архівовано 18 травня 2014 у Wayback Machine.].
  5. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM [Архівовано 3 квітня 2014 у Wayback Machine.]
  6. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  7. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  8. Kirsten Malmkjær, The Linguistics Encyclopedia [Архівовано 11 лютого 2022 у Wayback Machine.], 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.