Браунівський корпус: відмінності між версіями

«Браунівський корпус»
Автор	В. Нельсон Франсис, Генрі Кучера
Назва мовою оригіналу	Brown Corpus
Країна	США
Мова	Англійська (американський варіант)
Тема	лінгвістичний корпус
Видавництво	The Cooperative Research Program of the U.S. Office of Education, Brown University
Видано	1964 р. (оригінальна версія)

Інтерактивний перегляд історії

[неперевірена версія]

← Попереднє редагування

Вилучено вміст Додано вміст

ВізуальнийВікірозмітка

Лінійно

Поточна версія на 22:49, 4 травня 2024

Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований корпус різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.

Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.^[1]

Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. ^[2])

Історія

У 1967 році Кучера і Френсіс оприлюднили свою знакову працю «Обчислювальний аналіз сучасної американської англійської мови», яка стала майбутньою статистичною базою для створення Браунівського корпусу. ^[3]

Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. ^[4]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового «Словника Американської Спадщини»^[en]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.

На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.

Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). ^[5] ^[6] Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. ^[7]

Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює гіперболу: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить hapax legomena: слова, які зустрічаються лише один раз у корпусі. ^[8] Це відношення порядку та частотності досліджувалося Джорджем Кінгслі Зіпфом (наприклад, див. «Психобіологія мови») і відоме як закон Ципфа .

Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) зазвичай є набагато більшими - близько 100 мільйонів слів.

Класифікація текстів

Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.

Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.

Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.

Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:

А. ПРЕСА: Репортаж (44 тексти)
- Політичний
- Спорт
- Суспільство
- Екстрені новини
- Фінансовий
- Культурний
B. ПРЕСА: Редакційна стаття (27 текстів)
- Інституційний щоденник
- Особисте
- Листи до редакції
C. ПРЕСА: Рецензії (17 текстів)
- театр
- книги
- музика
- танці
D. РЕЛІГІЯ (17 текстів)
- Книги
- Періодичні видання
- Трактати
E. НАВИЧКИ ТА ХОБІ (36 текстів)
- Книги
- Періодичні видання
F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
- Книги
- Періодичні видання
G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
- Книги
- Періодичні видання
H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
- Урядові документи
- Звіти фонду
- Галузева звітність
- Корпоративний каталог
- Галузь внутрішнього органу
J. НАУКОВИЙ (80 текстів)
- Природничі науки
- Медицина
- Математика
- Соціальні та поведінкові науки
- Політологія, Право, Освіта
- Гуманітарні науки
- Технологія та техніка
K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
- Романи
- Розповіді
L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
- Романи
- Розповіді
M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
- Романи
- Розповіді
N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
- Романи
- Розповіді
P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
- Романи
- Розповіді
R. ГУМОР (9 текстів)
- Романи
- Нариси тощо.

Теги на позначення граматичних категорій

Тег	Визначення
CC	сполучник сурядності (and, or)
CD	кількісні числівники (one, two і т.д.)
CS	сполучник підрядності (if, although)
EX	квантор існування (there is/are ...)
JJ	прикметник
JJA	прикметник + допоміжне слово
JJC	прикметник, вища ступінь порівняння
JJCC	прикметник + сполучник
JJS	прикметник найвищого ступеня порівняння
JJF	прикметник + жіночий рід
JJM	прикметник + чоловічий рід
NN	іменник однини або множини
NNA	іменник + допоміжне слово
NNC	іменник + сполучник
NNS	іменник + множина
NNP	власне ім'я або частина іменної фрази
NNPC	власний ім'я + сполучник
PRP	особовий займенник, однина
PRPS	особовий займенник, множина
PRP$	присвійний займенник
RB	прислівник
RBR	прислівник у вищій ступені порівняння
RBS	прислівник у найвищій ступені порівняння
VB	дієслово, інфінітив
VBA	дієслово + допоміжне дієслово, однина, теперішній час
VBD	дієслово, минулий час
VBG	дієслово, дієприкметник теперішнього часу/герундій
VBN	дієслово, дієприкметник минулого часу
VBZ	дієслово, 3 ос. однини теперішнього часу
FW	іноземні слова
PUN	усі розділові знаки

Схожі проєкти

Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.

Браунський корпус української мови — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.

Суміжні проєкти

The Lancaster-Oslo/Bergen Corpus (LOB Corpus)

The Kolhapur Corpus of Indian English

The Australian Corpus of English (ACE)

The Wellington Corpus of Written New Zealand English

The Freiburg-LOB Corpus of British English (FLOB)

The Freiburg-Brown Corpus of American English (FROWN)

The International Corpus of English (ICE)

Див. також

Британський національний корпус

Джерела

↑ The Standard Corpus of Present-Day Edited American English (the Brown Corpus).
↑ Francis, W. N. and H. Kučera (1964). Manual of Information to accompany A Standard Corpus of Present-Day Edited American English. Rhode Island: Department of Linguistics, Brown University. Архів оригіналу за 18 травня 2014. Процитовано 27 квітня 2022.
↑ Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
↑ Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html [Архівовано 18 травня 2014 у Wayback Machine.].
↑ Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM [Архівовано 3 квітня 2014 у Wayback Machine.]
↑ Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
↑ Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
↑ Kirsten Malmkjær, The Linguistics Encyclopedia [Архівовано 11 лютого 2022 у Wayback Machine.], 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

[1] The Standard Corpus of Present-Day Edited American English (the Brown Corpus).

[2] Francis, W. N. and H. Kučera (1964). Manual of Information to accompany A Standard Corpus of Present-Day Edited American English. Rhode Island: Department of Linguistics, Brown University. Архів оригіналу за 18 травня 2014. Процитовано 27 квітня 2022.

[3] Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.

[4] Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html [Архівовано 18 травня 2014 у Wayback Machine.].

[5] Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM [Архівовано 3 квітня 2014 у Wayback Machine.]

[6] Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.

[7] Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.

[8] Kirsten Malmkjær, The Linguistics Encyclopedia [Архівовано 11 лютого 2022 у Wayback Machine.], 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Рядок 7: / Рядок 7: @@
 |мова = [[Англійська мова|Англійська]] (американський варіант)
 |тема = [[Корпус текстів|лінгвістичний корпус]]
-|видавець = The Cooperative Research Program of the U.S. Office of Education, [[Brown University|Brown University]]
+|видавець = The Cooperative Research Program of the U.S. Office of Education, [[Brown University]]
 |дата публікації = [[1964|1964 р.]] (оригінальна версія)
 }}
 [[Файл:Metcalf_Research_Laboratory_(Brown)_05.jpg|міні| Кафедра когнітивної лінгвістики і психологічних наук [[Браунський університет|Браунського університету]]]]
-'''Стандартизований корпус сучасної американської англійської мови Браунського університету''' (або '''Браунівський корпус''' ) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований [[Корпус текстів|корпус]] різних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений [[:en:Henry_Kučera|Генрі Кучерою]] та [[:en:W._Nelson_Francis|В. Нельсоном Френсісом]] з [[Браунський університет|Браунського університету]] в [[Род-Айленд|Род-Айленді]]. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах у 1961 році.
+'''Стандартизований корпус сучасної американської англійської мови Браунського університету''' (або '''Браунівський корпус''') — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований [[Корпус текстів|корпус]] різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений [[Генрі Кучера|Генрі Кучерою]] та [[В. Нельсон Френсіс|В. Нельсоном Френсісом]] з [[Браунський університет|Браунського університету]] в [[Род-Айленд]]і. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.
+Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.<ref>{{Cite web|url=https://varieng.helsinki.fi/CoRD/corpora/BROWN/index.html|title=The Standard Corpus of Present-Day Edited American English (the Brown Corpus)}}</ref>
+Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. <ref>{{Cite web|url=http://icame.uib.no/brown/bcm.html|title=Manual of Information to accompany A Standard Corpus of Present-Day Edited American English|last=Francis, W. N. and H. Kučera|date=1964|publisher=Rhode Island: Department of Linguistics, Brown University|accessdate=27 квітня 2022|archive-date=18 травня 2014|archive-url=https://web.archive.org/web/20140518135250/http://icame.uib.no/brown/bcm.html}}</ref>)
 == Історія ==
 У 1967 році Кучера і Френсіс оприлюднили свою знакову працю ''«Обчислювальний аналіз сучасної американської англійської мови''», яка стала майбутньою статистичною базою для створення Браунівського корпусу. <ref>Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.</ref>
-Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в [[Математична лінгвістика|комп’ютерній лінгвістиці]] і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. <ref>Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.</ref>
+Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в [[Математична лінгвістика|комп’ютерній лінгвістиці]] і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. <ref>Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html {{Webarchive|url=https://web.archive.org/web/20140518135250/http://icame.uib.no/brown/bcm.html |date=18 травня 2014 }}.</ref>
-Невдовзі після публікації першого лексикостатистичного аналізу [[Бостон|бостонський]] видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового [[:en:The_American_Heritage_Dictionary_of_the_English_Language|''«''С''ловника Американської Спадщини»'']]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.
+Невдовзі після публікації першого лексикостатистичного аналізу [[Бостон|бостонський]] видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового {{iw|Словник Американської Спадщини|«Словника Американської Спадщини»|en|The American Heritage Dictionary of the English Language}}. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.
 На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. [[Розмічування частин мови|розділ «Позначення тегів у мові»]] ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.
-Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як [[Корпус Ланкастер-Осло-Берген|Корпус Ланкастера-Осло-Бергена]] (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). <ref>Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM</ref> <ref>Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ''ICAME Journal'' 29. 83–98.</ref> Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. <ref>Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.</ref>
+Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як [[Корпус Ланкастер-Осло-Берген|Корпус Ланкастера-Осло-Бергена]] (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). <ref>Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM {{Webarchive|url=https://web.archive.org/web/20140403144030/http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM |date=3 квітня 2014 }}</ref> <ref>Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ''ICAME Journal'' 29. 83–98.</ref> Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. <ref>Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.</ref>
-Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює [[Гіпербола (математика)|гіперболу]]: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить ''[[Гапакс|hapax legomena]]'': слова, які зустрічаються лише один раз у корпусі. <ref>Kirsten Malmkjær, ''[https://books.google.com/books?id=IG7tE4-p-uUC The Linguistics Encyclopedia]'', 2nd ed, Routledge, 2002, {{ISBN|0-415-22210-9}}, p. 87.</ref> Це відношення порядку та частотності досліджувалося [[Джордж Ципф|Джорджем Кінгслі Зіпфом]] (наприклад, див. ''«Психобіологія мови''») і відоме як [[закон Ципфа]] .
+Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює [[Гіпербола (математика)|гіперболу]]: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить ''[[Гапакс|hapax legomena]]'': слова, які зустрічаються лише один раз у корпусі. <ref>Kirsten Malmkjær, ''[https://books.google.com/books?id=IG7tE4-p-uUC The Linguistics Encyclopedia] {{Webarchive|url=https://web.archive.org/web/20220211194938/https://books.google.com/books?id=IG7tE4-p-uUC |date=11 лютого 2022 }}'', 2nd ed, Routledge, 2002, {{ISBN|0-415-22210-9}}, p. 87.</ref> Це відношення порядку та частотності досліджувалося [[Джордж Ципф|Джорджем Кінгслі Зіпфом]] (наприклад, див. ''«Психобіологія мови''») і відоме як [[закон Ципфа]] .
 Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, [[Корпус сучасної американської англійської мови]], [[Британський національний корпус]] або [[Міжнародний корпус вивчення англійської мови|Міжнародний корпус англійської мови]] ) зазвичай є набагато більшими - близько 100 мільйонів слів.
 == Класифікація текстів ==
+[[Файл:Figure1 brown.gif|міні|Розподіл текстів у Браунівському корпусі за тематикою]]
 Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були ''вперше'' опубліковані в 1961 році й написані носіями американської англійської мови.
@@ Рядок 197: / Рядок 202: @@
 | усі розділові знаки
 |}
+== Схожі проєкти ==
+Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.
+[https://github.com/brown-uk/corpus Браунський корпус української мови] — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.
+=== Суміжні проєкти ===
+The Lancaster-Oslo/Bergen Corpus (LOB Corpus)
+The Kolhapur Corpus of Indian English
+The Australian Corpus of English (ACE)
+The Wellington Corpus of Written New Zealand English
+The Freiburg-LOB Corpus of British English (FLOB)
+The Freiburg-Brown Corpus of American English (FROWN)
+The International Corpus of English (ICE)
 == Див. також ==

Браунівський корпус: відмінності між версіями

Поточна версія на 22:49, 4 травня 2024

Зміст

Історія

Класифікація текстів

Теги на позначення граматичних категорій

Схожі проєкти

Суміжні проєкти

Див. також

Джерела

Навігаційне меню

Браунівський корпус: відмінності між версіями

Поточна версія на 22:49, 4 травня 2024

Історія

Класифікація текстів

Теги на позначення граматичних категорій

Схожі проєкти

Суміжні проєкти

Див. також

Джерела

Навігаційне меню

Пошук