Браунівський корпус: відмінності між версіями

[неперевірена версія]

Версія за 21:06, 27 квітня 2022

Стандартний корпус сучасної американської англійської мови Браунівського університету (або просто Браунівський корпус ) — це електронне зібрання текстових зразків американської англійської мови, перший великий структурований корпус різноманітних жанрів. Цей корпус вперше встановив планку для наукового вивчення частоти категорій слів та їх розподілу у повсякденному мовленні. Складений Генрі Кучерою та В. Нельсоном Френсісом з Браунівського університету в Род-Айленді, це загальний мовний(?) корпус, що містить 500 текстових уривків англійською мовою загальною кількістю приблизно мільйон слів, зібраних з робіт, опублікованих у Сполучених Штатах у 1961 році.

Історія

У 1967 році Кучера і Френсіс опублікували свою роботу «Комп'ютерний аналіз сучасної американської англійської мови», яка надала основні статистичні дані про те, що сьогодні відомо просто як Браунівський корпус.^[1]

Браунівський корпус представляв собою ретельно складену збірку поточної американської англійської мови, що налічувала близько мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс піддали його різноманітним комп'ютерним аналізам, з яких вони склали багатий і різноманітний опус, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів цієї галузі.^[2]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Хоутон-Міфлін звернувся до Кучери, щоб надати трирядкову базу цитат на мільйон слів для нового Словника американської спадщини. Цей новаторський словник, який з’явився у 1969 році, був першим словником, який був складений з використанням корпусної лінгвістики для частоти слів та іншої інформації.

Початковий корпус мав лише самі слова, а також ідентифікатор розташування для кожного з них. Протягом наступних кількох років застосовувалися теги частин мови. Програма додавання тегів Greene and Rubin (див. розмічування частин мови) значно допомогла в цьому, але високий рівень помилок означав, що було потрібно багато ручної коректури.

Розмічений Браунівський корпус використовував вибірку приблизно з 80 частин мови, а також спеціальні індикатори для складених форм, скорочень, іншомовних слів та кількох інших явищ і сформував модель для багатьох пізніших корпусів, таких як корпус Ланкастера-Осло-Бергена (британська англійська початку 1990-х) та корпус Фрайбурга-Брауна американської англійської мови (FROWN) (американська англійська початку 1990-х).^[3]^[4] Розмічення корпусу дозволило робити набагато складніший статистичний аналіз.

Один цікавий результат полягає в тому, що навіть для досить великих вибірок графік слів у порядку зменшення частоти їх появи показує гіперболу: частота n-го найчастішого слова приблизно пропорційна 1/n . Таким чином, артикль «the» становить майже 7% Браунівського корпусу, прийменники «to» і «of» - більше ніж 3% кожен; тим часом як приблизно половина загального словника, який складається з понад 50 000 слів, становлять гапакси (hapax legomenon): слова, які зустрічаються у корпусі лише один раз.^[5] Цей простий зв’язок між категорією і частотою був відзначений надзвичайною різноманітністю явищ Джорджем Кінгслі Ципфом (наприклад, див. «Психобіологія мови») і відомий як закон Ципфа .

Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, сучасні типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови) зазвичай є набагато більшими (приблизно 100 мільйонів слів).

Класифікація текстів

Корпус складається з 500 текстів, розподілених у 15 жанрах приблизно пропорційно до кількості текстів, опублікованих в 1961 році в кожному з цих жанрів. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.

Кожен зразок починався з випадкового речення-межі у статті чи іншому вибраному підрозділі й продовжувався до першого речення після 2000 слів. У кількох випадках неправильні підрахунки призвели до того, що вибірки становили трохи менше 2000 слів.

Оригінальне введення даних було зроблено на перфораторах з лише великими літерами; великі літери позначалися попередньою зірочкою, а різні спеціальні елементи, такі як формули, також мали спеціальні коди.

Спочатку корпус (1961) містив 1 014 312 слів із 15 текстових категорій:

ПРЕСА: Репортаж (44 тексти)
- Політичні
- Спортивні
- Суспільні
- Точкові новини
- Фінансові
- Культурні
ПРЕСА: Редакція (27 текстів)
- Інституційний щоденник
- Особисті
- Листи до редакції
ПРЕСА: Рецензії (17 текстів)
- театр
- книги
- музика
- танці
РЕЛІГІЯ (17 текстів)
- Книги
- Періодичні видання
- Трактати
НАВИЧКИ ТА ХОБІ (36 текстів)
- Книги
- Періодичні видання
ПОПУЛЯРНА НАУКА (48 текстів)
- Книги
- Періодичні видання
БЕЛЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
- Книги
- Періодичні видання
РІЗНЕ: уряд і органи палати США (30 текстів)
- Урядові документи
- Звіти фонду
- Галузеві звіти
- Корпоративний каталог
- Промислові органи палат
ВИВЧЕНЕ (80 текстів)
- Природничі науки
- Медицина
- Математика
- Соціальні та поведінкові науки
- Політологія, право, освіта
- Гуманітарні науки
- Технологія та інженерія
ХУДОЖНЯ ЛІТЕРАТУРА: загальне (29 текстів)
- Романи
- Оповідання
ХУДОЖНЯ ЛІТЕРАТУРА: містика та детектив (24 тексти)
- Романи
- Оповідання
ХУДОЖНЯ ЛІТЕРАТУРА: наука (6 текстів)
- Романи
- Оповідання
ХУДОЖНЯ ЛІТЕРАТУРА: пригоди та вестерн (29 текстів)
- Романи
- Оповідання
ХУДОЖНЯ ЛІТЕРАТУРА: романтика та історії кохання (29 текстів)
- Романи
- Оповідання
ГУМОР (9 текстів)
- Романи
- Нариси тощо.

Теги для частин мови

тег	Визначення
CC	координаційний сполучник (і, або)
CD	кількісний числівник (один, два, 2 і т. )
CS	підрядний сполучник (якщо, хоча)
EX	квантор існування
JJ	прикметник
JJA	прикметник + допоміжне дієслово
JJC	порівняльний прикметник
JJCC	прикметник + сполучник
JJS	найвищий ступінь порівняння прикметника
JJF	прикметник + жіночий рід
JJM	прикметник + чоловічий рід
NN	іменник однини або незлічуваний іменник
NNА	іменник + допоміжне дієслово
NNC	іменник + сполучник
NNS	іменник множини
NNP	власний іменник або частина імені (де, ла, фон)
NNPC	власний іменник + сполучник
PRP	особовий займенник, однина
PRPS	особовий займенник, множина
PRP$	присвійний займенник
RB	прислівник
RBR	порівняльний прислівник
RBS	вищий ступінь порівняння прислівника
VB	дієслово, форма основи (інфінітив без частки to)
VBA	дієслово + допоміжне дієслово, однина, теперішній час
VBD	дієслово, минулий час
VBG	дієслово, дієприкметник теперішнього часу/герундій
VBN	дієслово, дієприкметник минулого часу
VBZ	дієслово, 3-ї особи однини теперішнього часу
FW	іноземні слова
PUN	усі розділові знаки

Дивись також

LOB Corpus, корпус британської англійської мови, заснований на тих же параметрах, що й Браунівський корпус
Британський національний корпус

Посилання

↑ Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
↑ Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
↑ Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
↑ Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
↑ Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

Зовнішні посилання

[1] Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.

[2] Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.

[3] Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM

[4] Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.

[5] Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

[1]

[2]

[3]

[4]

[5]

Браунівський корпус: відмінності між версіями

Версія за 21:06, 27 квітня 2022

Зміст

Історія

Класифікація текстів

Теги для частин мови

Дивись також

Посилання

Зовнішні посилання

Навігаційне меню

Версія за 20:52, 27 квітня 2022 ред. Uliana Sasiuk (обговорення \| внесок) 11 редагувань Створено шляхом перекладу сторінки «Brown Corpus» Мітки: перше редагування суміш розкладок у тексті [вмісту] [вмісту 2»]	Версія за 21:06, 27 квітня 2022 ред. скасувати Uliana Sasiuk (обговорення \| внесок) 11 редагувань м Uliana Sasiuk перейменував сторінку з Brown Corpus на Браунівський корпус: Неправильна мова перекладу назви Наступне редагування →
(Немає відмінностей)

Браунівський корпус: відмінності між версіями

Версія за 21:06, 27 квітня 2022

Історія

Класифікація текстів

Теги для частин мови

Дивись також

Посилання

Зовнішні посилання

Навігаційне меню

Пошук