Краткий конспект
Корпус — это электронное собрание текстов, размеченное таким
образом, чтобы в нём можно было быстро найти слова и конструкции
с заданными грамматическими и другими интересными лингвисту
свойствами. Что же такое Национальный корпус? <...> В данном
случае слово «национальный» — своего рода термин, отражающий
скорее смысл английского слова «national», чем русского слова «нация». Впервые это определение появилось в названии Британского
национального корпуса (British National Corpus, BNC), созданного в
1990-е годы в Великобритании. <...> Поскольку этот корпус очень
быстро стал практически эталоном корпуса вообще, то значение слова «национальный» незаметно изменилось. Национальным корпусом
стали называть самый большой и представительный корпус,
характеризующий язык данной страны в целом. <...>
Понятно, что Национальный корпус должен быть большим (его
объём измеряется сотнями миллионов словоупотреблений) <...> и
представительным — он должен содержать все типы текстов, представленные в данном языке в данный исторический период.
Именно поэтому Национальный корпус русского языка не ограничивается только произведениями художественной литературы...
Он содержит и журнальные статьи разной тематики <...>, и специальные тексты (научные, научно-популярные и учебные по разным
отраслям знания), и рекламу, и частную переписку, и дневники.
92
Словом, в Корпус попадают образцы практически любых существующих в русском языке письменных текстов — от статьи современного
музыкального критика до инструкции по уходу за кактусами. <...>
Более того, для полного и адекватного представления о том, что происходит в современном русском языке, необходимо включать в него
также и записи устной речи.
Почему образцы устной речи так важно иметь в Корпусе? Люди
пишут не так, как говорят; в особенности это различие ощутимо для
языков с давней письменной традицией, за время существования которой нормы письменной и устной речи успевают разойтись достаточно сильно. Письменная речь всегда более консервативна; к тому
же, например, в русском языке письменная традиция формировалась
под сильным иноязычным влиянием (первоначально старославянским, впоследствии немецким и французским), которое гораздо меньше затронуло устную речь. В этом отношении русский язык не исключение: сходным образом дело обстоит во многих европейских
письменных языках, от чешского до французского, а также во многих
письменных языках Азии с древней литературной традицией. <...>
В Корпусе есть тексты так называемой электронной коммуникации: переписка по электронной почте, а также всевозможные чаты,
форумы, общедоступные электронные дневники. Конечно, в форумах
и блогах люди продолжают писать не так (или не совсем так), как говорят, но дистанция между письменной и устной речью здесь во много раз меньше. Этим электронная коммуникация и привлекательна
для лингвистов: какие-то языковые явления встречаются только или
преимущественно в данных текстах. Пишущие в сетевой среде чувствуют себя более свободно не только в отношении языка, но и в отношении норм общепринятой орфографии. Орфографическая вариативность электронных текстов возрастает на порядок, в них широким
потоком вливаются разговорные дублеты, произносимые на месте
литературных, но обычно не отражаемые на письме, — такие как ща
(и щас), сёдни, чё, тока, ваще, кто-нить, — и многое другое. Интересно, что пишущие часто прибегают к искажению орфографии сознательно, в целях языковой игры.
Корпус — это электронное собрание текстов, размеченное таким
образом, чтобы в нём можно было быстро найти слова и конструкции
с заданными грамматическими и другими интересными лингвисту
свойствами.Национальным корпусом
стали называть просто самый большой и представительный корпус,
характеризующий язык данной страны в целом.Национальный корпус русского языка не ограничивается только произведениями художественной литературы...
Он содержит и журнальные статьи разной тематики <...>, и специальные тексты (научные, научно-популярные и учебные по разным
отраслям знания), и рекламу, и частную переписку, и дневники. Орфографическая вариативность электронных текстов возрастает на порядок, в них широким
потоком вливаются разговорные дублеты, произносимые на месте
литературных, но обычно не отражаемые на письме, — такие как ща
(и щас), сёдни, чё, тока, ваще, кто-нить, — и многое другое. Интересно, что пишущие часто прибегают к искажению орфографии сознательно, в целях языковой игры.