THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

Тимофеева Мария Кирилловна
Доктор филологических наук, старший научный сотрудник лаборатории логических систем Института математики им. С.Л. Соболева СО РАН, заведующая кафедрой фундаментальной и прикладной лингвистики Гуманитарного института НГУ. Закончила отделение математической лингвистики Гуманитарного факультета Новосибирского государственного университета.
Сфера научных интересов: философско-методологические основания лингвистики, логические проблемы семантики и прагматики естественного языка, функциональные математические модели естественного языка, естественные и формальные языки.

Стукачев Алексей Ильич
Кандидат физико-математических наук, доцент, старший научный сотрудник Института математики им. С.Л. Соболева СО РАН, доцент кафедры дискретной математики и информатики Механико-математического факультета НГУ, доцент кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ
Сфера научных интересов: математическая логика, теория вычислимости (обобщенная вычислимость, вычислимость в допустимых множествах, HF-вычислимость), теория моделей (конструктивные модели, эффективные представления систем, степени представимости), вычислимый анализ. Математическая лингвистика: формальная семантика, семантика Монтегю, дистрибутивная семантика.

Барахнин Владимир Борисович
Ведущий научный сотрудник лаборатории информационных ресурсов Института вычислительных технологий СО РАН, профессор кафедры математического моделирования Механико-математического факультета НГУ, профессор кафедры систем информатики и общей информатики Факультета информационных технологий НГУ.
Сфера научных интересов: построение моделей распределенных информационных систем, создание алгоритмов обработки слабоструктурированных текстовых документов, автоматизация комплексного анализа поэтических текстов, методологические вопросы информатики.

Бручес Елена Павловна
Аспирант Института системы информатики им. А. П. Ершова СО РАН, ассистент кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, компьютерный лингвист в компании "OnPositive".
Сфера научных интересов: обработка естественных языков, машинное обучение, искусственный интеллект.

Павловский Евгений Николаевич
Кандидат физико-математических наук, член Совета молодых учёных и специалистов при Правительстве НСО, член экспертного совета Технопарка новосибирского Академгородка, председатель оргкомитета конференции Siberian Symposium on Data Science and Engineering.
Профессиональная цель: систематизация подходов к формализации бизнес-требований в проектах больших данных.

Пальчунов Дмитрий Евгеньевич
Ведущий научный сотрудник Института математики им. С. Л. Соболева СО РАН, заведующий кафедрой общей информатики НГУ, заведующий отделом "Институт дискретной математики и информатики" Механико-математического факультета НГУ.
Сфера научных интересов: Получены основополагающие результаты по исследованию булевых алгебр с выделенными идеалами (I-алгебр).

Свириденко Дмитрий Иванович
Сотрудник Института математики СО РАН и НГУ, бизнесмен, организатор и совладельц высокотехнологичных компаний, работающих в области информационных, коммуникационных и цифровых технологий. Принимает участие в исследованиях по семантическому моделированию, финансируемых грантом РНФ.
Сфера научных интересов: философия, методология, прикладная математическая логика. Автор концепции и математической теории семантического моделирования, выдвинутой совместно с академиками РАН С.С.Гончаровым и Ю.Л.Ершовым в 80-е годы прошлого столетия. В настоящее время продолжает активно развивать методологию и математическую теорию данной концепции, а также занимается приложениями этой концепции к различным областям. Работает над созданием методологии, математической теории, и языка семантических умных сделок и контрактов, применением идей семантического моделирования применительно к ТРИЗ и другим областям.

Савостьянов Александр Николаевич
Ведущий научный сотрудник в лаборатории дифференциальной психофизиологии Научно-исследовательского института физиологии и фундаментальной медицины, заведующий лабораторией психологической генетики Института цитологии и генетики СО РАН, профессор кафедры общей информатики Факультета информационных технологи НГУ, профессор кафедры фундаментальной и прикладной лингвистики гуманитарного института НГУ.
Научные интересы: нейрофизиология, психогенетика, нейролингвистика, методы компьютерной обработки биологических сигналов. Исследования направлены на выявление факторов риска появления и развития аффективных патологий у человека в зависимости от социальных и климатических условий жизнедеятельности. В рамках исследований проводятся экспедиции в различные регионы России (Новосибирская область, Тыва, Якутия, Республика Алтай) и соседних стран (Монголия, Китай) для сбора биологического материала и коллекции ЭЭГ-записей в различных экспериментальных условиях. Целью исследований является создание диагностических систем, позволяющих оценить риск нарушения эмоционального регулирования поведения человека в условиях повышенной стрессогенной нагрузки.

Лингвистическая информатика является частью теории информационного обслуживания. Теория информационного обслуживания возникла в связи с компьютеризацией речи, то есть в связи с применением ЭВМ как средства записи, учета и хранения языковой информации. Благодаря технике удалось совместить функции библиотеки, архива и канцелярии.

Большие классы текстов обрабатываются путем автоматического реферирования. Непрерывно растущий объем научно-технической информации, поиск которой становится все более трудоемким, вызвал идею вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа: библиографическое описание, аннотация, реферат, научный перевод.

Свертывание первичного текста осуществляется путем его сжатия, компрессии. Разработаны специальные методы свертывания первичного текста:

а) статистико-дистрибутивные методы заключаются в том, что выделяются наиболее информативные предложения, в которых сосредоточены наиболее значимые для данного текста языковые знаки;

б) методы использования смысловых индикаторов, когда отмечаются наиболее содержательные «точки» текста - предмет исследования, цель, методы, актуальность, область применения, выводы, результаты); в) метод текстовых связей, который заключаются в том, что учет межфразовых связей делает реферат целостным.

3. Практическое терминоведение.
Практическое терминоведение включает разделы:

а) лексикографическая терминология, которая занимается теорией и практикой создания специальных словарей, унификацией терминосистем, переводом терминов, созданием терминологических банков данных, автоматизацией их хранения и обработки.

б) предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать лексикографическую деятельность. Появились автоматические словари. Их предназначение - повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка. Словари такого типа используются в системах автоматической переработки текстов.

Автоматический перевод.

В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур). Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков.

В разработках систем автоматического перевода выделяют два этапа. На первом этапе решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка- посредника, формализация грамматики, преодоление омонимии, обработка идиоматических образований. На втором этапе продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика по модели «смысл - текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода. К ним относятся лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте под руководством Раймонда Генриховича Пиот­ровского; группа по исследованию синтаксического моделирования «смысл - текст» под руководством Игоря Александровича Мельчука.

Новый этап совершенствования машинного перевода связан с использованием языка-посредника - языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах. Процесс перевода представляет собой преобразование входного предложения языка X в выходную структуру языка У. Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний. Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов.

IV. Этнолингвистика.

Этнолингвистика (этносемантика, антрополингвистика) – это область языкознания, изучающая язык в его взаимоотношении с культурой определенного этноса. Основы этнолингвистики были заложены в работах Франца Боаса и Эдварда Сепира в первой четверти 20 века. Во второй половине 20 в. этнолингвистика оформилась в самостоятельный раздел языкознания. Этнолингвистические исследования второй половины 20 в. характеризуются такими чертами, как: привлечение методов экспериментальной психологии; сопоставление семантических моделей разных языков; изучение проблем народной таксономии; паралингвистические исследования; реконструкция духовной этнической культуры на основе данных языка; оживление внимания к фольклористике.

Центральными для этнолингвистики являются две тесно взаимосвязанных проблемы, которые можно назвать «когнитивной» и «коммуникативной»:

1. Каким образом, с помощью каких средств и в какой форме в языке находят отражение культурные (бытовые, религиозные, социальные и пр.) представления народа, говорящего на этом языке, об окружающем мире и о месте человека в этом мире?

2. Какие формы и средства общения – в первую очередь, языкового общения – являются специфическими для данной этнической или социальной группы?

В соответствии с этими проблемами в этнолинвистике выделились два направления: когнитивно ориентированная этнолингвистика и коммуникативно ориентированная лингвистика.

а) Когнитивно ориентированная этнолингвистика.

Когнитивно ориентированная этнолингвистика характерна для американского языкознания. Она называется антропологической лингвистикой. Первоначально антропологическая лингвистика была ориентирована на изучение культуры народов, резко отличающихся от европейских, прежде всего – американских индейцев. Установление родственных связей между этими языками и описание их современного состояния подчинялись задаче комплексного описания культуры этих народов и реконструкции их истории, в том числе путей миграции. Запись и интерпретация бытовых и фольклорных текстов была неотъемлемым компонентом антропологического описания.

Вслед за Францем Боасом в антропологической лингвистике считается, что более дробные фрагменты классификации действительности в языке соответствуют более важным аспектам данной культуры. Как замечает американский лингвист и антрополог Гарри Хойер, «народы, живущие охотой и собирательством, как, например, племена апачей на юго-западе Америки, обладают обширным словарем названий животных и растений, а также явлений окружающего мира. Народы же, основным источником существования которых является рыбная ловля (в частности, индейцы северного побережья Тихого океана), имеют в своем словаре детальный набор названий рыб, а также орудий и приемов рыбной ловли».

Наибольшее внимание этнолингвистов привлекали такие таксономические системы, как обозначения частей тела, термины родства, так называемые этно-биологические классификации, то есть названия растений и животных (английский ученый Б.Берлин, Анна Вежбицкая), – и особенно цветообозначения (Б.Берлин и П.Кей, А.Вежбицкая).

В современной антропологической этнолингвистике можно условно выделить «релятивистское» и «универсалистское» направления: для первого приоритетным является изучение культурной и языковой специфики в картине мира говорящего, для второго – поиск универсальных свойств лексики и грамматики естественных языков.

Примером исследований релятивистского направления в этнолингвистике могут служить работы Юрия Дерениковича Апресяна, Нины Давидовны Арутюновой, Анны Вежбицкой, Татьяны Вячеславовны Булыгиной, Алексея Дмитриевича Шмелева, Е.С.Яковлевой, посвященные особенностям русской языковой картины мира. Эти авторы анализируют значение и употребление слов, которые либо обозначают уникальные понятия, не характерные для концептуализации мира в других языках (тоска и удаль, авось и небось), либо соответствуют понятиям, существующим и в других культурах, но особенно значимым именно для русской культуры или получающим особую интерпретацию (истина и правда, свобода и воля, судьба и доля). Приведем для примера фрагмент описания слова «авось» из книги Т.В.Булыгиной и А.Д.Шмелева «Языковая концептуализация мира»:

«<...> авось значит вовсе не то же, что просто „возможно“ или „может быть“. <...> чаще всего авось используется как своего рода оправдание беспечности, когда речь идет о надежде не столько на то, что случится некоторое благоприятное событие, сколько на то, что удастся избежать какого-то крайне нежелательного последствия. О человеке, который покупает лотерейный билет, не скажут, что он действует на авось. Так, скорее, можно сказать о человеке, который <...> экономит деньги, не покупая медицинской страховки, и надеется, что ничего плохого не случится <...> Поэтому надежда на авось – не просто надежда на удачу. Если символ фортуны – рулетка, то надежду на авось может символизировать „русская рулетка“».

Примером исследований универсалистского направления в этнолингвистике являются работы польского ученого Анны Вежбицкой, посвященные принципам описания языковых значений. Цель многолетних исследований А.Вежбицкой и ее последователей – установить набор так называемых «семантических примитивов», универсальных элементарных понятий, комбинируя которые каждый язык может создавать бесконечное число специфических для данного языка и культуры конфигураций. Семантические примитивы являются лексическими универсалиями, иначе говоря, это такие элементарные понятия, для которых в любом языке найдется обозначающее их слово. Эти понятия интуитивно ясны носителю любого языка, и на их основе можно строить толкования любых сколь угодно сложных языковых единиц. Изучая материал генетически и культурно различных языков мира, в том числе языков Папуа – Новой Гвинеи, австронезийских языков, языков Африки и аборигенов Австралии, А.Вежбицкая постоянно уточняет список семантических примитивов. В ее работе «Толкование эмоциональных концептов» приводится следующий их список:

«субстантивы» – я, ты, кто-то, что-то, люди;
«детерминаторы и квантификаторы» – этот, тот же, самый, другой, один, два, много, все/весь;
«ментальные предикаты» – думать (о), говорить, знать, чувствовать, хотеть;
«действия и события» – делать, происходить/случаться;
«оценки» – хороший, плохой;
«дескрипторы» – большой, маленький;
«время и место» – когда, где, после/до, под/над;
«метапредикаты» – не/нет/отрицание, потому что/из-за, если, мочь;
«интенсификатор» – очень;
«таксономия и партономия» – вид/разновидность, часть;
«нестрогость/прототип» – подобный/как.

Из семантических примитивов, как из «кирпичиков», А.Вежбицкая складывает толкования даже таких тонких понятий, как эмоции. Так, например, ей удается продемонстрировать трудноуловимое различие между понятием американской культуры, обозначаемым словом «happy», и понятием, обозначаемым русским словом «счастливый» (и близкими ему по смыслу польским, французским и немецким прилагательными). Слово «счастливый», как пишет А.Вежбицкая, хотя и считается обычно словарным эквивалентом английского слова «happy», в русской культуре имеет более узкое значение, «обычно оно употребляется для обозначения редких состояний полного блаженства или совершенного удовлетворения, получаемого от таких серьезных вещей, как любовь, семья, смысл жизни и т.п.». Вот как формулируется это отличие на языке семантических примитивов (компоненты толкования В, отсутствующие в толковании А, выделяются заглавными буквами).

Толкование А: X feels happy
X чувствует что-то
со мной произошло что-то хорошее
я хотел этого
я не хочу ничего другого
Х чувствует что-то похожее

Толкование B: X счастлив
X чувствует что-то
иногда человек думает примерно так:
со мной произошло что-то ОЧЕНЬ хорошее
я хотел этого
ВСЕ ХОРОШО
я не МОГУ ХОТЕТЬ ничего другого
поэтому этот человек чувствует что-то хорошее
Х чувствует что-то похожее

Для исследовательской программы А.Вежбицкой принципиально, что поиск универсальных семантических примитивов осуществляется эмпирическим путем, с применением методик полевой лингвистики – работой с информантом: во-первых, в каждом отдельном языке выясняется роль, которую играет данное понятие в толковании других понятий, и, во-вторых, для каждого понятия выясняется множество языков, в которых данное понятие лексикализовано, то есть имеется специальное слово, выражающее это понятие.

Б) Коммуникативно ориентированная этнолингвистика.

Наиболее значительные результаты в коммуникативно ориентированной этнолингвистике связаны с направлением, именуемым «этнографией речи» или «этнографией коммуникации». Этнография речи как теория и метод анализа языкового употребления в социокультурном контексте была предложена в начале 60-х гг. в работах Д. Хаймза и Джона Дж. Гамперца и развита в работах американского ученого Арона Сикурела, Дж. Баумана, А.У. Корсаро. Высказывание исследуется только в связи с каким-либо речевым или коммуникативным событием, в рамках которого оно порождается. Подчёркивается культурная обусловленность любых речевых событий (проповедь, судебное заседание, телефонный разговор и т.д.). Устанавливаются правила языкового употребления путём присутствующего наблюдения (соучастие в речевом событии), анализа спонтанных данных, интервьюирования носителей данного языка как родного.

В рамках этого направления изучаются модели речевого поведения, принятые в той или иной культуре, в той или иной этнической или социальной группе. Так, например, в культуре «среднеевропейского стандарта» неформальная беседа нескольких человек предполагает, согласно принятым в данном сообществе правилам хорошего тона, что участники не будут перебивать друг друга, всем поочередно предоставляется возможность высказываться, желающий высказаться обычно сигнализирует об этом словами «позвольте заметить», «разрешите спросить» и т.п. Желающий выбыть из числа участников беседы объявляет о своем намерении словами «к сожалению, мне пора», «я должен ненадолго отлучиться» и так далее. Совсем иные нормы публичного речевого поведения приняты, например, в ряде культур аборигенов Австралии. Соблюдение индивидуальных прав отдельного участника разговора в этих сообществах не является обязательным правилом: несколько собеседников могут говорить одновременно, реагировать на высказывание другого не обязательно, говорящий высказывается, ни к кому специально не обращаясь, собеседники могут не смотреть друг на друга и т.д. Такая модель речевого поведения строится на исходной предпосылке, что все высказывания так или иначе аккумулируются в окружающем мире, и поэтому «прием» сообщения не обязательно должен непосредственно следовать за его «передачей».

Актуальной темой этнографии коммуникации является также изучение языкового выражения относительного социального статуса собеседников: правила обращения к собеседнику, в том числе использование титулов, обращений по имени, фамилии, имени и отчеству, профессиональные обращения (например, «доктор», «товарищ майор», «профессор»), уместность обращений «на ты» и «на Вы» и т.д. Особенно пристально исследуются такие языки, в которых соотношение социального положения говорящего и слушающего закрепляется не только в лексике, но и в грамматике. Примером может служить японский язык, где выбор грамматической формы глагола зависит от того, стоит ли слушающий выше говорящего в социальной иерархии или ниже, а также от того, входят ли говорящий и слушающий в одну социальную ячейку или нет. Кроме того, учитываются и отношения между говорящим и лицом, о котором идет речь. В результате комплексного действия этих ограничений один и тот же человек употребляет разные формы глагола при обращении к подчиненному и при обращении к начальнику, при обращении к сослуживцу и при обращении к незнакомому человеку, при обращении к своей жене и к жене соседа.

В грамматике находит отражение и такая особенность речевого этикета японцев, как стремление избежать вторжения в сферу мыслей и чувств собеседника. В японском языке существует особая грамматическая форма глагола – так называемое «желательное наклонение». С помощью суффикса желательного наклонения –tai говорящий выражает желание совершить действие, обозначенное исходным глаголом: "читать" + tai = "хочу читать", "уйти" + tai = "хочу уйти". Однако формы желательного наклонения возможны, только если говорящий описывает собственное желание. Желание собеседника или третьего лица выражается с помощью особой конструкции, приблизительно означающей "по внешним признакам можно заключить, что лицо X хочет совершить действие Y". Таким образом, подчиняясь требованиям грамматики, говорящий на японском языке может высказывать суждения лишь о собственных намерениях. Делать же прямые утверждения о внутреннем состоянии другого человека, например о его желаниях, язык просто не позволяет. Можно сказать «Я хочу...», но нельзя сказать «Вы хотите...» или «Он хочет...», а лишь «Мне кажется (у меня такое впечатление), что Вы хотите...» или «Мне кажется (у меня такое впечатление), что он хочет...».

Помимо норм речевого этикета, этнография коммуникации изучает также ритуализованные в тех или иных культурах речевые ситуации, такие, как заседание суда, защита диссертации, торговая сделка и тому подобные; правила выбора языка при межъязыковом общении; языковые конвенции и клише, сигнализирующие о принадлежности текста к определенному жанру («жили-были» – в сказках, «слушали и постановили» – в протоколе заседания).

Современная этнолингвистика тесно связана с социологией, психологией, семиотикой. В российской этнолингвистике особое место занимают исследования на стыке этнолингвистики, фольклористики и сравнительно-исторического языкознания. В первую очередь это исследовательская программа, посвященная этноязыковой и этнокультурной истории славянских народов (Никита Ильич Толстой, Светлана Михайловна Толстая, Владимир Николаевич Топоров). В рамках этой программы составляются этнолингвистические атласы, картографируются обряды, верования, фольклор; изучается структура кодифицированных славянских текстов определенных жанров, в том числе заговорных текстов, загадок, погребальных и строительных ритуалов и т.д., в соотнесении с данными сравнительно-исторических и археологических исследований.

  • Систематизация в языкознании и лингвистическая классификация народов мира
  • Социолингвистическая (или функциональная) классификация языков и форм речи

  • План:

    1. Что такое компьютерная лингвистика?

    2. Объект и предмет компьютерной лингвистики

    4. Задачи компьютерной лингвистики

    5. Методы исследования компьютерной лингвистики

    6. История и причины возникновения компьютерной лингвистики

    7. Основные термины компьютерной лингвистики

    8. Ученые занимавшиеся проблемой компьютерной лингвистики

    9. Ассоциации и конференции по компьютерной лингвистике

    10. Использованная литература.


    Компьютерная лингвистика – самостоятельное направление в прикладной лингвистике, ориентированное на использование компьютеров для решения задач, связанных с использованием естественного языка. (Щилихина К.М.)


    Компьютерная лингвистика – будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирование языка и мышления в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области: 1) оптимизации коммуникации на основе лингвистических знаний 2)создание естественно-языкового интерфейса и типологий понимания языка для общения человека с машиной 3) создание и моделирование информационных компьютерных систем (Соснина Е.П.)


    Объект компьютерной лингвистики – анализ языка в его естественном состоянии в процессе использования людьми в различных ситуациях общения, а , как особенности языка могут быть сформулированы.


    Задачи компьютерной лингвистики:


    Методы исследования компьютерной лингвистики:

    1. метод моделирования- специальный объект изучения, который недоступен в прямом наблюдении. По определению математика К. Шеннона модель является представлением объекта в некоторой форме, отличной от формы их реального существования.

    2. метод теории представления знаний подразумевает способы представления знаний, ориентированные на автоматическую обработку современными компьютерами.

    3. метод теории языка программирования (programming language theory) – это область информатики, связанная с проектированием, анализом, определением характеристик и классификацией языков программирования и изучением их индивидуальных особенностей.


    Причины возникновения компьютерной лингвистики

    1. Появление ЭВМ

    2. Проблема общения с компьютерами неподготовленных пользователей


    1.Система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948г.

    2. Меморандум Уоррена Уивера

    3.Начало внедрения первых вычислительных машин в сфере машинного перевода

    4. Джорджтаунский проект в 1954


    1. ALPAC(Automatic Language Processing Advisory Committee) / Консультативный Комитет по автоматической обработке языка 2. новый этап в развитии компьютерных технологий и их активное использование в лингвистических задачах 3. создание нового поколения компьютеров и языков программирования 4. возрастание интереса к машинному переводу 60

    -70ые годы ХХ века


    Конец 80х – начало 90х годов ХХ века

      Появление и активное развитие сети Интернет

    • Бурный рост объемов текстовой информации в электронном виде

    • Необходимость автоматической обработки текстов на естественном языке


    1. Продукты компании PROMT и ABBY (Lingvo) 2. Технологии машинного перевода 3. Технологии Translation Memory

    Современные коммерческие системы

    • Оживление текстов

    • Модели коммуникации

    • Компьютерная лексикография

    • Машинный перевод

    • Корпус текстов


    Анализ текстов на естественном языке

    3 уровня структуры текста:
    • Поверхностная синтаксическая структура

    • Глубинная синтаксическая структура

    • Семантический уровень


    Задача синтеза обратная по отношению в анализу

    Оживление текста

    1. Обмен текстами посредством зрительных образов на экране дисплея

    2. 2 модальности мышления человека: символьная и зрительная.


    1.Имитация процесса общения 2. Создание эффективной модели диалога Модели коммуникации


    Гипертекст -особый способ организации и представления текста, при котором несколько текстов или фрагментов текста могут быть связаны между собой по различным типам связей.


    Отличия гипертекста от традиционного текста

    Гипертекст

      1. обработка устной речи

    • 2. обработка письменного текста


    Обработка устной речи

    1. автоматический синтез речи

    А) развитие синтезаторов типа «текст-речь». Включает 2 блока: блок лингвистической обработки текста и блок акустического синтеза.

    2. автоматическое распознавание речи


    1) распознавание текста

    2) анализ текста

    3) синтез текста


    ИПС (информационно-поисковая система) – это программные системы для хранения, поиска и выдачи интересующей информации.

    Захаров В.П. считает что, ИПС – это упорядоченная совокупность документов и информационных технологий , предназначенных для хранения и поиска информации – текстов или данных.


    3 вида ИПС

    3 вида ИПС

      Ручные – это поиск в библиотеке.

    • Механизированные ИПС представляют собой технические средства, которые обеспечивают отбор нужных документов

    • Автоматические - поиск информации с помощью компьютеров


    Компьютерная лексикография

    Компьютерная лексикография – одно из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей.

    В лексикографии выделяют 2 направления:
    • Традиционная лексикография занимается составлением традиционных словарей

    • Машинная лексикография занимается автоматизацией подготовки словарей и решает задачи разработки электронных словарей


    Задачи компьютерной лексикографии

    • Автоматическое получение из текста различных словарей

    • Создание словарей, которые являются электронными версиями традиционных словарей или комплексных электронных лингвистических словарей для традиционных словарных работ, например LINGVO

    • Разработка теоретических и практических аспектов составления специальных компьютерных словарей, например для информационного поиска, машинного перевода


    Машинный перевод

    Машинный перевод – преобразование текста на одном естественном языке на другой естественный язык при помощи компьютера.

    Виды машинного перевода
    • FAMT (Fully Automated Machine Translation) – полностью автоматический перевод

    • HAMT (Human Aided machine Translation) – машинный перевод с участием человека

    • MAHT (Machine Aided Human Translation) – перевод, осуществляемый человеком с привлечением вспомогательных программных и лингвистических средств.


    • 2) профессиональный МП – более качественный перевод с последующим редактированием человеком

    • 3) интерактивный МП – считается переводом в специальных системах поддержки , проходит в режиме диалога с компьютерной системой. Качество МП зависит от возможностей настройки, ресурсов, типа текстов.

    Корпус текстов

    Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты.

    Языковой корпус- большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.


    Репрезентативность – важнейшее свойство корпуса


    Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде



    На основе корпуса можно получить данные:

    1. о частоте грамматических категорий

    2. об изменениях частот

    3. об изменениях контекстов в различные периоды времени

    5. о совместной встречаемости лексических единиц

    6. об особенностях их сочетаемости


    Брауновский корпус


    Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Основные термины компьютерной лингвистики

      Языки программирования (ЯП) – это класс искусственных языков, предназначенных для обработки информации с помощью компьютера. Любой язык программирования – это строгая (формальная) знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от тысячи до десяти тысяч различных языков программирования.

    • Информатика (Computer Science) - наука о закономерностях записи, хранения, переработки, передачи и использования информации с помощью технических средств.



    Поиск информации (Information Retrieval ) – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и

    т. д.), которые соответствуют поступившему запросу.

    «Информационно-поисковая система (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

    Машинная лексикография (Сomputational Lexicography) занимается автоматизацией подготовки словарей и решает задачи разработки электронных

    словарей.

    Машинный перевод – это преобразование компьютером текста на одном

    естественном языке в эквивалентный по содержанию текст на другом

    естественном языке.

    Гипертекст – это технология организации информации и особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.


      Фрейм - это структура для представления декларативного знания о типизированной тематически единой ситуации, т.е. структура данных о стереотипной ситуации.

    • Сценарий – это последовательность нескольких эпизодов во времени, это тоже представление стереотипной ситуации или стереотипном поведении, только элементами сценария являются шаги алгоритма или инструкции.
    • План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели.



    Ученые в области компьютерной лингвистики:

    • Советские и российские ученые : Алексей Ляпунов, Игорь Мельчук, Ольга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемьянов, З.М. Шаляпина, Игорь Богуславский, А.С. Нариньяни, А.Е. Кибрик, Баранов А.Н.

    • Западные ученые : Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови.


    Ассоциации и конференции по компьютерной лингвистике :
    • «Диало́г» - главная российская конференция по компьютерной лингвистике с международным участием.

    Приоритетом Диалога является компьютерное моделирование русского языка. Рабочие языки конференции русский и английский. Для привлечения зарубежных рецензентов основная часть прикладных работ подается на английском языке.

    Основные направления конференции :
    • Лингвистическая семантика и семантический анализ

    • Формальные модели языка и их применение

    • Теоретическая и компьютерная лексикография

    • Методы оценки (evaluation) систем анализа текстов и машинного перевода

    • Корпусная лингвистика . Создание, применение, оценка корпусов

    • Интернет как лингвистический ресурс. Лингвистические технологии в Интернете

    • Онтологии . Извлечение знаний из текстов

    • Компьютерный анализ документов: реферирование, классификация , поиск

    • Автоматический анализ тональности текстов

    • Машинный перевод

    • Модели общения. Коммуникация, диалог и речевой акт

    • Анализ и синтез речи



    2. Ассоциация по Компьютерной лингвистике (ACL) является международным научным и профессиональным обществом людей, работающих над проблемами, включающими естественный язык и вычисление. Годовое собрание проводится каждое лето в местоположениях, где значительное исследование компьютерной лингвистики выполнено. Основана в 1962, первоначально назвали Ассоциацией для Машинного перевода и Компьютерной лингвистики (AMTCL) . В 1968 это стало ACL.
    • УACL есть европейская (EACL) и североамериканская (NAACL) ветви.

    • Журнал ACL, Компьютерная лингвистика , является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press .
    • Книжная серия ACL, Исследования в Обработке естественного языка , издана издательством Кембриджского университета .

    • Каждый год ACL и его главы организуют международные конференции в разных странах.

    ACL 2014 проводился в Балтиморе, США.

    • Использованная литература :

    • 1. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие/Ю.Н. Марчук.- М.:АСТ: Восток –Запад, 2007ю- 317 с.

    • 2. Шилихина К.М. Основы прикладной лингвистики: учебное пособие по специальности 021800 (031301) – Теоретическая и прикладная лингвистика, Воронеж, 2006.

    • 3. Боярский К.К. Введение в компьютерную лингвистику. Учебное пособие.- СПб: НИУ ИТМО, 2013.- 72 с.

    • 4. Щипицина Л.Ю. Информационные технологии в лингвистике: учебное пособие/ Л.Ю. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

    • 5. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие/ Е.П.Соснина.- 2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. -110 с.

    • 6. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие.- М.: Эдиториал УРСС, 2001.- 360 с.

    • 7. Прикладное языкознание: Учебник/ Л.В. Бондарко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. Редактор А.С. Герд. СПб.: изд-во С.-Петербург. Ун-та, 1996.- 528 с.

    • 8. Шемякин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.

    • лингвистика статистический языкознание программный

      История развития компьютерной лингвистики

      Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов.

      Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX - начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика, и подробно изложены в его книге «Курс общей лингвистики» (1916).

      Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из трех частей: языка (от фр. langue), речи (от фр. parole) и речевой деятельности (от фр. langage).

      Сам ученый определял создаваемую им науку семиологию как «науку, изучающую жизнь знаков в рамках жизни общества». Поскольку язык - это знаковая система, то в поиске ответа на вопрос о том, какое место лингвистика занимает среди других наук, Соссюр утверждал, что лингвистика - это часть семиологии. Принято считать, что именно швейцарский филолог заложил теоретический фундамент нового направления в лингвистике, став основоположником, «отцом» современного языкознания.

      Концепция, выдвинутая Ф. де Соссюром, получила дальнейшее развитие в работах многих выдающихся ученых: в Дании - Л. Ельмслев, в Чехии - Н. Трубецкой, в США - Л. Блумфилд, 3. Харрис, Н. Хомский. Что касается нашей страны, то здесь структурная лингвистика начала свое развитие примерно в тот же период времени, что и на Западе, - на рубеже XIX-XX вв. - в трудах Ф. Фортунатова и И. Бодуэн де Куртенэ. Следует отметить, что И. Бодуэн де Куртенэ тесно сотрудничал с Ф. де Соссюром. Если Соссюр заложил теоретический фундамент структурной лингвистики, то Бодуэн де Куртенэ может считаться человеком, заложившим основы практического применения методов, предложенных швейцарским ученым. Именно он определил лингвистику как науку, использующую статистические методы и функциональные зависимости, и отделил ее от филологии. Первым опытом применения математических методов в языкознании стала фонология - наука о структуре звуков языка.

      Следует отметить, что постулаты, выдвинутые Ф. де Соссюром, смогли найти отражение в проблемах лингвистики актуальных в середине XX века. Именно в это период и намечается явная тенденция к математизации науки о языке. Практически во всех крупных странах начинается бурное развитие науки и вычислительной техники, что в свою очередь потребовало все более новых лингвистических основ. Результатом всего этого стало быстрое сближение точных и гуманитарных наук, а также активное взаимодействие математики и лингвистики нашло практическое применение при решении актуальных научных проблем.

      В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки - компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ. Однако с появлением в 60-х годах нового поколения компьютеров и языков программирования начинается принципиально новый этап в развитии этой науки. Также следует отметить, что истоки компьютерной лингвистики восходят к трудам известного американского ученого-лингвиста Н. Хомского в области формализации структуры языка. Результаты его исследований, полученные на стыке лингвистики и математики, сформировали основу для развития теории формальных языков и грамматик (порождающих, или генеративных, грамматик), которая широко применяется для описания как естественных, так и искусственных языков, в частности языков программирования. Если говорить точнее, то эта теория является вполне математической дисциплиной. Ее можно считать одной из первых в таком направлении прикладной лингвистики, как математическая лингвистика.

      Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем.

      Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений.



    THE BELL

    Есть те, кто прочитали эту новость раньше вас.
    Подпишитесь, чтобы получать статьи свежими.
    Email
    Имя
    Фамилия
    Как вы хотите читать The Bell
    Без спама