КАЗАХСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ
ИМ. АЛЬ-ФАРАБИ
Филологический факультет
Кафедра общего языкознания
ДИПЛОМНАЯ РАБОТА
Родной язык и языковая идентичность и социолингвистический анализ
Специальность: Прикладная лингвистика
РЕФЕРАТ
Актуальность темы: разработки в области искусственного интеллекта идут параллельно в когнитивных науках и в кибернетике, при этом не уделяется достаточного внимания лингвистической компоненте искусственного интеллекта, хотя проблемы обработки естественного языка являются центральными в этой области
Структура работы: данная работа состоит из реферата, введения, двух разделов, заключения, списка использованной литературы.
Объем работы:48
Количество использованных источников:37
Цель исследования: исследование проблемы искусственного интеллекта в связи с естественным языком
Задачи исследования: изучение истории вопроса, направлений решения и механизмов воплощения проблемы искусственного интеллекта, представление проблем анализа и синтеза естественного языка как базы для создания искусственного интеллекта, исследование лингвистического аспекта его возможностей.
Объект изучения: лингвистическая компонента искусственного интеллекта
Предметом изучения являются системы анализа и синтеза естественного языка в письменной и звучащей формах
Методы исследования: описательный, моделирование
Ключевые слова: искусственный интеллект, автоматическая обработка текста, естественный язык, звуковой интерфейс, экспертные системы, кибернетика
Полученные результаты: Для человека естественным и привычным является именно диалог, а не монолог. Поэтому лингвистическая компонента искусственного интеллекта представляет собой средства создания естественной среды общения в сфере “человек – компьютер”. Этот класс задач можно разделить на две группы: создание систем обработки текста и систем обработки звучащей речи.
Наиболее успешным в настоящее время является направление автоматизированной обработки естественно-языкового текста, что связано с преимущественным представлением информации для компьютера в графической форме.
Будущее речевого интерфейса, вероятно, зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер».
Таким образом, в настоящее время разработка лингвистической компоненты систем искусственного интеллекта достигла пика технологических и методологических возможностей и находится на пороге нового скачка в развитии.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ 3
1 ПРОБЛЕМЫ РАЗРАБОТКИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
5
1.1 Проблемы создания искусственного интеллекта
1.2 Технические и методологические аспекты проблемы моделирования человеческого мозга
11
2 АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА В СТРУКТУРЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
15
2.1 Обработка текста 16
2.2 Обработка звучащей речи 28
ЗАКЛЮЧЕНИЕ 45
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 47
ВВЕДЕНИЕ
В настоящее время, на заре компьютерной цивилизации, все чаще встречается и используется такое понятие, как “искусственный интеллект”. Его используют в различных отраслях человеческой деятельности, там, где требуется принятие различного рода решений. Созданием совершенной системы, способной “думать”, принимать решения и общаться с человеком на естественном языке, занимаются ведущие специалисты многих стран мира. У них есть великолепный образец – это человеческий мозг. Однако, поскольку на настоящий момент времени деятельность мозга изучена достаточно слабо, то не хватает и знаний для создания искусственного разума. Именно поэтому на настоящий момент не существует совершенной универсальной системы, которая бы умела принимать решения за человека, другими словами, умела бы “делать все”, а понятие “искусственный интеллект” подразумевается и используется в настоящее время лишь в конкретных областях человеческой деятельности, в частности, вычислительной техники и языкознании. Человеческий мозг отличается своей универсальностью, способностью решать разнообразные задачи из разных областей деятельности. Именно поэтому возможность создания универсального компьютерного разума привлекает ученых со всего мира, хотя вопрос его создания пока остается нерешенным.
В современных лабораториях искусственного интеллекта (ИИ) всерьез обсуждается создание разумного компьютера, имеющего интеллект, способного принимать этические решения и выражать их в языковой форме. Специалисты по компьютерам разрабатывают компьютерные системы, которые способны довольно близко имитировать элементы человеческого познания и обработки информации; так что создание подобной системы – вопрос времени. Но сколько времени понадобится, еще не ясно.
Целью этой работы является исследование проблемы искусственного интеллекта в связи с языком, потому что естественный язык является базой для построения естественного интеллекта, а также исследование лингвистического аспекта его возможностей. Задачи – изучение истории вопроса, направлений решения и механизмов воплощения проблемы искусственного интеллекта, внедрения лингвистических достижений в практику создания искусственного интеллекта.
Разработки в области искусственного интеллекта делятся на ряд частных исследований, в которых есть определенные достижения. Впрочем, до сих пор не создано программы, которая содержала бы все слова естественного языка (например, тезаурус русского языка), программы автоматизированного перевода способны обрабатывать небольшую группу предварительно подготовленных текстов, хотя эти задачи менее масштабны, чем разработка системы анализа и синтеза естественного языка для искусственного интеллекта.
Направление исследований в области искусственного интеллекта во многом посвящено разработке аппаратной стороны. В настоящее время практически невозможно указать ни одной сферы человеческой деятельности, где бы ни использовались или не могли быть использованы ЭВМ. Методологический анализ проблем искусственного интеллекта и диалогового взаимодействия человека с ЭВМ важен не только для обоснования общей стратегии решения этих проблем, но и для разработки вопросов распределения функций человека и ЭВМ в процессе самого решения.
Искусственный интеллект является сейчас «горячей точкой» научных исследований. В этой точке, как в фокусе, сконцентрированы наибольшие усилия лингвистов, кибернетиков, психологов, философов, математиков и инженеров.
1 ПРОБЛЕМЫ РАЗРАБОТКИ ИСКУССТВЕННОГО ИНТЕЛЛЛЕКТА
1.1 Проблемы создания искусственного интеллекта
Термин интеллект (intelligence) происходит от латинского intellectus — что означает ум, рассудок, разум; мыслительные способности человека. Соответственно искусственный интеллект (artificial intelligence) — ИИ (AI) обычно толкуется, как свойство автоматических систем брать на себя отдельные функции интеллекта человека, например, выбирать и принимать оптимальные решения на основе ранее полученного опыта и рационального анализа внешних воздействий. Понятие “искусственный интеллект” появилось задолго до создания первых вычислительных машин как раздел компьютерологии, разрабатывающий компьютерные системы. ИИ состоит в моделировании когниции человека в воспроизведении человеческой деятельности и опирается на исследовании биологических оснований переработки информации человеком на научный анализ и автоматизацию интеллектуальных функций человека. В основе ИИ лежит убежденность в принципиальной возможности моделирования механизмов человеческой обработки информации на ЭВМ. Интеллектом называют способность мозга решать интеллектуальные задачи путем приобретения, запоминания и целенаправленного преобразования знаний в процессе обучения на опыте и адаптации к разнообразным обстоятельствам. Другими словами интеллект отражает мыслительные способности человека. В этом определении под термином «знания» подразумевается не только та информация, которая поступает в мозг через органы чувств. Знания такого типа чрезвычайно важны, но недостаточны для интеллектуальной деятельности. Дело в том, что объекты окружающей нас среды обладают свойством не только воздействовать на органы чувств, но и находиться друг с другом в определенных отношениях. Ясно, что для того, чтобы осуществлять в окружающей среде интеллектуальную деятельность (или хотя бы просто существовать), необходимо иметь в системе знаний модель этого мира. В этой информационной модели окружающей среды реальные объекты, их свойства и отношения между ними не только отображаются и запоминаются, но и, как это отмечено в данном определении интеллекта, могут мысленно «целенаправленно преобразовываться». При этом существенно то, что формирование модели внешней среды происходит «в процессе обучения на опыте и адаптации к разнообразным обстоятельствам»(1,5-21).
Поэтому представляется совершенно естественным исключить из класса интеллектуальных такие задачи, для которых существуют стандартные методы решения. Примерами таких задач могут служить чисто вычислительные задачи: решение системы линейных алгебраических уравнений, численное интегрирование дифференциальных уравнений и т.д. Для решения подобного рода задач имеются стандартные алгоритмы, представляющие собой определенную последовательность элементарных операций, которая может быть легко реализована в виде программы для вычислительной машины.
Под алгоритмом понимают точное предписание о выполнении в определенном порядке системы операций для решения любой задачи из некоторого данного класса (множества) задач. Термин «алгоритм» происходит от имени узбекского математика Аль-Хорезми, который еще в IX веке предложил простейшие арифметические алгоритмы. В математике и кибернетике класс задач определенного типа считается решенным, когда для ее решения установлен алгоритм. Нахождение алгоритмов является естественной целью человека при решении им разнообразных классов задач. Отыскание алгоритма для задач некоторого данного типа связано с тонкими и сложными рассуждениями, требующими большой изобретательности и высокой квалификации (2, 20-22). Принято считать, что подобного рода деятельность требует участия интеллекта человека. Задачи, связанные с отысканием алгоритма решения класса задач определенного типа, принято называть интеллектуальными. В противоположность этому для широкого класса интеллектуальных задач, таких, как распознавание образов, игра в шахматы, доказательство теорем и т. п., напротив это формальное разбиение процесса поиска решения на отдельные элементарные шаги часто оказывается весьма затруднительным, даже если само их решение несложно. Практически все этапы восприятия, понимания и порождения высказывания на естественном языке можно представить как интеллектуальные задачи.
Таким образом, можно перефразировать определение интеллекта как универсальный сверхалгоритм, который способен создавать алгоритмы решения конкретных задач. Еще интересным замечанием здесь является то, что профессия программиста, исходя из наших определений, является одной из самых интеллектуальных, поскольку продуктом деятельности программиста являются программы — алгоритмы в чистом виде. Именно поэтому, создание даже элементов ИИ должно очень сильно повысить производительность его труда.
Деятельность мозга (обладающего интеллектом), направленную на решение интеллектуальных задач, мы будем называть мышлением, или интеллектуальной деятельностью. Интеллект и мышление органически связаны с решением таких задач, как доказательство теорем, логический анализ, распознавание ситуаций, планирование поведения, игры и управление в условиях неопределенности. Характерными чертами интеллекта, проявляющимися в процессе решения задач, являются способность к обучению, обобщению, накоплению опыта (знаний и навыков) и адаптации к изменяющимся условиям в процессе решения задач. Благодаря этим качествам интеллекта мозг может решать разнообразные задачи, а также легко перестраиваться с решения одной задачи на другую. Таким образом, мозг, наделенный интеллектом, является универсальным средством решения широкого круга задач (в том числе неформализованных) для которых нет стандартных, заранее известных методов решения.
Следует иметь в виду, что существуют и другие, чисто поведенческие (функциональные) определения. Так, по А.Н. Колмогорову, любая материальная система, с которой можно достаточно долго обсуждать проблемы науки, литературы и искусства, обладает интеллектом. Другим примером поведенческой трактовки интеллекта может служить известное определение А. Тьюринга (3,11-17). Его смысл заключается в следующем. В разных комнатах находятся люди и машина. Они не могут видеть друг друга, но имеют возможность обмениваться информацией (например, с помощью электронной почты). Если в процессе диалога между участниками коммуникации людям не удается установить, что один из участников — машина, то такую машину можно считать обладающей интеллектом. Можно сказать, что именно этот путь используют практически все современные системы ИИ. Очевидно, что практически невозможно заложить все знания в достаточно сложную систему, следовательно требуются пути самостоятельного пополнения базы знаний, в том числе через тексты на естественном языке. Кроме того, только на этом пути проявятся перечисленные выше признаки интеллектуальной деятельности (накопление опыта, адаптация и т. д.).
Так как из определения интеллекта вытекает, что единственным его обладателем является человек, то и ИИ можно воспринимать в данном направлении, как модель человека, созданную для выполнения обычных задач человека вместо него самого. Основными особенностями ИИ служат умение обучаться, доказывать, принимать решения, адекватно реагировать. Данный ИИ будет иметь целостную (неизменяемую) структуру, строго сформулированные задачи и будет формироваться методом соединения функциональных блоков, представляющих собой модели глаз, рук, языка, памяти, мыслительных операций, языковых процессов.
Исторически сложились три основных направления в моделировании искусственного интеллекта. В рамках первого подхода объектом исследований являются структура и механизмы работы мозга человека, а конечная цель заключается в раскрытии тайн мышления. Второй подход в качестве объекта исследования рассматривает искусственный интеллект. Третий подход ориентирован на создание смешанных человеко-машинных, или интеллектуальных интерактивных систем, на симбиоз возможностей естественного и искусственного интеллекта. Проблема обучения распознаванию тесно связана с другой интеллектуальной задачей — проблемой перевода с одного языка на другой, а также с обучением машины языку.
Существует логический подход к проблеме искусственного интеллекта, ведь именно способность к логическому мышлению отличает человека от животных. Под структурным подходом можно подразумевать попытки построения ИИ путем моделирования структуры человеческого мозга. Довольно большое распространение получил эволюционный подход: при построении систем ИИ по данному подходу основное внимание уделяется построению начальной модели и правилам, по которым она может изменяться (эволюционировать). Одно из направлений, которому посвящают свои силы, интересующиеся искусственным интеллектом — это создание программной оболочки виртуального мира (с системой правил, набором свойств, персонажей…), где можно опробовать эволюционные идеи. Можно найти множество подобного рода индивидуальных и групповых проектов в глобальной сети Интернет. Может показаться, что это и есть реальная возможность для апробации алгоритмов, необходимых для создания (описания) искусственного интеллекта. Другой подход, который имеет право на существование — это использовать при описании создаваемого мира принципы аналогии (моделирования). То есть пытаться заложить правила, закономерности реального мира или ситуации, для поиска оптимального алгоритма существования.
Следует отметить, что существующие на настоящий момент системы искусственного интеллекта воспроизводят (и в большинстве случаев достаточно удачно) лишь некоторые особенности человеческого поведения. Проблема создания комплексной системы, которая бы смогла моделировать все функции человеческого поведения и приспосабливаться к решению разнообразных задач, подобно тому, как человеческий мозг приспосабливается к решению любой поставленной задачи, пока остается открытой, хотя этой проблемой и занимаются исследователи во всем мире.
Некоторые исследователи считают, что интеллект представляет собой умение решать сложные задачи; другие рассматривают его как способность к обучению, обобщению и аналогиям; третьи — как возможность взаимодействия с внешним миром путем общения, восприятия и осознания воспринятого. Тем не менее, все они склонны принять тест машинного интеллекта, предложенный в середине 20 века английским математиком и специалистом по вычислительной технике А. Тьюрингом. “Компьютер можно считать разумным, — утверждал А. Тьюринг, — если он способен заставить нас поверить, что мы имеем дело не с машиной, а с человеком.”
Можно выделить 4 основных подхода формирования искусственного разума, перечисленных в порядке исторического прогресса научных знаний:
- механический;
- электронный;
- кибернетический;
- нейронный.
Механический подход является первой ступенью создания искусственного разума. И это не случайно, поскольку человек осваивал в первую очередь именно механические способы повышения производительности труда, создание станков, способных выполнять рутинные операции, открывал новые физические законы и т.п.
Параллельно с развитием механического подхода формировалось новое направление создания думающих машин, так называемый электронный подход. Его развитие пришлось на середину XX века, когда появились высокие достижения в развитии электроники.
Следующий подход, который, возможно, является самым обстоятельным, называется нейронный. Этот подход основывается на том, что используемая конструкция вычислительной машины близка к конструкции головного мозга человека. Основной единицей построения такой машины, обладающей интеллектом, является нейрон; при этом все нейроны должны иметь одинаковую конструкцию и отличаться незначительно, в зависимости от выполняемой функции.
В понятие «искусственный интеллект» вкладывается различный смысл — от признания интеллекта у ЭВМ, решающих логические или даже любые вычислительные задачи, до отнесения к интеллектуальным лишь тех систем, которые решают весь комплекс задач, осуществляемых человеком, или еще более широкую их совокупность. Мы постараемся вычленить тот смысл понятия «искусственный интеллект», который в наибольшей степени соответствует реальным исследованиям в этой области.
Как отмечалось, в исследованиях по искусственному интеллекту ученые отвлекаются от сходства процессов, происходящих в технической системе или в реализуемых ею программах, с мышлением человека. Если система решает задачи, которые человек обычно решает посредством своего интеллекта, то мы имеем дело с системой искусственного интеллекта.
Характеризуя особенности систем искусственного интеллекта, Л.Т. Кузин указывает на: 1) наличие в них собственной внутренней модели внешнего мира; эта модель обеспечивает индивидуальность, относительную самостоятельность системы в оценке ситуации, возможность семантической и прагматической интерпретации запросов к системе; 2) способность пополнения имеющихся знаний; 3) способность к дедуктивному выводу, т.е. к генерации информации, которая в явном виде не содержится в системе; это качество позволяет системе конструировать информационную структуру с новой семантикой и практической направленностью; 4) умение оперировать в ситуациях, связанных с различными аспектами нечеткости, включая «понимание» естественного языка; 5) способность к диалоговому взаимодействию с человеком; 6) способность к адаптации.
На вопрос, все ли перечисленные условия обязательны, необходимы для признания системы интеллектуальной, ученые отвечают по-разному. В реальных исследованиях, как правило, признается абсолютно необходимым наличие внутренней модели внешнего мира, и при этом считается достаточным выполнение хотя бы одного из перечисленных выше условий.
Существует еще одно направление, связанное с искусственным интеллектом — звуковой интерфейс. Эта сфера компьютерных исследований включает в себя задачи анализа, понимания и синтеза речи на естественном языке, что является интеллектуальной задачей. Ýòî набор программных средств выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможностей. В настоящее время существует целый ряд программ синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API.
smARTspeak CS — настраиваемая независимая от языка программа распознавания речи для набора цифр, указания имен и речевой навигации, т.е. для приложений используемых в сотовых телефонах и беспроводных устройствах. Созданный для использования в указанных устройствах, smARTspeak CS удовлетворяет потребностям, как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0., оптимизация для средств быстрой разработки приложений и для интеграции в сертифицированные устройства.
Conversay предоставляет решение для речевого взаимодействия с информацией, поставляемой через сеть, включая Internet, в случае когда другие интерфейсы слишком сложны или отсутствуют. Conversay разрабатывает речевую технологию, которая позволяет пользователям взаимодействовать через мобильные устройства привычным для себя способом.
Программа CASSI(tm) одновременно является синтезатором и распознавателем речи, модульным, дикторонезависимым. Малые требования к памяти позволяют использовать ее для мобильных устройств.
Программа компании «Lernout&Hauspie» позволяет настраивать чтение аббревиатур и слов (ударения) — это продукт, активно продвигаемый корпорацией Microsoft. Американские программисты, вероятно, не стали приглашать специалиста по языку и взяли за основу голос русского эмигранта, подзабывшего родную речь.
Голосовая программа для русского языка Digalo, продукт французской фирмы Elan Informatique достаточно оригинальна. Digalo различает кириллические буквы «Е» и «Ё» и виртуозно владеет русской ненормативной лексикой. Французы натренировали свою программу на максимально возможное количество фонем, слогов и слов живого русского языка. Неточностей очень мало. В основном ошибки в ударениях приходятся на некоторые фамилии и имена, малоупотребительные слова и термины. Отмечено не всегда корректное озвучивание чисел и очень странное, акцентированное произнесение слов «нет» и «не». Эти изъяны не носят принципиального характера и могут быть устранены в последующих версиях программы. Тем более что разработчики обещают в дальнейшем сделать возможной корректировку произнесения отдельных слов и слогов.
Новая программа фирмы Loquendo «Actor 5» предназначена для использования в областях голосовых технологий и сервиса. Она синтезирует речь на итальянском, испанском, английском, немецком, мексиканском, бразильском варианте испанского языка и американском варианте английского (русского языка нет). На сайте http://actor.loquendo.com/actordemo/default.asp можно ознакомиться с работой программы на примерах, создав свое сообщение, выбрав любой из предложенных языков и прослушав сгенерированное сообщение.
Программа синтеза речи Клуба голосовых технологий при Научном Парке МГУ построена с использованием базовой технологии синтеза речи, разработанная на филологическом факультете МГУ группой О.Ф. Кривновой. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезировать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и т.д.), возможно редактирование голосов. Помимо стандартных функций синтеза речи имеется дополнительная функция встраивания в текст управляющих символов, которые позволяют устанавливать паузы, изменять тембр, тон и длительность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь.
Творческий коллектив радиофизиков и программистов, возглавляемый С.М. Гладковым, разработал целую серию программных продуктов под общим названием «Голосовая мышь»(4).
1.2 Технические и методологические аспекты проблемы моделирования человеческого мозга
Общность мышления со способностью отражения служит объективной основой моделирования процессов мышления. Мышление связано с созданием, передачей и преобразованием информации, а эти процессы могут происходить не только в мозгу, но и в других системах, например ЭВМ. Многие исследователи полагают, что создание искусственного интеллекта стирает грань между познающим субъектом и объектом материального мира. Если современные ЭВМ универсальны и способны выполнять целый ряд логических функций, то утверждается, что нет никаких оснований не признавать эту деятельность интеллектуальной. В этом случае можно допустить создание искусственного интеллекта или машины, которая будет “умнее” человека.
Несмотря на многообещающие перспективы, ни одну из разработанных до сих пор программ искусственного интеллекта нельзя назвать “разумной” в обычном понимании этого слова. Это объясняется тем, что все они узко специализированы. Даже среди исследователей искусственного интеллекта многие сомневаются, что большинство подобных изделий принесет существенную пользу. Немало критиков искусственного интеллекта считают, что такого рода ограничения вообще непреодолимы.
Следует отметить, что, скорее всего, создание искусственного интеллекта возможно, однако для этого придется использовать конструкцию машины достаточно близкую к строению головного мозга. Следует также отметить, что, поскольку любой мозг, человеческий или искусственный, несомненно, должен эволюционировать, а также развиваться в интеллектуальном плане, потребуется его обучение. Это обучение не обязательно будет протекать быстро – все зависит от скорости развития искусственного нейрона. Если искусственный нейрон будет выполнен на белковой основе, на обучение может понадобиться несколько десятков лет. Кроме того, развитие искусственного мозга включает, несомненно, также и этап эволюции. Это, в свою очередь, означает, что структура искусственного мозга не должна быть фиксированной, она должна быть гибкой и “уметь” в случае необходимости достраивать саму себя новыми нейронами, подобно человеческому мозгу.
Для создания “разумной машины” необходимо использовать конструкцию, которая в значительной степени отличается от конструкций существующих ныне электронных вычислительных машин (ЭВМ) и которая должна быть схожа с “конструкцией” головного мозга человека. А возможно и иметь белковую основу, поскольку “зародить” сознание, и как следствие интеллект, в механической или электронной основе вряд-ли кому-либо удастся, по крайней мере, на данном этапе развития науки. Мышление и сознание – это биологический процесс, свойственный только живым организмам (6, 23-26).
Однако это вовсе не означает, что исследователи искусственного интеллекта занимаются чисто теоретическими исследованиями. Возможно, искусственный разум, способный заменить человека во всех отношениях, никогда (по крайней мере в ближайшие 100 – 200 лет) не получит право на существование. Именно поэтому исследователи решили пойти по более простому пути и “разбить” одну очень сложную проблему на ряд нескольких маленьких. Подобный прием часто встречается и в других отраслях человеческой деятельности.
В защиту искусственного интеллекта следует сказать, что большинство из этих проблем было успешно преодолено. Уже сейчас существуют программы, которые умеют распознавать текст, написанный от руки или напечатанный, либо произнесенный человеком. Кроме того, существуют также программы, которые можно признать самообучающимися. В качестве примера таких программ можно привести, в первую очередь, программы игры в шашки или шахматы. Существуют также более сложные программы распознавания образов, отпечатков пальцев и др., которые используются в охранных системах. А пиком развития искусственного интеллекта на настоящий момент являются экспертные системы, которые, упрощенно говоря, представляют собой огромные базы знаний с максимально высоким поиском тех или иных знаний, основанном на логическом переборе известных фактов; при этом используются эвристические алгоритмы.
В настоящее время под ИИ понимают научное направление, связанное с разработкой программ ЭВМ, для автоматизации деятельности требующей интеллекта. Основными методами, использующимися в ИИ являются разного рода программные модели и средства, эксперимент, а также теоретические модели. Искусственным интеллектом называют также программы и системы, имитирующие на компьютере мыслительную деятельность человека. В связи с тем, что весьма трудно охватить мыслительный процесс человека полностью, в системе ИИ принято выделять отдельные направления мыслительного процесса. Для создания таких систем необходимо познать процесс мышления человека, решающего определенные задачи или принимающего решение в конкретной области, выделять основные этапы этого процесса, и разработать программные средства, воспроизводящие процесс с помощью компьютера.
Методы ИИ предполагают структурный подход к разработке сложных программных систем принятия решений. ИИ, как следует из самого названия, придает компьютеру черты разума. Методы ИИ дают возможность заложить систему ИИ, способность к самообучению и накоплению новой информации.
В течение последних лет в рамках исследований по ИИ сформировалось самостоятельное направление: экспертные системы. Экспертная система – это диалоговая компьютерная система, которая оперирует базой знаний в некоторой предметной области и обеспечивает ответы на запросы пользователя. Огромный интерес к экспертным системам со стороны пользователей вызван тремя основными причинами:
- они ориентированы на решение широкого круга задач в не формализованных областях;
- с помощью экспертных систем специалисты, не знающие программирования, могут самостоятельно разрабатывать интересующие их приложения;
- экспертные системы при решении практических задач достигают результатов не уступающих, а иногда и превосходящих возможности людей экспертов.
Экспертная система представляет собой программное обеспечение, которое успешно решает задачи в узкой предметной области. Типичная экспертная система состоит из следующих модулей: решателя (интерпретатор), базы данных и рабочей памяти, компонента приобретения знаний, объяснительного и диалогового компонента, базы знаний. Основу экспертных систем составляет модуль База знаний, в которую закладывается информация о данной предметной области. Модуль База данных предназначен для хранения исходных и промежуточных данных решаемой в данный момент задачи. Решатель, использующий исходные данные, формирует такую последовательность правил, которая, будучи применена к исходным данным, приведет к решению задачи, модуль приобретения знаний автоматизирует процесс наполнения экспертных систем знаниями со стороны использующего ее эксперта. Модуль Объяснения интерпретирует, как система получила решение задачи, какие знания она при этом использовала, облегчая тем самым эксперту тестирование системы. Модуль Диалог ориентирован на организацию дружелюбного интерфейса, со всеми категориями пользователей как в ходе решения задач, так и при приобретении знаний. Важнейшая роль в экспертных обучающих системах отводится базе знаний. База знаний должна реагировать на действие обучающегося. Она сама должна решать задачи в той предметной области, в которой программа обучает, и выдавать обратную связь на естественном языке.
В играх применение искусственного интеллекта также вполне очевидно. В настоящее время теории игр вообще и внедрению в нее элементов искусственного интеллекта в частности уделяется очень большое внимание. И дело вовсе не в том, что человечество увлеклось компьютерными играми, которые встраиваются сейчас во все предметы обихода – от мобильного телефона до компьютера. Дело в том, что под многими играми понимается война, поэтому в создании алгоритмов, умеющих с военной оперативностью принимать стратегические решения, заинтересована любая страна. Наибольшее опасение вызывают самообучающиеся машины (т.е. машины, совершенствующиеся по мере накопления опыта), потому что их поведение становится непредсказуемым. Такие машины делают не то, что им приказывают, а то, чему они научились.
В распознавании образов, речи и текстов применение искусственного интеллекта на настоящий момент времени почти достигло пика своего развития, насколько это возможно для машины. Этот элемент искусственного интеллекта применяется во всех сферах, так как это первоочередные вопросы диалога или контакта с машиной. Существующие программы распознавания текстов работают с очень высокой точностью. Правда, пока они позволяют распознавать лишь печатаемые тексты, но расширение сферы применения — это проблема недалекого будущего. Распознавание образов успешно применяется и в коммерческих продуктах, например охранных сигнализациях.
В области принятия решений, однако же, последнее слово всегда остается за человеком, так как эта область внедрения искусственного интеллекта является самой ответственной. На это особое внимание обращал Н. Винер на международном симпозиуме по программированию, который состоялся в 1973 году (7,10-11). Машина здесь выступает скорее в роли советчика. В нужный момент времени она подсказывает человеку, какое лучше принять решение, основываясь на собственном “опыте”. Если машина все-таки формирует окончательное решение сама, то это всегда происходит по строгим алгоритмам, которые, как правило, не являются самообучающимися и только при наличии всех данных, необходимых для решения поставленной задачи.
Разбиение одной фундаметнальной проблемы, а именно создание искусственного разума, на ряд частных принесло свои плоды. Большинство частных проблем было успешно решено, и человек теперь может использовать вычислительную машину не только как инструмент для вычислений, а как нечто большее. Ввод информации в машину с помощью звука в настоящее время уже не представляет особых проблем. Однако это только малая часть решенных вопросов в направлении искусственного интеллекта. Пока только созданы разнообразные “датчики” – звуков, образов и т.п., которые уже приносят человеку существенную пользу; подобными “датчиками” в человеческом организме являются органы чувств.
Однако это не означает, что проблема искусственного интеллекта решена. Наоборот, некоторые успехи в разработке подобного рода программ подчеркивают необходимость создания системы, которая смогла бы служить “главным командным центром”, обрабатывать информацию, которая поступает с “датчиков” и, возможно, заменить мыслительные процессы человека в некоторых предметных областях в будущем.
Следует отметить, что визуальное мышление является особой формой разумного поведения, как и обычное речевое мышление, в то время как в определении В.Глушкова (8,289), который принимал тест А.Тьюринга, связь устройства, обладающего искусственным интеллектом, с окружающим миром осуществляется только на физическом уровне. Оба вида мышления взаимодействуют между собой. Даже абстрактно-теоретическое мышление ученого не может быть оторвано от действительности.
И. Сеченов различал три фазы мышления: мышление чувственными конкретами (образами), символическое мышление и его высшая фаза — отвлеченное нечувственное мышление. И. Павлов выделял предметно-действительное и речевое мышление, а С. Рубинштейн отмечал, что, будучи различными уровнями или ступенями познания, образное и абстрактно-логическое мышление являются в известном смысле различными сторонами единого процесса и равно адекватными способами познания различных сторон действительности.
Вычислительные машины в настоящее время не приспособлены к работе на нефизическом уровне. Вот, что пишет об этом Э. Хант: «Создание ЭВМ, способной видеть и слышать, оказалось очень сложной задачей. И ни в одной из попыток машинное восприятие даже отдаленно не приближается к человеческому. Машинный анализ изображений ограничивался либо анализом фотографий, что фактически больше представляет собой специализированную задачу распознавания образов, либо анализом очень простых сцен, вроде тех, что можно построить на столе из детских кубиков. Проблемы, связанные со зрительным восприятием, в самом деле, трудно разрешимы. Машинное восприятие речи почти так же малоуспешно. Наши успехи в этой области сегодня лишь незначительно напоминают то, что обычно показывают в научно-фантастических фильмах, рассказывающих об ЭВМ, исследующих джунгли или ремонтирующих космические корабли». Выход из такого положения заключается, видимо, в создании принципиально новых устройств, основанных, как это представляется, на принципах голографии.
Отсюда можно сделать вывод, что едва ли правомерно представлять мышление человека как функцию одного лишь мозга. Мышление без тела невозможно. Чувственные восприятия человека, безусловно, более «телесны», чем логика его мысли. Однако, следует избегать той абсолютизации биологического начала в человеке, которая отвергается диалектико-материалистической философией. Так же и для искусственного интеллекта важен баланс аппаратных и программных средств.
Раздел 2 АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА В СТРУКТУРЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
При решении большинства повседневных задач человек пользуется преимущественно памятью, незначительно загружая свой мозг, распознавая возникшую задачу и извлекая решение из памяти. А в память информация попадает в процессе многолетнего обучения. Но когда мы сталкиваемся с новой задачей, то мы не можем решить ее без подготовки, и тогда в полной мере используется интеллект. На основе начальной информации о задаче человек мысленно, то есть внутри своей виртуальной машины, перебирает различные варианты, ставит эксперименты и пытается подобрать метод или последовательность методов для достижения поставленной цели. Таким образом можно решить практически любую задачу, и эта особенность мозга особенно интересна. Эту особенность можно расценивать как универсальный инструмент для решения любых задач, то есть интеллект.
2.1 Обработка текста
Словарный запас среднего неподготовленного носителя языка составляет около миллиона лексических единиц, причем необходимо учитывать, что при кибернетическом подходе все различные формы одного слова рассматриваются как совершенно разные слова, обладающие между собой связью, и указывающими на один объект или похожий объект с отличными свойствами. Так как на каждое такое слово выдается различная информация: род, число, падеж и т.д., следовательно, эти схожие слова хранятся в различных ячейках памяти человека. При средней длине слова в русском языке около 10 символов усредненный словарь занимал бы около 10 Мбайт. При возможности самостоятельного получения информации программа прочитала бы несколько сот мегабайтов текстов из разных электронных библиотек, после чего было бы сложностей с недостаточным объемом словаря.
Рассмотрим производительность, необходимую для интенсивной коммуникации двух людей. Мы формулируем свои мысли, выбираем необходимые слова, из слов формируем фразы, которые затем произносим, причем небессмысленное предложение должно быть сформировано до того, как фраза начинает произноситься. Слушающий воспринимает фразу, определяет ее акустические особенности, такие как громкость, скорость и другие индивидуальные характеристики для каждого говорящего, включая особенности произношения отдельных звуков. Звуки распознаются и соотносятся с вариантами произнесения фонем, из них собираются и распознаются слова, из слов фразы, и только из фраз слушающий распознает наши мысли и, исходя из этих мыслей, вырабатывает ответную реакцию. Цикл повторяется несколько раз без перерыва. Весь цикл выработки ответной реакции и формирование ответа для воспроизведения происходит за сотые доли секунды. За этот короткий промежуток времени необходимо обработать практически весь имеющийся словарь (символов, слов, фраз, мыслей) и выработать реакцию. Привести объем, занимаемый в памяти только словарями, достаточно сложно, подобных обобщающих исследований нами не обнаружено. Заметим, что имеются в виду не учебные словари (которыми можно пользоваться на уроках русского языка), а полный словарь, включающий в себе абсолютно все слова, которыми пользуются носители языка. Ведь для того, чтобы использовать слово в разговоре, необходимо иметь точную информацию о смысле, который оно обозначает, а если его нет в словаре, значит, можно считать, что этой единицы вообще не существует для определенного носителя языка (искусственного или естественного).
Здесь приведены только технические проблемы, но они демонстрируют, что на сегодня невозможно создание даже говорящей программы на настольном компьютере, это вполне возможно лишь на суперкомпьютере или на сетевом суперкомпьютере, которые сутками расшифровывают демонстрационные сообщения, не имеющие отношения к естественному человеческому диалогу.
На сегодняшний день самым мощным инструментом для решения задач, то есть интеллектом, обладает человек, который успешно решает задачи, но не может точно выяснить природу принятия решений. Если взять человечество в целом, то в начале развития оно ничего не знало, а на сегодняшний момент сложилась совершенно иная картина: человечество вырвалось за пределы Земли и за пределы солнечной системы. Современные технологии помогают человечеству в быту, при лечении заболеваний, в работе и на войне, наука с помощью современных технологий приблизилась к границам вселенной. Неясен источник этого прогресса, ведь информация, которую люди получают сегодня из газет, журналов, телевидения, радио, библиотеки, от друзей, знакомых когда-то отсутствовала. Вывод один: вся эта информация была получена из окружающей среды, методом проб и ошибок, то есть перебором – единственным известным методом, позволяющим приобретать новые знания. Современное человечество эксплуатирует этот метод, и сегодня производство четко выполняет технологический процесс для получения качественной продукции из качественных материалов, в то время как ученые исследуют новые более прогрессивные методы, затрачивая большие деньги на анализ всех возможных вариантов производства продукции для поиска наиболее оптимального варианта, что и есть перебор вариантов решения.
Остановимся на том, чего не хватает для создания искусственного интеллекта. Построение искусственного интеллекта необходимо начинать с создания словаря слов естественного языка, потому что естественный язык является базой для построения естественного интеллекта. Можно рассмотреть этот вопрос по аналогии с алфавитом (в широком понимании), который является базой для построения слов. В алфавите содержится законченное число символов, из которых путем комбинации получается бесконечное количество слов естественного языка. Для порождения нового слова нет необходимости расширять алфавит: достаточно изобрести новую комбинацию существующих символов.
Нет ни одной программы, в базе данных которой содержались бы все слова русского языка, даже если анализировать уже разработанные программы-переводчики с одного языка на другой, которые значительно проще ИИ. Для создания программы автоматизированного перевода есть все необходимые технические условия даже на настольном компьютере, то есть достаточно вычислительной мощности процессора и памяти, но до сих пор не создано программы, которая могла сравниться с человеком по качеству перевода. По скорости программа даже опережает человека, но качество остается не самым высоким: в силу того, что время от времени встречаются незнакомые для программы слова, в процессе перевода часто теряется смысл и результат работы такой программы понять труднее, чем текст оригинала, иногда в предложение попадают слова совершенно из другого контекста, без учета семантических и стилистических характеристик лексических единиц.
Тем не менее, на мой взгляд, на сегодня основная проблема создания искусственного интеллекта не техническая. Она заключается в том, что всю информацию людям приходиться вводить вручную с помощью клавиатуры. Используя это не совсем удобное, низкоскоростное устройство ввода, необходимо ввести огромные объемы информации, которые человек получает в процессе обучения около 22-х лет на естественном языке. Намного эффективнее было бы научить компьютер получать информацию из окружающей среды (слушать, видеть, понимать), извлекать ее из телепередач в результате самообучения, собирать необходимую информацию из газет, журналов и задавать необходимые вопросы на естественном языке. С этой задачей уже давно справляется интеллект естественный, когда ребенок в процессе развития учится слушать, видеть, говорить и задает бесконечное количество вопросов. На базе этого несложного и естественного алгоритма возможно построить так необходимый для человечества искусственный интеллект. Пока для ввода информации используется только клавиатура, все разрозненные программные попытки моделирования ИИ, построения программ перевода на различные языки будут иметь успех исключительно благодаря теории вероятности и будут применимы в очень узком диапазоне.
Многие споры проблемы создания искусственного интеллекта имеют эмоциональную подоплеку. Признание возможности искусственного разума представляется чем-то, унижающим человеческое достоинство. Однако нельзя смешивать вопросы возможностей искусственного разума с вопросом о развитии и совершенствовании человеческого разума. Повсеместное использование ИИ создаёт предпосылки для перехода на качественно новую ступень прогресса, даёт толчок новому витку автоматизации производства, а значит и повышению производительности труда. Искусственный разум может быть использован в ненужных целях, однако это проблема не научная, а скорее морально-этическая.
Первая проблема связана с потерей стимулов к творческому труду в результате массовой компьютеризации или использования машин в сфере искусств. В последнее время стало ясно, что человек добровольно не откажется от самого квалифицированного труда – творчества, — так как он для самого человека является привлекательным.
Вторая проблема носит более серьезный характер, и на нее неоднократно указывали такие специалисты, как Н. Винер, Н.М. Амосов, И.А. Полетаев и др. Состоит она в следующем. Уже сейчас существуют машины и программы, способные в процессе работы самообучаться, т. е. повышать эффективность приспособления к внешним факторам. В будущем, возможно, появятся машины, обладающие таким уровнем приспособляемости и надежности, что необходимость человеку вмешиваться в процесс отпадет.
Применение элементов искусственного интеллекта в будущем возможно, однако дать конкретные прогнозы того, что и когда будет достигнуто, представляется проблематичным. Однако на ряде уже существующих фактов можно прогнозировать хотя бы сферы и примерный “род работы” для систем искусственного интеллекта.
Остается малоисследованной деятельность мозга. Это происходит не в силу технической невозможности проследить тот или иной тип взаимодействия частей мозга, соотнесения этих частей с теми или иными областями жизнедеятельности или мышления, а в силу того, что обнаружение таких специализаций частей мозга, связей любых его структур не дает представления об общей концепции его деятельности. Очевидно, что полное представление о работе мозга, возможно получить лишь после полного моделирования его деятельности на компьютере, т.е. создания реального искусственного разума. А выяснение процесса мышления поможет людям его оптимизировать. Возможно, что значение искусственного интеллекта будет заключаться даже не в написании новых программ, а в новом подходе к пониманию процесса мышления. Если мы узнаем что-то новое о том, как человек читает и понимает прочитанное или сказанное, как происходит творческий процесс, то это поможет людям в их работе и в коммуникации.
Ответить на вопрос, возможно ли в недалеком будущем создание своеобразного искусственного “мозгового центра”, можно однозначно: нет, по крайней мере, на данном этапе развития науки. Человек будет передавать машине лишь некоторые функции, выполняемые им в процессе мышления. Само мышление как духовное производство, создание научных понятий, теорий, идей, в которых отражаются закономерности объективного мира, останется за человеком.
Проблемы взаимосвязи науки и практики сегодня проходят для лингвистики через призму требований глобальной компьютеризации. Язык носит всепроникающий характер. Любая проблема информатики, искусственного интеллекта, экспертных систем и — шире – рационализации человеческой деятельности имеет языковой аспект. Корень многих недоразумений кроется в неточном определении информационной природы естественного языка. Важно иметь в виду, что язык – это не столько «форма выражения» готовых мыслей, сколько способ содержательной организации и представления знаний. Этот способ первичен, универсален, возникает с самим зарождением человеческого интеллекта и служит надежным инструментом его развития. Компьютеризация разнообразных видов интеллектуальной деятельности рано или поздно приводит к необходимости экспликации языковой способности пользователя ЭВМ с последующим созданием соответствующих банков знаний и машинных программ.
Особо следует подчеркнуть необходимость учитывать лингвистическую семантику при построении языков представления знаний вне системы обработки текстов в ее полном виде. Даже в этом случае естественный язык служит надежной точкой отсчета: ведь и создатели систем, и пользователи говорят, пишут и думают преимущественно на естественном языке. В социальном плане значимость лингвистических проблем компьютеризации связана с возникновением новых видов массовой деятельности, включающих построение искусственных языков и машинных словарей, разработку информационных банков, построение алгоритмов обработки текстов, разработку режимов общения в системе «человек – компьютер – человек» и т.д.
Лингвистическое обеспечение автоматизированных систем – это совокупность средств, позволяющих осуществлять компьютеризацию языковой деятельности, сопровождающей практически любую интеллектуальную деятельность человека. С технологической и системной точек зрения речь идет о создании того или иного типа автоматизированной системы обработки текста (АСОТ) – некоторого процессора, на входе и на выходе которого присутствует текстовая информация на естественном языке. Типы АСОТ многообразны и могут быть нацелены на моделирование различных языковых процессов, таких, например, как диалоговое взаимодействие, сжатие информации, реферирование текста, логическая обработка содержания, перевод на другой естественный язык и т.д.
Автоматическая обработка текста – преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория начали создаваться в конце 50 – х. гг. XX в. и развивались в нескольких различных приложениях: в системном программировании, издательском деле и в вычислительной лингвистике (). В системном программировании, предметом которого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т.е. текстов на алгоритмических языках. В издательском деле АОТ – одно из направлений автоматизации редакционно-издательских процессов. В этих областях термин «АОТ» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислительной лингвистике, предметом которой является автоматический лингвистический анализ и синтез текста, а также лингвистические аспекты общения с ЭВМ на естественном языке, термин «АОТ» понимается в более широком смысле, охватывающем в том числе процедуры анализа содержания и синтеза текста (10).
В зависимости от целей различают несколько видов АОТ. Преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматического набора и верстки текст, введенный в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфическим оборудованием.
При лексикографической обработке текст преобразуется в лексикографическое представление, в котором каждому словоупотреблению соответствует определенная информация в формируемом к этому тексту словаре. Автоматизированные лексикографические системы, т.е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографической обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчета статистики словоупотреблений, программы загрузки, поиска и коррекции данных.
Автоматические словари используются в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естественном языке в качестве справочников при подготовке к расширению словарей и уточнению грамматик этих систем.
В составе лингвистического обеспечения автоматизированных информационных систем различают три группы функций АОТ: автоматическое индексирование входных документов, автоматическое составление поисковых предписаний по тексту запросов и автоматизирование ведение словарей системы. Ядром лингвистического обеспечения автоматизированных информационных систем являются информационно – поисковые тезаурусы, в терминах которых производится индексирование вводимых в систему текстов.
Наиболее полно функции АОТ развиты в системах автоматического перевода и системах человеко-машинного общения, где основным является синтаксический, а в системах общения с ЭВМ – семантический анализ. Эти наиболее сложные формы АОТ целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислительной лингвистики. Здесь АОТ осуществляется сложными программами, называются языковыми, или лингвистическими, процессорами (NLP – Natural Language Processor).
Центральной функцией языковых процессоров является грамматический разбор. Программа грамматического разбора использует в качестве справочных данных формальные грамматики и словари того языка, тексты которого служат объектом анализа или синтеза. В некоторых языковых процессорах систем автоматического перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологическую, синтаксическую, семантическую и словарную компоненты, каждая из которых реализует динамичную модель языка на соответствующем уровне. Языковые процессоры систем общения с ЭВМ опираются, как правило, на некоторую систему представления знаний и взаимодействуют с ней, осуществляя функции логического вывода.
С 70-х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем АОТ в рамках искусственного интеллекта – направления в информатике, связанного с созданием сложных человеко-машинных и робототехнических систем, моделирующих человеческую деятельность в различных сферах и предметных областях (11). В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и источником данных для выбора ее поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования все больше сливаются с функциями содержательной обработки, образуя единый аппарат понимания текста (12,71-88).
В центре внимания этого направления исследований в области обработки естественного языка оказался опыт изучения общения, диалога, компьютеризации в гуманитарных науках. Основное отличие компьютерного моделирования коммуникации в системах взаимодействия с ЭВМ заключается в том, что при ограничении проблемной сферы разработчикам приходится учитывать все аспекты, все уровни реального общения, что представляет собой серьезную проблему не только практического, но и теоретического плана. Достаточно сказать, что до сих пор не существует общепринятой теории диалога на естественном языке, которая включала бы лингвистические, социологические и психологические составляющие.(13-14)
Общение с ЭВМ осуществляется в виде диалога человека и компьютера. Роли участников меняются, инициатором может выступать и машина, и человек. Имеются системы, которые настроены только на одну стратегию. Например, информационно-поисковые системы ориентированы преимущественно на пассивную стратегию ответа на вопросы, задаваемые пользователем. Перехват инициативы компьютером возможен только для уточнения вопроса или информационной потребности. Такие системы называются системами с жесткой структурой диалога.
С другой стороны, многие экспертные системы на определенном этапе должны использовать стратегию опроса пользователя. Если допускается смена ролей участников диалога, такая структура коммуникативного взаимодействия называется «мягкой».
Архитектура систем обработки естественного языка в общем случае включает в себя блок анализа речевого сообщения пользователя, блок интерпретации сообщения, блок порождающего смысла ответа и блок синтеза поверхностной структуры высказывания. Особой частью системы является диалоговый компонент, в котором фиксированы стратегии ведения диалога, условия применения этих стратегий, способы преодоления возможных коммуникативных неудач. Диалоговый компонент системного общения на естественном языке должен обеспечивать компьютерное взаимодействие на глобальном уровне, на уровне тематической структуры, а также на уровне речевых действий.(15-18). Степень проработанности каждого из этих уровней в конкретных алгоритмах системы может быть различной, что определяется общими задачами системы — искусственного интеллекта, в котором встроена система диалогового взаимодействия. Стратегии ведения диалога и его тематическая структура обычно представляются в виде сценариев.
Язык – незаменимый помощник в сфере рационального мышления, так же как и в сферах эмоционального общения. Язык – это фактор регулирования практически любой человеческой деятельности.
Всеобщий интерес к коммуникативной природе языка и языковых явлений, к категории коммуникативности вызвал к жизни множество направлений и методов исследования. Среди них особое место занимает та совокупность направлений, которую можно обозначить как теория моделей общения (19-22). Это наименование означает, что в качестве объекта исследования берется, прежде всего, особая деятельность, называемая «общением», а в качестве основного метода – общенаучный метод моделирования . Сущность рассматриваемого метода заключается в построении некоего искусственного образования, искусственного механизма (например, в виде системы правил) так, чтобы эта система отражала, объясняла, имитировала изучаемую деятельность. В 1923 г. появилась работа Л.П. Якубинского «О диалогической речи», в которой, есть мысль, предвосхищающая сегодняшние искания в области компьютерного моделирования диалога. Л.П. Якубинский пишет: «Диалогическая форма способствует протеканию речи в порядке автоматической деятельности». Отсюда следует, что для успешного общения человека с компьютером при организации этого общения должны быть учтены модели диалога, уже автоматизированные в человеке и заложенные в его интеллектуальных, в частности языковых, способностях (23). Необходимость сознательного, активного развития теории моделей общения диктуется нетерпимостью дальнейшего застоя, который стал очевиден в целом ряде разделов теоретического языкознания. Повторение мысли о коммуникативной природе языка, речи, предложения, высказывания, значения и т.п. стало общим местом курсов по общему языкознанию, монографий о природе языка и речи. Жизнь требует точных моделей общения и для кардинального изменения положения в школьном классе, и для включения в сеть человеческого общения компьютеров (обладающих искусственным интеллектом).
Интерес к моделям общения неуклонно растет и в теоретической, и в прикладной лингвистике. Мы имеем на сегодня целый ряд специальных теорий, затрагивающих отдельные аспекты общения: это прагматика в ее многочисленных толкованиях, теория речевых актов, теория речевой деятельности, теория массовой коммуникации, теория диалоговых компьютерных систем, риторика и анализ дискурса, теория аргументации и другие. Тем более важно развитие комплексной теории моделей общения. Основная целостная единица речевого общения – это речевой коммуникативный акт как законченная часть языкового действия, имеющая естественные границы. Коммуникативный акт входит в состав некоторого акта совместной деятельности, включающей физическую, интеллектуальную, эмоциональную, бессознательную, а также неречевую семиотическую деятельность. Типовая разновидность коммуникативного акта – диалог, хотя в общем случае сюда может включаться и монолог. Границы коммуникативного акта обычно определяются достижением некоторой стратегической цели. В случае, если она не достигается, акт общения квалифицируется как неудачный (24-25).
Компьютер должен понимать человека с достаточной степенью полноты и глубины, чтобы быть сметливым, предупредительным, пунктуальным, но не обременительным помощником в разнообразных видах практической деятельности. Столь же неотложной, сколь и проблема понимания, является, конечно, задача организации и представления знаний, участвующих в понимании языковых сообщений и вопросов, и далее – в формировании решения, в выполнении задания. Без знаний не может действовать ни человек, ни компьютер, — во всяком случае, действовать разумно и с опорой на социально отработанный опыт. Практика создания многочисленных лингвистических процессоров привела в самое последнее время и к осознанию того, что неизменным спутником процесса понимания являются коммуникативные неудачи и что поэтому они должны стать предметом специального исследования. Тем самым наряду с теорией понимания и теорией знаний возникает теория способности противостоять коммуникативным неудачам, или теория коммуникативной надежности .
Р. Шенк, один из ведущих зарубежных специалистов по лингвистическим проблемам искусственного интеллекта, вместе со своими соавторами Л. Бирнбаумом и Дж. Меем стремится окончательно утвердить такой подход к моделированию процесса понимания, который основан на интегральном представлении и использовании знаний (26). Из этого подхода вытекает принципиальная невозможность разделения семантики и прагматики. Хотя Шенк прямо не говорит о коммуникативных неудачах, фактически именно эта опасность заставляет его выдвинуть идею обязательного использования «больших структур» знаний (сценариев, так называемых «конфигураций» (или пакетов) организации памяти или других крупных блоков). Именно знания «высших уровней» позволяют делать необходимые умозаключения для того, чтобы связать высказывания, разделенные сплошь и рядом теми или иными «логическими пропусками».
Является ли некоторый данный уровень описания языка автономным относительно соседнего, более «высокого» уровня — этот вопрос представляет большой интерес для лингвистики независимо от того, о каких конкретно уровнях идет речь. Наиболее очевидным примером здесь могут служить разногласия, существующие в генеративной лингвистике по вопросу о соотношении синтаксиса и семантики. С точки зрения искусственного интеллекта, при построении процессуальной модели языка эти два уровня должны быть объединены. Поскольку обработка языковых данных требует объединения знаний, содержание которых чрезвычайно разнообразно, мы должны поверить в возможность того, что между уровнями языка не существует функциональных различий.
Искусственный интеллект занимается разработкой когнитивных процессуальных теорий, а также экспериментами по компьютерному воплощению этих теорий. Делая упор на процессуальное описание, ИИ применяет особый подход к языку, четко отличающийся от других парадигм лингвистического исследования. С этой точки зрения, уяснение соотношения семантики и прагматики подразумевает уяснение того, как и когда каждый из аспектов используется в процессах понимания и вербализации. Важное методологическое положение состоит в том, что специалисты в области ИИ должны целенаправленно решать эту проблему, если они стремятся к построению процессуальной модели, способной выполнять существенные языковые задачи: понимание текста, ответы на вопросы, перевод и др. В ИИ нельзя произвольно рисовать квадраты, обозначающие модули, которые содержат знания разного типа, и соединять их стрелками. Независимые элементы должны действительно работать независимо.
Единство семантики и прагматики можно сформулировать точнее, как утверждение об их функциональном единстве. Процессуальные модели языка, не пользуются каким-либо отдельным, независимым уровнем семантической обработки или семантических знаний. Семантические знания применяются в процессе обработки языковых данных точно так же, как прагматические, при этом задействованы те же способности делать умозаключения и пользоваться памятью, что и в процессах обыденного мышления. Семантика — неотъемлемая часть прагматики в широком смысле, то есть нашего общего знания о мире и об использовании языка. С психологической точки зрения, наиболее кардинальным является то, что процессуальный подход к языку не включает вычисления некоего уровня семантического представления, независимого от прагматических знаний и служащего входом для отдельного компонента прагматического рассуждения. Понимание достигается объединенным применением семантических и прагматических знаний. Значение слова или высказывания представлено как составная часть памяти, точно так же, как и другие знания. Важнейшим понятием здесь является память. Иные лингвистические семантики из высказанного следует два главных вывода. Первый состоит в том, что не существует «словаря», а есть только «энциклопедия». Иначе говоря, лексикон тесно связан с прочими нашими знаниями и неотделим от них. Второй вывод касается проблематичности понятия «буквальное значение». Если представление лексем и высказываний включает структуры, неотъемлемо связанные с прочими знаниями, может оказаться, что, вообще, невозможно обособить части этих структур, отождествимые с буквальным содержанием этих слов и высказываний. Таким образом, этот взгляд ставит под сомнение основания простых «восходящих», чисто комбинаторных теорий значения, таких, например, как теория Катца – Фодора или семантика условий истинности.
Почему же тогда самостоятельная семантика существует, и почему лингвисты пытались строить теории, основанные на такой точке зрения? Л. Ельмслев сумел подчинить семантику автономной системе морфологии и синтаксиса, постулировал полный параллелизм между структурами «плана выражения» и « плана содержания». Казалось, что в его теорию довольно искусно включалась семантика, тогда как в действительности она была исключена – типичный пример того, «как заниматься семантикой, на самом деле не занимаясь ею». Доктрина автономного синтаксиса в порождающей лингвистике привела к похожему результату. Если считать, что синтаксис не зависит от семантики, то будет естественно предположить, что семантика, в свою очередь, независима от прагматики. Методологический смысл нашего взгляда состоит в том, что, поскольку семантика связана с прагматикой, она не должна изучаться независимо. Семантические теории должны использовать такие крупные структуры для представления обыденных знаний, которые изучались когнитивными науками, то есть фреймы (Минский, Черняк) и сценарии (scripts) (Шенк, Абельсон).
Сходное смешение лежит в основе упорного непонимания исследований в области ИИ со стороны некоторых лингвистов и психологов. Для осуществления исследований в области ИИ — по проблемам ли естественного языка, планирования деятельности или решения задач, — нужно выбрать некоторую сферу знания, которая может оказаться сама по себе интересной, но чаще она скучна, и не требуется особого ума для выявления тех фактов из этой сферы, которые должны быть известны для достижения поставленных целей. Суть исследования в этих случаях составляют не факты сами по себе, а методы их представления, организации и применения для понимания и синтеза высказываний или для решения задач. Утверждать, что в исследованиях по ИИ изучается «знание правильного поведения в ресторанах» (Маршалл), значит просто не понимать, о чем речь.
Ключевая роль концептуальных представлений состоит в облегчении вывода правдоподобных умозаключений и в упрощении процессов обработки памяти. Такая точка зрения отличается от принятой в лингвистике идеи, что назначение семантического представления состоит в объяснении таких свойств, как синонимия, аномальность и логическое следование.
В конечном счете обе эти точки зрения могут считаться подтвержденными лишь в той мере, в какой успешны основанные на них теории; однако вопрос о том, что считать успехом, является спорным. Если вывод правдоподобных умозаключений и обработка памяти рассматриваются как существенные функции семантического представления, то они выдвигаются в центр семантической теории, которая должна, соответственно, заниматься процессами, традиционно не считавшимися «семантическими». Любая семантическая теория, не обращающаяся к этим вопросам, вряд ли прольет свет на то, как язык используется для передачи мыслей, а это, можно с уверенностью утверждать, — наиболее фундаментальная научная проблема, связанная с языком.
Может оказаться полезным соотнести этот вопрос со здравой оценкой того, как и почему люди пользуются языком для общения. Неоднократно отмечалось, что высказывания говорящего не сообщают в открытом виде, то есть эксплицитно, всего того, что слушающий должен понять в соответствии с намерением говорящего; следовательно, нужно допустить наличие скрытого, имплицитного, содержания. Часто то, что должен вывести слушающий, не вытекает с необходимостью из услышанного, и требуется вывести и правдоподобное умозаключение, о каком-то дополнительном содержании. Отсюда ясно, что концептуальные представления должны способствовать осуществлению процесса вывода правдоподобных умозаключений.
Также очевидно, что цель общения часто не достигается, если слушающий не помнит, что ему было сообщено. Следовательно, концептуальные представления должны играть ключевую роль и в организации памяти. Изучение того, как можно строить концептуальные представления, чтобы они способствовали проведению процессов обработки памяти и правдоподобного вывода, составляет основу теории концептуальных зависимостей. Рассмотрение этой процедурной проблематики заставляет немедленно отбросить возможность того, что слова и предложения естественного языка сами являются приемлемыми представлениями значения, так как слова и предложения неоднозначны и эллиптичны. Предложение Mary gave John a million dollars ‘Мэри дала Джону миллион долларов’ подразумевает, что у Джона есть миллион долларов, но предложение Mary gave John a kiss ‘Мэри поцеловала Джона’ (буквально: ‘Мэри дала Джону поцелуй’) не подразумевает, что у Джона что-то есть. Трудно предотвратить такого рода ошибочные умозаключения, если соответствующие правила будут формулироваться исключительно в терминах слов как таковых и по законам синтаксиса естественного языка.
Другая серьезная проблема, возникающая при использовании естественного языка в концептуальных представлениях, связана с тем, что одно и то же значение может быть выражено многими способами, внешне весьма различными. Концептуальное представление, в котором взаимосвязанные значения представлены, насколько это возможно, взаимосвязано, облегчает поиск в памяти, например при ответе на запрос. Более того, в той мере, в какой сходство значений двух высказываний отражается в их концептуальных представлениях, общие для них правдоподобные умозаключения могут осуществляться на основании общих правил. Это позволяет сократить общее число необходимых правил вывода. Например, говорите ли вы кому-то, что «Фред купил машину у Джерри», или же что «Джерри продал машину Фреду», вы можете ожидать, что слушающий поймет, что теперь машина принадлежит Фреду, что Джерри получил от Фреда какую-то сумму денег в обмен на машину, и т.д. Если представления этих высказываний достаточно сходны, то в обоих случаях могут быть применены одни и те же правила. Это также позволит получить понятийную информацию, общую для разных языков, в модели, охватывающей несколько языков. Экономия такой схемы — не просто эстетическое свойство; она имеет реальные последствия для организации процесса обработки текстов.
Чтобы удовлетворить вышеуказанным условиям, нужно максимально ограничить число элементарных символов, из которых строятся концептуальные представления. «Многословие» или избыточность в словаре представлений дает немедленные результаты, порождая большую избыточность и сложность в процессах обработки памяти и вывода умозаключений. Необходимость ограничения словаря представлений подтверждается, если рассмотреть вопрос о том, чем определяются сами концептуальные представления. С точки зрения ИИ наиболее последовательный ответ таков: значение представлений обусловлено их функциональной ролью в ментальных процессах. Тогда, в частности, значение некоторого символа в системе представлений зависит от того, в какие структуры представлений он входит и в каких правилах вывода упоминается. Таким образом, как указывал Хейз, каждый символ должен играть какую-то роль во многих структурах и правилах вывода, для того чтобы иметь какое-либо существенное содержание или значение. Путь лежит через выражение максимально возможного числа фактов и правил с использованием минимально возможного числа символов. Неправильно было бы просто объявить каждый английский глагол предикатом лежащего в его основе концептуального представления без всякого дальнейшего анализа.
Концептуальные представления могут также облегчить процесс вывода и в том плане, что они очерчивают круг тех выводов, которые должны быть сделаны. Что уже известно о представляемом высказывании, понятии или пропозиции, а что еще остается обдумать, — все это, насколько возможно, должно быть очевидно при «просмотре» представления. Падежные фреймы – один из видов представления, выполняющего эту функцию: пустые слоты (незаполненные падежи) указывают, хотя бы частично, на информацию, которой недостает и которую нужно вывести.
На основе этих соображений была выработана система для представления значения естественно-языковых высказываний; она является частью теории концептуальных зависимостей. Элементарный словарь системы позволяет представлять действия, объекты, состояния и изменения состояний, а также причинные отношения. Каждая единица в элементарном словаре имеет набор связанных с ней концептуальных падежей, определяющих наиболее ключевые роли или свойства. У всякого действия, например, есть деятель и объект, у некоторых – источник и цель; факультативно может быть указано инструментальное действие. Первоначально количество элементарных действий в системе колебалось между десятью и пятнадцатью. С течением времени некоторые из них оказались более удачными, чем другие, а с исследованием новых сфер были введены новые. Приведем описания пяти наиболее часто встречающихся и, следовательно, наиболее полезных действий по Шенку:
PTRANS: осуществить физическое перемещение объекта из одного места в другое;
ATRANS: передать абстрактное отношение, например, обладание объектом или контроль над ним, от донора к реципиенту;
MTRANS: передать информацию (или в пределах психики одного индивида или между индивидами);
ATTEND:сфокусировать орган чувств на стимуле;
PROPEL: приложить силу к объекту в данном направлении.
С каждым элементарным понятием связаны правила правдоподобных умозаключений, которые могут помочь при актуализации данного понятия или при соотнесении его с другими понятиями. Простой пример: из актуализации ATRANS можно сделать какие-то выводы о том, чем обладают упомянутые деятели. Ригер установил наличие шестнадцати различных типов вывода правдоподобных умозаключений и разработал методику их применения в компьютерной программе.
2.2 Обработка звучащей речи
Отдельную группу проблем для систем искусственного интеллекта составляет вопрос ввода и вывода информации в звуковой форме. В настоящее время он проявляется как многочисленные разработки речевого компьютерного интерфейса.
Компьютерный интерфейс на первых этапах развития вычислительной техники в качестве обязательного элемента непременно включал человека-специалиста, что, конечно, было не слишком удобно для конечных потребителей информационных услуг. Налицо была необходимость общаться с компьютером напрямую, при этом без знания специальных технических сведений…
Сейчас практически забыли, как человек общался с первыми вычислительными машинами: оператор, используя провода с разъемами на концах, соединял между собой триггеры (из которых, собственно, и состояла машина) таким образом, чтобы при запуске выполнялась нужная последовательность команд. Внешне это очень напоминало манипуляции телефонных АТС начала XX века, а, по сути было очень квалифицированной работой. Можно сказать, программирование тогда осуществлялось даже не в машинных командах, а на аппаратном уровне. Потом задача упростилась: последовательность нужных команд стали записывать непосредственно в память машины. Для ввода информации стали применяться более производительные устройства. Сначала это были группы тумблеров, переключая которые, оператор (или программист — тогда эти понятия означали одно и то же) мог набрать нужную команду и ввести ее в память машины. Затем появились перфокарты. Следом — перфоленты. Скорость общения с машиной возросла, число ошибок, возникающих при вводе, резко уменьшилось. Но сущность этого общения, его характер не изменились.
Возможность впервые пообщаться напрямую появилась на так называемых малых машинах. Пользователям, привыкшим к непонятному и неэффективному посредству лаборантов, скудный диалоговый режим командной строки казался верхом совершенства. Именно ему сначала малые ЭВМ, а потом и персональные компьютеры во многом обязаны своим грандиозным успехом. Любой потребитель компьютерных услуг мог, не вдаваясь в технические трудности и выучив всего пару десятков команд операционной системы, общаться с компьютером без посредников. Тогда впервые возникло такое понятие, как «юзер» (т.е., “пользователь”), и именно появлению диалогового режима история приписывает взлет и расцвет многих компьютерных компаний, например, DEC. А потом появился интерфейс графический: отпала нужда в знании вообще каких-либо команд, и пользователь стал общаться с персональным компьютером на интуитивно понятном языке, сходном с языком жестов. В тот же период начались разработки в области звукового интерфейса.
Таким образом, продолжаются поиски такого интерфейса, который устроил бы всех людей, коммуницирующих с вычислительной техникой. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером. Еще в эпоху перфокарт в научно-фантастических романах человек с компьютером именно разговаривал, как с равным себе. Тогда же, в эпоху перфокарт, или даже ранее, были предприняты первые шаги по реализации речевого интерфейса. Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи. Построение речевого интерфейса распадается на три составляющие.
Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофон. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим): «Старт! Главное меню! Ворд!». В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!» означают в одной ситуации разные понятия, а в другой — одно и то же. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.
Пока окончательное решение существует только для третьей задачи. По сути, синтез речи — это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация. Уже есть разного рода программы для чтения вслух текстовых файлов, озвучиванием диалоговых окон, пунктов меню, с генерацией разборчивых текстовых сообщений они справляются. Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов: даже, казалось бы, одинаковые буквы и слоги в разных словах на спектрограммах выглядят по-разному. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов пять-семь лет назад. Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Большие надежды есть на появление так называемых квантовых компьютеров. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях. Поэтому пока удел речевого интерфейса — всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер осмысливал услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.
Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страницу уйдет пять минут.
Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой — активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой — несмотря на почти полвека настойчивых усилий не нашли разрешения концептуальные вопросы, стоявшие еще перед родоначальниками речевого ввода.
Первый — и, основной — вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.
Становление современной компьютерной индустрии проходило под флагом графического интерфейса, альтернативы которому в круге задач, решаемых сегодня компьютерами, не существует. Массовые приложения: системы автоматизированного проектирования, офисные и издательские пакеты, системы управления базами данных составляют основной объем интеллектуальной нагрузки компьютеров, оставляя в их нынешнем виде очень мало места для применения альтернативных моделей пользовательского интерфейса, в том числе и речевого.
Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался (и будет пользоваться) жестами, то есть системой «руки — глаза». На этом принципе построен современный графический интерфейс, Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Сегодня среди ведущих производителей систем распознавания речи не принято отдавать должное достижениям исследователей прошлых лет. Причина понятна: это не только в значительной степени снизит видимые показатели достигнутого ими прогресса, но и поспособствует возникновению вполне обоснованных сомнений в перспективности осуществляемых подходов вообще.
Для объективной оценки прогресса технологии распознавания речи нужно сравнить характеристики систем, реализованных в рамках проекта к 1976 году и систем, продвигаемых на рынок в настоящее время. Возникает два вопроса. Почему не нашли достойного применения разработки двадцатилетней давности и почему за такой продолжительный период не произошло видимого качественного сдвига в характеристиках конкретных систем. Ответ на первый вопрос частично изложен выше: основная проблема лежит в области применения. Можно добавить, что вопреки настойчиво навязываемому сегодня в маркетинговых целях мнению, высокие требования данной технологии к вычислительным ресурсам не являлись основным препятствиям к ее широкому внедрению. Возникновение схожих проблем у разработчиков графических систем привело к созданию и массовому применению графических аппаратных ускорителей, а не отказу от оконного интерфейса. При этом разрабатываемые peчевые адаптеры не превосходят по себестоимости графических. Ответ на второй вопрос напрямую связан с первым. Технология, не находящая применения, не может себя прокормить и обеспечить свой рост. Кроме того, вполне возможно, что ориентация большинства исследовательских центров на увеличение распознаваемого словаря является ошибочной как с точки зрения применимости, так и с точки зрения научной перспективности. Еще в 1969 году в своем знаменитом письме редактору журнала Акустического общества Америки Дж. Пиес, сотрудник фирмы Bell Laboratories, указал на отсутствие явного прогресса в то время и возможности такого прогресса технологии распознавания речи в ближайшем будущем в связи с неспособностью компьютеров анализировать синтаксическую, семантическую и прагматическую информацию, содержащуюся в высказывании. Имеющийся барьер может быть преодолен только с развитием систем искусственного интеллекта. Направлением, натолкнувшимся в 70-х на барьер сложности и находящемся в настоящее время практически в полном забвении. Трудно надеяться на дальнейшее улучшение характеристик устройств речевого ввода, учитывая, что уже в 70-х годах их способность распознавать звуки речи превосходила человеческую. Данный факт был подтвержден серией экспериментов по сравнению уверенности распознавания человеком и компьютером слов иностранного языка и бессмысленных цепочек звуков. При отсутствии возможности подключения прагматических (смысловых), семантических и других анализаторов человек явно проигрывает.
Для иллюстрации приведенных выше, возможно, несколько спорных утверждений рассмотрим перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время. Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись 2 слова в секунду, непрофессиональная 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0 слова в секунду, в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке. Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствуете высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.
Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи — чувствительность к четкости произношения — приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости — совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний. Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое, на мой взгляд, создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя, Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.
Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем.
Самый успешный на сегодня проект коммерческого применения распознавания речи — телефонная сеть фирмы AT&T. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год. Данный вывод находится в противоречии с устоявшимися широко распространенными стереотипами и ожиданиями. Несмотря на то, что одним из наиболее перспективных направлений для внедрения систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора. А между тем именно эти приложения представляют очень низкие требования к объему распознаваемого словаря наряду с жесткими ограничения, налагаемыми на предварительную настройку. Более того распознавание спонтанной слитной речи практически топчется на месте с 70-х годов, силу неспособности компьютера эффективно анализировать неакустические характеристики речи. Даже Билл Гейтс, являющий собой смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 1995-96 году с разработки собственной универсальной системы распознавания речи провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого интерфейса планируется включить в стандартную поставку новой версии — чисто офисной операционной системы. При этом руководитель Microsoft упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты «Формулы 1». Кроме того, неужели Microsoft в ближайшем будущем npeкратит выпycк Word, Excel и т. д. Управлять графическими объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно.
Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне — речевом синтезе. Заглавную роль в этом перекосе сыграло бурное развитие в последнее время систем, ориентированных на события, в значительной степени подавляющих отношение к компьютеру как активной стороне диалога. Еще относительно недавно, подсистемы распознавания и синтеза речи рассматривались как части единого комплекса речевого интерфейса. Однако интерес к синтезу пропал достаточно быстро. Во-первых, разработчики не встретили даже десятой доли сложностей, с которыми они столкнулись при создании систем распознавания. Во-вторых, в отличие от распознавания синтез речи не демонстрирует значительных преимуществ перед другими средствами вывода информации из компьютера. Практически вся его ценность заключается в дополнении речевого ввода. Для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность применимости речевого интерфейса. Кроме того, современный компьютер, оснащенный распознавателем речи, не может помочь людям с ослабленным зрением, если он лишен устройства обратной не визуальной связи.
Широко известен факт непроизвольной подстройки голоса под голос собеседника. Есть предложения использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога, однако пока не создано законченных Кроме того, вполне возможно, что правильно организованный и модулированный синтез может в значительной степени снизить риск появления у оператора заболеваний, связанных с монотонностью речи и дополнительным напряжением. Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счет совместного применения графического монитора, средства вывода графической информации, и мыши для ее ввода, а также, не в последнюю очередь, благодаря концептуальным находкам в области оконного интерфейса.
Будущее речевого интерфейса в не меньшей степени зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер».
Теперь несколько слов о наиболее распространенных методах озвучивания, то есть о методах получения информации, управляющей параметрами создаваемого звукового сигнала, и способах формирования самого звукового сигнала. Самое широкое разделение стратегий, применяемых при озвучивании речи, — это разделение на подходы, которые направлены на построение действующей модели речепроизводящей системы человека, и подходы, где ставится задача смоделировать акустический сигнал как таковой. Первый подход известен под названием артикуляторного синтеза. Второй подход представляется на сегодняшний день более простым, поэтому он гораздо лучше изучен и практически более успешен. Внутри него выделяется два основных направления: формантный синтез по правилам и компилятивный синтез.
Формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.
Компилятивный синтез осуществляется путем склейки нужных единиц компиляции из имеющегося инвентаря. На этом принципе построено множество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требуется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантной (и спектральной в целом) структуре на границах сегментов. В системах компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала: LР (сокр. англ. Linear Рreduction — линейное предсказание) и РSOLA (сокр. англ. Рitch Sуnchronous Оvеrlap аnd Аdd). LP-синтез основан в значительной степени на акустической теории речеобразования, в отличие от РSOLA — синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы РSOLA позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.
Наиболее распространенными системами синтеза речи на сегодня, очевидно, являются системы, поставляемые в комплекте со звуковыми платами. Если ваш компьютер оснащен какой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи — увы, не русской, а английской речи, точнее, ее американского варианта. К большинству оригинальных звуковых плат Sound Blaster прилагается система Сreative Техt-Аssist, а вместе со звуковыми картами других производителей часто поставляется программа Моnо1оgue компании First Byte.
TextAssist представляет собой реализацию формантного синтезатора по правилам и базируется на системе DECTalk, разработанной корпорацией Digital Eguipment при участии известного американского фонетиста Денниса Клана (к сожалению, рано ушедшего из жизни). DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского. Компания Сrеаtive Technologies предлагает разработчикам использовать ТехtАssist в своих программах с помощью специального ТехtАssistАpi (ААРI). Поддерживаемые операционные системы — МS Windows и Windows 95; для Windоws NT также существует версия системы DЕСТаlk, изначально создававшейся для Digital Units. Новая версия ТехtАssist, объявленная фирмой Аssotiative Computing, inс. и разработанная с использованием технологий DЕСTаlk и Сrеаtivе, является в то же время многоязычной системой синтеза, поддерживая английский, немецкий, испанский и французский языки. Это обеспечивается прежде всего использованием соответствующих лингвистических модулей, разработчик которых — фирма Lеrnout& Наuspie Sреесh Рrоducts, признанный лидер в поддержке многоязычных речевых технологий. В новой версии будет встроенный редактор словаря, а также специализированное устройство ТехtRеаdеr с кнопочным управлением работой синтезатора в разных режимах чтения текста. Программа Моnо1оguе, предназначенная для озвучивания текста, находящегося в буфере обмена МS Windows, использует систему РrоVоiсе. — компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность ТD-РS0LА. Рассчитан на американский и британский английский, немецкий, французский, латино-американскую разновидность испанского и итальянский языки. Инвентарь сегментов компиляции — смешанной размерности: сегменты — фонемы или аллофоны. Компания First Вуtе позиционирует систему РrоVоicе и программные продукты, основанные на ней, как приложения с низким потреблением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьютеры систему артикуляторного синтеза РrimoVox для использования в приложениях телефонии. Для разработчиков: Моnо1оguе Win32 поддерживает спецификацию Мicrosoft SAPI. Мода на свободно распространяемые продукты не миновала и области приложений синтеза речи. МВR0LA — так называется система многоязычного синтеза, реализующая особый гибридный алгоритм компилятивного синтеза и работающая как под РС/ Windows 3.1, РС/Windows 95, так и под Sun4. Впрочем, система принимает на входе цепочку фонем, а не текст, и потому не является, строго говоря, системой синтеза речи по тексту. Формантный синтезатор Тru-Voicе фирмы Сеntigram Cоmmunication Соrporation(США) близок к описанным выше системам по архитектуре и предоставляемым возможностям, однако он поддерживает больше языков: американский английский, латино-американский, испанский, немецкий, французский, итальянский. Кроме того, в этот синтезатор включен специальный препроцессор, который обеспечивает быструю подготовку для чтения сообщений, получаемых по электронной почте, факсов и баз данных.
Речевой вывод информации из компьютера — проблема не менее важная, чем речевой ввод. Это вторая часть речевого интерфейса, без которой разговор с компьютером не может состояться. Имеется в виду, прочтение вслух текстовой информации, а не проигрывание заранее записанных звуковых файлов, то есть выдача в речевой форме заранее не известной информации. Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, аналогичный тому, какой мы имеем благодаря монитору. Конечно, трудно было бы передать рисунок голосом. Но вот услышать электронную почту или результат поиска в базе данных в ряде случаев было бы довольно удобно, особенно если в это время взгляд занят чем-либо другим. С точки зрения пользователя, наиболее разумное решение проблемы синтеза речи — это включение речевых функций (в перспективе — многоязычных, с возможностями перевода) в состав операционной системы. Точно так же, как мы пользуемся командой РRINT, мы будем применять команду ТАLК или SРЕАК. Такие команды появятся в меню общеупотребительных компьютерных приложений и в языках программирования. Компьютеры будут озвучивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечание: пользователь должен иметь достаточные возможности по настройке голоса компьютера, в частности, при желании, суметь выключить голос совсем. Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зрением. Для всех остальных они создадут новое измерение удобства пользования компьютером и значительно снизят нагрузку на нервную систему и на зрение. По нашему мнению, сейчас не стоит вопрос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом — когда они будут установлены на каждом компьютере. Осталось ждать, может быть, год или два.
Теперь, после оптимистического описания ближайшего будущего, можно обратимся собственно к технологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст. Текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы — от знаков препинания. Более того, довольно часто и от типа применяемой грамматической конструкции: в ряде случаев при произнесении текста слышится явная пауза, хотя какие-либо знаки препинания отсутствуют. Наконец, произнесение зависит и от смысла слова! Сравните, например, выбор одного из вариантов «за’мок» или » замо’к» для одного и того же графического варианта «замок». Уже стартовый анализ проблемы показывает ее сложность. И в самом деле, на эту тему написаны десятки монографий, и огромное количество публикаций осуществляется ежемесячно. Поэтому мы здесь коснемся только самых общих, наиболее важных для понимания моментов.
Обобщенная структура системы автоматического синтеза речи состоит из нескольких блоков:
- определение языка текста;
- нормализация текста;
- лингвистический анализ: синтаксический, морфемный и т.д.;
- формирование просодических характеристик;
- фонемный транскриптор;
- формирование управляющей информации;
- получение звукового сигнала.
Эта структура не описывает ни одну из существующих реально систем, но содержит компоненты, которые можно обнаружить во многих системах. Авторы конкретных систем, независимо от того, являются ли эти системы уже коммерческим продуктом или еще находятся в стадии исследовательской разработки, уделяют различное внимание отдельным блокам и реализуют их очень по-разному, в соответствии с практическими требованиями.
Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка (в многоязычной системе синтеза), а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделение введенного текста на слова и остальные последовательности символов. К символам относятся, в частности, знаки препинания и символы начала абзаца (все знаки пунктуации очень информативны). Для озвучивания цифр разрабатываются специальные подблоки.
Преобразование цифр в последовательности слов является относительно легкой задачей (если читать цифры как цифры, а не как числа, которые должны быть правильно оформлены грамматически), но цифры, имеющие разное значение и функцию, произносятся по-разному. Для многих языков можно говорить, например, о существовании отдельной произносительной подсистемы телефонных номеров. Пристальное внимание нужно уделить правильной идентификации и озвучиванию цифр, обозначающих числа месяца, годы, время, телефонные номера, денежные суммы и т.д. (список для различных языков может быть разным).
После процедуры нормализации каждому слову текста (каждой словоформе) необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фонемную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения правила соответствия между буквами и фонемами (звуками), которые, однако, могут требовать предварительной расстановки словесных ударений. В английском языке правила чтения очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов, сокращений и аббревиатур возникают серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется возможным из-за большого объема словаря и контекстных изменений произношения одного и того же слова во фразе. Кроме того, следует корректно рассматривать случаи графической омонимии: одна и та же последовательность буквенных символов в различных контекстах порой представляет два различных слова/словоформы и читается по-разному (ср. вышеприведенный пример слова «замок»). Часто удается решить проблему неоднозначности такого рода путем грамматического анализа, однако иногда помогает только использование более широкой семантической информации. Для языков с достаточно регулярными правилами чтения одним из продуктивных подходов к переводу слов в фонемы, является система контекстных правил, переводящих каждую букву/буквосочетание в ту или иную фонему, то есть автоматический фонемный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения системы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Альтернативное подходу «слово-буква-фонема» решение предполагает морфемный анализ слова и перевод в фонемы морфов, (то есть значимых частей слова: приставок, корней, суффиксов и окончаний). Однако в связи с разными пограничными явлениями на стыках морфов разложение на эти элементы представляет собой значительные трудности. В то же время для языков с богатой морфологией, например, для русского, словарь морфов был бы компактнее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического анализа текста и задания его просодических характеристик. В английских системах синтеза морфемный анализ был реализован в системе МIТа1к, для которой процент ошибок транскриптора составляет 5%. Особую проблему для данного этапа обработки текста образуют имена собственные.
Формирование просодических характеристик
К просодическим характеристикам высказывания относятся его тональные, акцентные и ритмические характеристики. Их физическими аналогами являются частота основного тона, энергия и длительность. В речи просодические характеристики высказывания определяются не только составляющими его словами, но также тем, какое значение оно несет и для какого слушателя предназначено, эмоциональным и физическим состоянием говорящего и многими другими факторами. Многие из этих факторов сохраняют свою значимость и при чтении вслух, поскольку человек обычно интерпретирует и воспринимает текст в процессе чтения. Таким образом, от системы синтеза следует ожидать примерно того же, то есть, что она сможет понимать имеющийся у нее на входе текст, используя методы искусственного интеллекта. Однако этот уровень развития компьютерной технологии еще не достигнут, и большинство современных систем автоматического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интонацией. Между тем, даже эта задача на сегодняшний день представляется очень сложной. Формирование просодических характеристик, необходимых для озвучивания текста, осуществляется тремя основными блоками, а именно: блоком расстановки синтагматических границ (паузы), блоком приписывания ритмических и акцентных характеристик (длительности и энергия), блоком приписывания тональных характеристик (частота основного тона). При расстановке синтагматических границ определяются части высказывания (синтагмы), внутри которых энергетические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. Если система не делает пауз на границах таких единиц, то возникает отрицательный эффект: слушающему кажется, что говорящий (в данном случае — система) задыхается. Помимо этого, расстановка синтагматических границ существенна и для фонемной транскрипции текста. Самое простое решение состоит в том, чтобы ставить границы там, где их диктует пунктуация. Для наиболее простых случаев, когда пунктуационные знаки отсутствуют, можно применить метод, основанный на использовании служебных слов. Именно эти методы используются в системах синтеза Рго-Sе-2000, Infovox- 5А-101 и DЕСTаLк, причем в последней просодически ориентированный словарь, помимо служебных слов, включает еще и глагольные формы. Задача приписывания тональных характеристик обычно ставится достаточно узко. В системах синтеза речи предложению, как правило, приписывается нейтральная интонация. Не предпринималось попыток моделировать эффекты более высокого уровня, такие, как эмоциональная окраска речи, поскольку эту информацию извлечь из текста трудно, а часто и просто невозможно.
В качестве примера можно рассмотреть разработку «Говорящая мышь» клуба голосовых технологий научного парка МГУ. Известно, что в некоторых российских организациях и компаниях ведутся аналогичные разработки, однако подробных сведений в печати обнаружить не удалось. В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил — возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, но дающие пока менее естественное озвучивание текста. Это, прежде всего, параметрический (формантный) синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустико-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем. Для создания удобного и быстрого режима изменения и верификации правил, включенных в разные блоки синтезирующей системы, был разработан формализованный и в то же время содержательно прозрачный и понятный язык записи правил, который легко компилируется в исходные тексты программ. В настоящее время блок автоматического транскриптора насчитывает около 1000 строк, записанных на формализованном языке представления правил. Функция разработанных правил состоит в том, чтобы определить временные и тональные характеристики базовых элементов компиляции, которые при обработке синтагмы выбираются из библиотеки в нужной последовательности специальным процессором (блоком кодировки). Необходимые для этого предварительные операции над синтезируемым текстом: выделение синтагм, выбор типа интонации, определение степени выделенности (ударности-безударности) гласных и символьного звукового наполнения слоговых комплексов осуществляются блоком автоматического транскриптора. Во временной процессор входят также правила, задающие длительность паузы после окончания синтагмы (конечной/неконечной), которые необходимы для синтеза связного текста. Предусмотрена также модификация общего темпа произнесения синтагмы и текста в целом, причем в двух вариантах: в стандартном — при равномерном изменении всех единиц компиляции — и в специальном, дающем возможность изменения длительности только гласных или только согласных.
Тональный процессор содержит правила формирования для одиннадцати интонационных моделей: нейтральная повествовательная интонация (точка), точковая интонация, типичная для фокусируемых ответов на вопросы; интонация предложений с контрастивным выделением отдельных слов; интонация специального и общего вопроса; интонация особых противопоставительных или сопоставительных вопросов; интонация обращений, некоторых типов восклицаний и команд; два вида незавершенности, перечислительная интонация; интонация вставочных конструкций. Необходимый речевой материал был записан в следующем режиме оцифровки: частота дискретизации 22 кГц с разрядностью 16 бит. В качестве базовых элементов компиляции выбраны аллофоны, оптимальный набор которых и представляет собой акустико-фонетическую базу синтеза. Инвентарь базовых единиц компиляции включает в себя 1200 элементов, который занимает около 7 Мбайт памяти. В большинстве случаев элементы компиляции представляют собой сегменты речевой волны фонемной размерности. Для получения необходимой исходной базы единиц компиляции был составлен специальный словарь, который содержит слова и словосочетания с аллофонами во всех учитываемых контекстах. В нем содержится 1130 словоупотреблений. На основе данных, полученных от остальных модулей синтеза речи и от аллофонной базы, программа формирования акустического сигнала позволяет осуществлять модификацию длительности согласных и гласных. Она дает возможность модифицировать длительность отдельных периодов на вокальных звуках, используя две или три точки тонирования на аллофонном сегменте, осуществляет модификацию энергетических характеристик сегмента и соединяет модифицированные аллофоны в единую слитную речь. На этапе синтеза акустического сигнала программа позволяет получать разнообразные акустические эффекты, такие как реверберация, эхо, изменение частотной окраски. Готовый акустический сигнал преобразуется в формат данных, принятый для вывода звуковой информации. Используются два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VОХ (Voice File Format), широко используемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту. Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.
Система распознавания речи состоит из двух частей. Эти части могут быть выделены в блоки или в подпрограммы. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Лингвистическая часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модель языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю. Оба подхода имеют свои достоинства и недостатки. При разработке технических систем выбора подхода имеет первостепенное значение тем. Существует два подхода к построению акустической модели: изобретательский и бионический. Первый базируется на результатах поиска механизма функционирования акустической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.
Лингвистический блок подразделяется на следующие ярусы (слои, уровни); фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Всего их шесть. За основу взят русский язык. Все ярусы суть априорная информация о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. На том стоит вся статистическая радиотехника. А естественный язык несет весьма сильно структурированную информацию, из чего, кстати, вытекает, что для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (предвижу трудности с русификацией сложных систем распознавания речи). В соответствии с данной моделью на первом — фонетическом уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны — варианты фонем, зависящие от звукового окружения. Но сути это не меняет. Обратите внимание, что фонемы сотоварищи могут перекочевать в лингвистический блок. На следующем — фонологическом — уровне накладываются ограничения на комбинаторику фонем (аллофонов). Ограничение — это правило наизнанку, значит, опять есть полезная априорная информация: не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова. Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка. Лексический ярус охватывает слова и словоформы того или иного естественного языка, то есть словарь языка, так же внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения. Отсюда следует вывод, что система должна быть «умной». Чем лучше у нее будет построена модель семантических связей, эквивалента «системы мысленных образов», тем больше вероятность правильно распознать речь.
По назначению системы синтеза речи можно разделить на командные системы и системы диктовки текста.
По потребительским качествам они делятся на диктороориентированные (тренируемые на конкретного диктора) и дикторонезависимые , а также на распознающие отдельные слова и распознающие слитную речь.
По механизмам функционирования системы представляют собой простейшие (корреляционные) детекторы, экспертные системы с различным способом формирования и обработки базы знаний, вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
ЗАКЛЮЧЕНИЕ
Вопрос, возможен ли полноценный искусственный интеллект, остается нерешенным. Если под этим термином понимать разумную электронную машину, способную мыслить подобно человеку, то, скорее всего, нет, по крайней мере, на сегодняшний день. Во-первых, недостаточно изучены устройство человеческого мышления, механизмы функционирования интеллекта. Во-вторых, технология ещё не располагает достаточными вычислительными мощностями для реализации столь сложной системы, и, к тому же, сомнителен сам факт возможности создания искусственного разума на базе широко используемых на сегодня машин с двоичным представлением информации.
Если искусственный интеллект считать вычислительной программой, решающей интеллектуальные задачи математически, путём расчленения нестандартной задачи до элементарных инструкций, то можно сказать, что фундамент искусственного интеллекта уже заложен, и последний достаточно широко применяется.
Повсеместное использование искусственного интеллекта создаёт предпосылки для перехода на качественно новую ступень прогресса, даёт толчок новому витку автоматизации производства, а значит и повышению производительности труда. Безусловно, капиталовложения в дальнейшее исследование и разработку систем искусственного интеллекта принесут существенную финансовую отдачу и будут полезны всему человечеству. Популярность кибернетики, неослабевающий интерес к ней со стороны самых широких кругов во многом объясняется именно ее тесной связью с «вечной» проблемой природы человеческого разума.
Искусственный интеллект и его совершенствование превращают границы сложности, доступные человеку, в систематически раздвигаемые. Это особенно важно в современную эпоху, когда общество не может успешно развиваться без рационального управления сложными и сверхсложными системами. Разработка проблем искусственного интеллекта является существенным вкладом в осознание человеком закономерностей внешнего и внутреннего мира, в их использование в интересах общества и тем самым в развитие свободы человека.
Для человека естественным и привычным является именно диалог, а не монолог. Поэтому лингвистическая компонента искусственного интеллекта представляет собой средства создания естественной среды общения в сфере “человек – компьютер”. Этот класс задач можно разделить на две группы: создание систем обработки текста и систем обработки звучащей речи.
Наиболее успешным в настоящее время является направление автоматизированной обработки естественно-языкового текста, что связано с преимущественным представлением информации для компьютера в графической форме.
Использование письменной формы естественного языка в диалоге “человек – компьютер” началось с создания апостериорных языков программирования и такого средства введения информации, как командная строка. К настоящему времени созданы программы автоматизированного перевода с одного естественного языка на другой, системы реферирования и аннотирования текста (в основном, научно-технического), программы информационного поиска по запросу пользователя на естественном языке (например, в глобальной сети Интернет). Основные теоретические вопросы в этой сфере разрешены, поэтому в дальнейшем разработки будут двигаться в том же направлении, углубляя и улучшая полученные результаты.
Несколько более сложно положение систем анализа и синтеза звучащей речи на естественном языке. Хотя их разработки начались практически одновременно с системами распознавания и обработки естественно-языкового текста, применение таких программных средств ограниченно.
Основные усилия разработчиков направлены на область речевого интерфейса, то есть системы диалога человека и компьютера с помощью звучащей формы естественного языка. Могут найти свое применение командные системы и системы диктовки текста, которые по потребительским качествам делятся на диктороориентированные (тренируемые на конкретного диктора) и дикторонезависимые , а также на распознающие отдельные слова и распознающие слитную речь.
Будущее речевого интерфейса, вероятно, зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер».
Таким образом, в настоящее время разработка лингвистической компоненты систем искусственного интеллекта достигла пика технологических и методологических возможностей и находится на пороге нового скачка в развитии.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
- Шалютин С. М. “Искусственный интеллект”, М.: Мысль, 1985
- Эндрю А. “Искусственный интеллект”, М.: Мир, 1985
- Тьюринг А. Может ли машина мыслить?: М., Наука 1960.
- Корниенко Е. Механизмы сознания: www.glasnet.ru 2004 (электронная публикация)
- Тимофеев А.В. Роботы и искусственный интеллект. // М. «Наука» 1978- 192 стр.
- Орфеев Ю.В., Тюхтин В.С. Мышление человека и искусственный интеллект. – М.: Мысль,1978. – 340 c.
- Винер Н. Кибернетика или управление и связь в животном и машине. Второе издание: М., Наука 1983.
- Глушков В.М. Кибернетика: вопросы теории и практики – М., Педагогика, 1975. – 289, 327с.
- Лингвистическое обеспечение в системе автоматического перевода третьего поколения. Предварительная публикация, М.,1978.
- Хисамутдинов В.Р. Авраменко В.С., Легоньков В.И., Автоматизированная система информационного обеспечения разработок, М.,1980.
- Андрющенко В.М. Автоматизированные лексикографические системы, в кн.: Теоретические и прикладные аспекты вычислительной лингвистики, М.,1981,с.71-88.
- Попов Э.В. Общение с ЭВМ на естественном языке, М.,1982.
- Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем, М.,1983.
- Модели общения и лингвистические процессоры, в кн.: Представление знаний в человеко – машинных и робототехнических системах. Том А. – Фундаментальные исследования в области представления знаний, М., 1984,с.183 – 210.
- Борковский А., Хельбиг Г. Системы подготовки текста, в кн.: Представление знаний в человеко – машинных и робототехнических системах. Том В. – Инструментальные средства разработки систем, ориентированных на знания, М.,1984, с.73 – 87.
- Системы общения с ЭВМ на естественном языке, там же, том С. – Прикладные человеко – машинные системы, ориентированные на знания, М.,1984, с.36 – 69.
- Андрющенко В.М. Машинный фонд русского языка: постановка задачи и практические шаги, ВЯ,1985,№2.
- «Модели диалога в системах искусственного интеллекта». («Ученые записки Тартуского госуниверситета», вып.751. «Труды по искусственному интеллекту»). Тарту, 1987.
- «Модели и системы обработки информации», вып.4. Киев, 1985.
- «Моделирование языковой деятельности в интеллектуальных системах». Под ред. А.Е.Кибрика и А.С.Нариньяни. М.,1987.
- «Принципиальные вопросы теории знаний» («Ученые записки Тартуского гос.Университета», вып. 688. «Труды по искусственному интеллекту»). Тарту, 1984.
- Якубинский Л.П. О диалогической речи. – В кн.: Якубинский Л.П. Избранные работы. Язык и его функционирование. М., 1986.
- Бахтин М.М. Проблема речевых жанров. – В кн.: Бахтин М.М. Литературно – критические статьи. М.,1986..
- Витгенштейн Л. Философские исследования. – В сб.: «Новое в зарубежной лингвистике», вып.XVI (Лингвистическая прагматика). М.,1985.
- Шенк Р., Лебовиц М., Бирнбаум Л. Интегральная понимающая система. – «Новое в зарубежной лингвистике», вып. XII( Прикладная лигвистика).М.,1983.
- Городецкий Б.Ю. Термин и его лингвистические свойства. – В сб.: «Структурная и прикладная лингвистика», вып. 3.Л.,1987.
- Городецкий Б.Ю. Актуальные проблемы прикладной лингвистики. – « Новое в зарубежной лингвистике», вып. XII (Прикладная лингвистика). М., 1983
- Мальковский М.Г. Диалог с системой искусственного интеллекта. М.,1985.
- Зализняк А.А. Грамматический словарь русского языка. Словоизменение. М.,1977.
- Арутюнова Н.Д., Падучева Е.В. Истоки, проблемы и категории прагматики. – В сб.: «Новое в зарубежной лингвистике», вып.XVI (Лингвистическая прагматика). М., 1985.
- Грайс Г.П. Логика и речевое общение. – В сб.: «Новое в зарубежной лингвистике», вып. XVI (Лингвистическая прагматика). М.,1985.
- Аллен Дж. Ф., Перро Р. Выявление коммуникативного намерения, содержащегося в высказывании. – В сб.: «Новое в зарубежной лингвистике», вып.XVII (Теория речевых актов). М.,1986.
- «Диалоговое взаимодействие и представление знаний». Под ред. А.С.Нариньяни. Новосибирск,1985.
- Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.,1983.
- Виноград Т. Программа, понимающая естественный язык. М.,1976.
- Шемакин Ю.И. Введение в информатику. М.,1985.
- Богатырев Р. «Этот странный придуманный мир». Компьютерра. ©30-33. 1996 год.