Показать сообщение отдельно
Старый 29.07.2007, 01:12   #46
Юзер
 
Аватар для ДваждыДва
 
Регистрация: 05.06.2007
Сообщений: 257
Репутация: 234 [+/-]
Софт для управления компьютером с помощью речи

В данной теме обсуждается софт для распознования человеческой речи, все вопросы/проблемы связанные с ним и т.д. Для удобного использования программ желательно знать "базовый" английский или иметь под рукой переводчик.

Софт:

Voxx 4.0
Статус распространения:Shareware (30 дней trial, регистрация примерно $34,95)
Разработчик:Voxx Support Team
Сайт:http://www.4mice.com/
Размер:более 44 Mb
Описание программы:
Скрытый текст:
Среди возможностей - голосовые команды, чтение текста, также программа может озвучивать все Ваши действия.Программа использует Microsoft Speech API. Среди голосовых команд: навигация по браузеру, операции в текстовом редакторе(копировать/вырезать и т.д.), работа с окнами, запуск программ, открытие/закрытие привода и многое другое. Тrial-версия программы ограничена лишь количеством фраз/команд, так что ознакомление с программой будет приятным.


Dragon Naturally Speaking 7.0 Preferred
Статус распространения:Sharewar, примерно $200
Разработчик:ScanSoft
Сайт:http://www.scansoft.com/
Размер:Неизвестен
Описание программы:
Скрытый текст:
Однозначно лучший из существующих модулей распознавания речи! За свою долгую историю Dragon прошел весь нелегкий путь от солдата до маршала; нет, пожалуй, все-таки не до маршала, но звание генерала армии он уж точно заслужил. Весь алгоритм работы с программой предельно прост -- подключаем наушники и микрофон к соответствующим выходам из аудиоплаты и запускаем саму утилиту. Вначале пользователю будет предложено откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под ваши тембр, интонацию и произношение. И наконец, интерактивный tutorial, где пользователя обучают базовым голосовым командам.

Стоит заметить, что ПК -- это не живой собеседник и он не может додумать "проглоченные" слоги или понять неразборчиво сказанное предложение. Не меньшее значение имеет и собственный акцент диктора -- такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, непригоден для работы. С другой стороны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произнести его с учетом правильной транскрипции. Уверяю вас, максимум за неделю--две вы будете не только с легкостью надиктовывать килобайты текстов, но и щеголять среди знакомых истинно английским произношением.

Все еще не удовлетворяет качество распознавания? Обратитесь к местному Accuracy Center, который позволит оптимизировать ваш пользовательский профиль и научит, как пополнять словарь популярными нео-логизмами. Возможны и более экзотические действия вроде распознавания текстового содержимого wav-файла (в том числе и с Pocket PC или напрямую с линейного выхода аудиоплаты). Кроме того, Dragon Na-turally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/приостанавливать воспроизведение музыки в медиапроигрывателе или напрямую работать с меню). Ну а в состав версий Preferred и Pro-fessional дополнительно входит собственный речевой движок Real-Speech 2, один из наиболее совершенных на сегодня.

Но вернемся к записи речи. Особенно радует то, что надиктовывать текст можно не только в родном текст-процессоре DragonPad, но и в любом другом аналогичном приложении -- MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С таким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers; правда, тогда некоторые команды ста-новятся недоступны, зато для отправки сообщения даже Enter нажимать не надо, достаточно сказать: "New paragraph" -- и ICQ автоматически сделает это. В более специализированных приложениях, в частности в том же Word, применяются дополнительные команды: форматирование текста, правописание, редактирование -- и все исключительно за счет устной речи. Если же стандартного набора приказов оказалось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon. Стоит немного постараться, и вполне реально набрать страницу текста без каких-либо правок. Главное -- верное сочетание интонации и, само собой, произношения. Не растягивайте фразы, но и не строчите как из пулемета, иначе процент правильно понятого материала будет уверенно стремиться к нулю. Причем вовсе необязательно постоянно смотреть в словарь -- даже если вы не совсем верно выговорили какое-то словосочетание (например, I'm very happy), известное программе, она "догадается" автоматически исправить текст. Поражает? Все дело в огромном словарном запасе, который наряду с продвинутой технологией распознавания речи не оставляет никаких шансов конкурентам. Как тут не вспомнить ранние версии Dragon, с которыми автор этих строк немало намучился в прошлом, но так и не добился от них качественной работы...



Intelligent Voice Recognition System (IVOS)
Статус распространения:Shareware (30 дней trial, регистрация -- $50)
Разработчик:ComunX
Сайт:http://www.ivos.biz/
Размер:2,69 Mb
Описание программы:
Скрытый текст:
Самая скромная (по размерам дистрибутива) программа в обзоре проявила себя на удивление достойно и в значительной мере оправдала свое громкое название. Причиной тому - ее универсальность, призванная полностью искоренить средства "ручного" ввода информации. Итак, IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре; б) управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные; в) озвучивать электронные книги с помощью внешних голосовых движков. Плюс, разумеется, такие мелочи, как извлечение текста из Wav-файлов, удобная, не отягощающая экран панель управления программой и демократичная (по сравнению с тем же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным устным приказам.

Эффективность исполнения команд на удивление высока -- пожалуй, еще лучше, чем у Realize Voice. А вот уровень распознавания "лекций" будет пониже, что и не странно: одно дело -- понять пару слов, и совсем другое -- цельное предложение. Надо отметить, что IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от творческих успехов этой корпорации. Тем не менее добиться качественной работы от IVOS можно уже сейчас, начитав программе все наличествующие в ее запасе обучающие тексты. Конечно, до уровня Dragon Naturally Speaking в итоге она не дотянет, но набирать не слишком сложные документы ей вполне под силу. А если еще регулярно пополнять пользовательский словарь, то и с научными терминами не будет особых проблем. Правда, здесь возникает дилемма -- за ту неделю, которую придется потратить на обучение утилиты всем тонкостям работы с речью, вполне можно ударными темпами овладеть методом слепого десятипальцевого набора на клавиатуре... С другой стороны, квалификация пользователя ПК лишь повысится, если он будет владеть сразу несколькими методами ввода информации в компьютер.


Realize Voice 4.0
Статус распространения:(15 дней trial, регистрация -- $49,00)
Разработчик:Realize Software
Сайт:http://www.realizesoftware.com/
Размер:55 Mb
Описание программы:
Скрытый текст:
Realize Voice, в отличие от ранее рассмотренного Dragon Naturally Speaking, не очень-то способна к стенографированию (хотя такая функция в ее арсенале и имеется), зато блестяще справляется с голосовыми командами. Что примечательно, исключительно глубоких знаний в области английского не нужно -- благодаря умному модулю эвристического анализатора программа без особых проблем найдет общий язык практически с любым диктором. Спектр функций Realize Voice довольно широк: от запуска исполняемых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользователя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно общению с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту категорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые документы и программы. Весь процесс полностью автоматизирован и выполняется буквально мгновенно. Правда, некоторые неудобства вызывает невозможность использования в названии команд цифр -- к примеру, запустить DOOM 3 с помощью голосового приказа удастся, лишь переименовав его ярлык в "DOOM Three". То же, кстати, касается и кириллицы -- не такая уж веселая перспектива, не правда ли? Впрочем, в подобном случае всегда можно прибегнуть к ручной настройке программы, напрямую указав путь к интересующему вас файлу/документу/графическому изображению и т. д. Здесь уже название файла и его координаты никакого значения не имеют -- будь он хоть абвгд.exe, да и Рабочий стол уродовать не придется. Весьма порадовал и набор встроенных системных команд для работы с Windows -- хоть он и не слишком велик, но перемещаться между открытыми окнами, эмулировать действие самых распространенных клавиш (Spacebar, Insert, Home и т. д.), выключать и блокировать систему с его помощью вполне реально.

Немного о макросах. Утилита позволяет объединять под одной командой целую серию операций -- начиная от ввода символов с клавиатуры и системных команд до синтеза речи посредством встроенного голосового движка. Правда, до такой идиллии, как запись CD с помощью одного-единственного словосочетания, пока далеко, но время покажет... Главное, что уже сейчас можно (и небезуспешно!) "порулить" своим домашним питомцем безо всяких анахронизмов вроде мыши и клавиатуры. Попробуйте -- не пожалеете!



Dictation 2004 v.4.5.2399
Статус распространения:Shareware (7 дней trial, регистрация -- $49,99)
Разработчик:United Research Labs
Сайт:http://www.research-lab.com/
Размер:41 Mb
Описание программы:
Скрытый текст:
Несмотря на, казалось бы, совершенно стандартные базовые умения, кое-чем Dictation 2004 все-таки похвастаться может. В первую очередь, это технология Point-and-Speak, позволяющая с легкостью создавать команды для ввода паролей, запуска ПО и диктовать практически во всех Windows-приложениях. Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она на редкость неудобно -- в виде всплывающего окна, которое появляется при каждом сказанном слове и лишь отбивает всякое желание работать. Хорошо хоть, что ее можно отключить. Dictation 2004 использует все тот же SAPI 5.1, так что качество ее принципиально не отличается от другого ПО, основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из дополнительных функций стоит отметить WAV Recorder для захвата информации с аудиокассет, мобильных устройств, микрофонов и последующей записи ее в wav-файлы; потом текст из них извлекается с помощью отдельного апплета Dictation -- Wave-to-Text. Пока что он, конечно, все еще далек от идеала, но если у диктора четкая речь и неплохое произношение, то проблем не возникнет.


Со временем тема будет обновляться, возможно появятся ссылки на бесплатные/русские проекты подобной направленности. Если Вы знаете о подобных программах - оставляйте информацию в данной теме. Заранее, спасибо!
__________________
...

Последний раз редактировалось ДваждыДва; 29.07.2007 в 01:34.
ДваждыДва вне форума  
Отправить сообщение для ДваждыДва с помощью ICQ Ответить с цитированием