Мы продолжаем цикл статей про рынок Natural Language Processing рассказом о самых успешных российских разработчиках и их продуктах. Уже в этом году отечественные команды в сфере NLP смогут протестировать свои решения по анализу текстов в ходе технологического конкурса Up Great «ПРО//ЧТЕНИЕ». Призовой фонд соревнований — 200 млн рублей.

В сентябре 2019 года Центр компетенций НТИ по искусственному интеллекту на базе МФТИ опубликовал очередной выпуск профильного Альманаха. В исследовании собран актуальный список отечественных разработчиков в сфере NLP. Приводим краткое резюме отчета.

Российские компании, ведущие разработки в области NLP, представлены на рынке в нескольких категориях. Прежде всего, это поисковики и компании, которые уже много лет занимаются текстовыми технологиями: «Яндекс», ABBYY, Mail.ru, PROMT и RCO (часть группы Rambler).

Вторая категория — крупные корпорации, которые лишь в последние 3‑4 года начали формировать свои компетенции в области ИИ. Например, Сбербанк, «Тинькофф банк», МТС. Все они добились впечатляющих результатов, несмотря на то, что делают в основном технологии для внутреннего пользования.

1. «Яндекс»

NLP подразделения: «Яндекс Переводчик», «Яндекс Алиса», «Яндекс SpeechKit»

Лидер в ИИ: Михаил Биленко (руководитель управления машинного интеллекта и исследований).

Количество патентов: 7

Продукты и проекты:

«Алиса» — виртуальный голосовой помощник, доступный во всех устройствах с программным обеспечением «Яндекс». На начало 2019 года ежемесячная аудитория «Алисы» составила около 35 млн человек.

«Яндекс.Переводчик» — сервис автоматического перевода слов, фраз, целых текстов, а также веб-страниц. Сервис использует технологию машинного перевода, разработанную в «Яндексе». В 2019 году осуществлялась поддержка более 90 языков.

«Яндекс.Толока» — краудсорсинговая платформа для сбора и обработки данных для ML-проектов, обучения поисковых алгоритмов и нейронных сетей, развития речевых технологий и компьютерного зрения. В «Толоке» зарегистрировано более 5 млн исполнителей и 20 тыс. заказчиков. Собранные оценки используются для разработки голосовых помощников и чат-ботов и проведения научных исследований в разных предметных областях.

Yandex SpeechKit — комплекс технологий распознавания и синтеза речи, предоставляемый как сервис для внешних разработчиков. C 2019 года технология синтеза и распознавания речи Yandex SpeechKit доступна по модели SaaS на платформе «Яндекс.Облако». Технологию уже активно используют более 300 государственных и частных компаний из отраслей телекоммуникаций, финансов, услуг, медицины. Самые популярные сценарии применения Yandex SpeechKit — это роботизация колл-центров и речевая аналитика.

2. «Центр речевых технологий»

NLP подразделения: «ЦРТ-инновации» — научно-исследовательская компания, разработчик голосовых и бимодальных биометрических систем

Лидер в NLP и распознавании речи: Кирилл Левин, директор научно-исследовательского департамента ЦРТ

Количество патентов: 0

Продукты и проекты:

Voice Navigator — позволяет клиенту в кратчайшие сроки и удобным для него способом получить информацию о том, как добраться до нужного места.

«Незабудка II» — многоканальная система регистрации телефонных вызовов и речевых сообщений, позволяющая анализировать и сохранять данные вызовов.

«Варвара» — платформа для создания голосовых ассистентов с поддержкой технологий голосовой биометрии.

3. ABBYY

NLP подразделение: В продуктах компании используются технологии искусственного интеллекта для решения бизнес-задач.

Лидеры в NLP: директор по лингвистическим исследованиям Владимир Селегей, заместитель директора по разработке технологий Татьяна Даниэлян

Количество патентов:113

Продукты и проекты для корпоративных заказчиков:

«Сбербанк» — мониторинг и автоматический анализ содержания новостей о 1000 банков-контрагентов на русском языке. NLP-решение ABBYY отбирает значимые сообщения, классифицирует новости по различным рисковым факторам и собирает релевантные данные досье о банках.

НПО «Энергомаш» — интеллектуальный корпоративный поиск. Компания тестирует решение ABBYY Intelligent Search, которое объединит в общую систему миллионы документов из множества информационных систем.

Банк ВТБ — автоматизированное открытие счета для юридических лиц с помощью решения ABBYY FlexiCapture. Технологии определяют типы документов, проводят проверку их наличия, извлекают необходимые данные и экспортируют информацию в банковские системы.

4. Mail.ru Group

NLP подразделение: В 2019 году было запущено подразделение Mail.ru Group Tech Lab. Направление отвечает за технологические проекты в области искусственного интеллекта, распознавания голоса и изображений, а также за разработку новых экспериментальных коммуникационных продуктов.

Лидеры в NLP: Егор Ганин, заместитель вице-президента, руководитель направления облачных и бизнес-сервисов Mail.Ru Group

Андрей Калинин, директор по технологиям искусственного интеллекта

Продукты и проекты:

«Прометей» в социальной сети «ВКонтакте» — система для выбора релевантного контента для аудитории.

«Маруся» — голосовой помощник, разрабатываемый экспертами Mail.ru Group Tech Lab. Представлен в июне 2019 года. Планируются выпуск собственной колонки с «Марусей» и интеграция технологии в другие продукты Mail.ru Group и сторонние сервисы.

Mail.ru Sounds — технология распознавания звуков и речи на базе машинного обучения. Обнаруживает и анализирует любые звуки или их сочетание в аудиопотоке.

Сервис для быстрой разработки приложений на основе машинного обучения Mail.ru Cloud Solutions — технология помогает разработчикам и исследователям быстро создавать приложения на основе глубокого обучения без приобретения, конфигурирования и поддержки собственной инфраструктуры.

5. Just AI

NLP подразделение: Just AI специализируется на технологиях искусственного интеллекта, машинного обучения и понимания естественного языка с 2011 года. Клиенты — ЮниКредит банк, Совкомбанк, МТС, HeadHunter, «Папа Джонс», приложение «Кошелек» и другие крупные бренды. Just AI является партнером Google и «Яндекс» в области создания контента для голосовых ассистентов.

Лидеры в NLP: Кирилл Петров, управляющий директор компании Just AI (входит в группу компаний i-Free)

Продукты и проекты:

Just AI Conversational Platform — платформа enterprise-уровня для разработки разговорных чат-ботов и ассистентов, понимающих естественный язык. Чат-боты, созданные в платформе, решают комплексные задачи бизнеса: поддержка клиентов, найм и обучение сотрудников, оформление заказов и продажа товаров.

Aimylogic — конструктор навыков и интеллектуальных ботов для независимых разработчиков.

Aimybox — готовые наборы навыков и лицензионный контент для умных устройств.

Детский робот «Емеля» — устройство на русском языке, понимающее естественную речь.

6. PROMT

NLP подразделение: PROMT разрабатывает решения по переводу для частных и корпоративных пользователей и решения для анализа неструктурированных текстовых данных. Клиенты PROMT — крупные российские и международные компании: «Лукойл», «Норильский Никель», «Лаборатория Касперского», Amadeus, Spanish Dict и др.

Исследователи в NLP: руководитель группы статистических исследований Александр Молчанов, директор по исследованиям и разработке Федор Быков

Продукты и проекты:

PROMT Translation Server Developer Edition — автоматический перевод текстов, документов и веб-страниц целиком с помощью API.

PROMT Analyzer SDK — компонент для информационно-аналитических систем. Позволяет автоматически анализировать Big Data на разных языках, выделять факты, упоминания персон, организаций, событий и другие сущности, определять тональность высказываний и документов.

PROMT Cloud API — облачный интерфейс, который позволяет использовать технологию онлайн-перевода PROMT в других программах или на сайтах.

PROMT Mobile SDK — многофункциональный элемент для встраивания в мобильные приложения, позволяющий использовать технологию перевода PROMT полностью офлайн.

7. «Тинькофф»

NLP подразделение: Во всех коммуникациях «Тинькофф» активно использует технологии искусственного интеллекта и машинного обучения, более 30% обращений клиентов в чатах обрабатывается без участия сотрудников банка.

Руководитель NLP направления: Константин Маркелов, вице-президент, директор по бизнес-технологиям «Тинькофф»

Продукты и проекты:

Голосовой помощник «Олег» — первый в мире голосовой помощник в сфере финансов и лайфстайл-услуг. «Олег» отвечает на вопросы клиентской поддержки, обрабатывая более 30% обращений, еще в 30% случаев отвечает на часть вопросов, в половине случаев ответы персонализированы. Используются как нейросетевые подходы, так и классические методы.

Tinkoff VoiceKit — сервис речевых технологий «Тинькофф», включающий глубокие нейросетевые модели для синтеза и распознавания речи; использовались для создания голосового помощника «Олега», а с июля 2019 года доступны всем желающим по SaaS модели.

Кредитный скоринг — основа кредитного бизнеса «Тинькофф», сочетает в себе как классические робастные скоринговые модели, так и новое экспериментальное направление на основе обучения с подкреплением.

Голосовая биометрия — система для быстрой идентификации клиентов по голосовому отпечатку в колл-центре, сокращает время идентификации клиента в несколько раз.

8. «Наносемантика»

NLP подразделение: Компания с 2005 года разрабатывает интеллектуальных чат-ботов, которые поддерживают диалог с человеком на естественном языке на заданные темы в текстовых и голосовых каналах. Разработка полностью ведется на собственных технологиях — язык разметки диалогов, диалоговый процессор, базы знаний и словарей.

Лидер в NLP: Анна Власова, руководитель отдела лингвистики в «Наносемантике». Работала в компаниях «Медиалингва», Rambler, «Ашманов и Партнеры», Kaspersky Lab

Продукты и проекты:

За 15 лет реализовано более 90 коммерческих проектов для следующих компаний: «Сбербанк», Ford, BMW, Beeline, Headhunter, Webmoney, ВШЭ, «Газпром нефть», «МТС Беларусь», «Банк «Санкт-Петербург», «Ростелеком» и др.

«Элиза» — виртуальный консультант компании.

9. Brand Analytics

NLP подразделение: Цель компании — с помощью анализа миллиардов сообщений социальных медиа выявлять новые и фиксировать изменения существующих трендов, позволяющих выбрать стратегию и тактические шаги в развитии бизнеса и государства.

Brand Analytics имеет архив более 100 млрд русскоязычных сообщений и анализирует сейчас до 3 млрд сообщений в месяц, в том числе публикации во «ВКонтакте», «Одноклассниках», Instagram, Facebook, Twitter, Youtube, на форумах, сайтах-отзовиках, в блогах, мессенджерах и т.д.

Руководитель NLP направления: Алексей Соловьев, руководитель лингвистической лаборатории

Продукты и проекты:

BRAND ANALYTICS — система анализа социальных медиа.

BA EXPRESS — система мониторинга соцмедиа и СМИ для компаний с небольшим объемом упоминаний и персонального использования.

BRAND VISOR — дашборд для быстрого контроля инфополя компании топ-менеджментом. Отслеживает сообщения о компании и её первых лицах в СМИ и социальных медиа, выделяет значимые публикации и визуализирует данные в виде трендов и зон риска.

EVENT WALL — соцмедиа-дашборд для мероприятий. Делает мероприятие интерактивным, собирает впечатления участников мероприятия и собственный контент организаторов в соцсетях на одном динамическом экране.

EUREKA ENGINE — высокоскоростная система лингвистического анализа текстов модульного типа, позволяющая извлекать новые знания и факты из неструктурированных данных огромных объемов в режиме реального времени.

10. Сбербанк

NLP подразделение: С 2017 года в Сбербанке функционируют Управление развития компетенций по исследованию данных, Лаборатория по искусственному интеллекту и внутреннее DSAI сообщество. Над созданием единых платформ для технологий NLP и Speech Analytics работают Agile-команды.

Лидеры в NLPSpeech Analytics:руководитель департамента управления данными Круглов Константин, руководитель речевых технологий Филиппов Денис, первый заместитель председателя правления Ведяхин Александр, директор центра исследования данных Еременко Максим

Продукты и проекты:

На основе единых технологических платформ для NLP и Speech Analytics, позволяющих ускорить разработку и внедрение новых продуктов, реализуются инициативы по созданию чат-ботов, автоматического голосового меню, автоматизированной подготовке юридических документов, обработке жалоб и обращений и др.

11. RCO

NLP подразделение:С 2000 года RCO ведет разработку продуктов и технологий поиска и анализа неструктурированной текстовой информации, а также компьютерной лингвистики, использованных в таких программных продуктах как ClaraBridge (компании «ClaraView», «VDI-EPAM»), X-Files, Аналитический курьер (компании «Ай-Теко», «Белый ветер»), КРИТ, Медиалогия (компания «Медиалогия»), Дозор-Джет (компания «Инфосистемы Джет»), «Консультант Плюс» (компания «Консультант Плюс Программные технологии»).

Руководитель компании и NLP направления: Владимир Плешко, генеральный директор

Продукты и проекты:

RCO Fact Extractor SDK — инструмент компьютерного анализа текстовой информации. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем.

RCO Text Categorization Engine — библиотека для разработчика информационно-поисковых систем, позволяющая на основании лексических профилей определять принадлежность текста к заданному множеству категорий, получать количество вхождений и позиции выбранного термина в тексте.

RCO Досье — информационно-аналитическая система «Система ведения досье» (ИАС СВД) — программа, предназначенная для автоматизированного сбора информации из различных источников, содержащих сведения о юридических лицах, в структурированную базу данных фактографической информации.

RCO Zoom — специализированная поисковая система, сочетающая функционал традиционных поисковых систем и анализа информации.

12. «АСМ Решения»

NLP подразделение:АСМ Решения — ИТ-компания, основана в 2015 году, разработчик инновационных технологий в сферах: автоматической обработки и анализа речевых данных; распознавания речи (более 35 языков); голосовой биометрии; синтеза речи; классификации данных на основе методов машинного обучения.

Продукты и проекты:

Онлайн классификация и постклассификация обращений — автоматическое определение причин обращений и выявление горячих тем, тегирование вызовов.

Чат-бот — голосовой интерфейс и классификация обращений для чат-помощника.

Голосовая аналитика — инструменты анализа ситуации в голосовом канале контакт-центра. За последние три года компания «АСМ Решения» расширила опыт внедрения и использования речевых технологий в совместных проектах с компаниями: «Почта России», ЦИАН, Skyeng, «Речевая Аналитика», «Передовые Системы», «Алексэн», «Фонемика» и др.

13. «Медиалогия»

NLP подразделение: разработчик автоматической системы мониторинга и анализа СМИ и соцмедиа в режиме реального времени. Ежедневно компания отрабатывает 100 млн сообщений из 52 тыс. источников.

Исследователи NLP: Василий Кирюхин, Олег Хадарцев

Продукты и проекты:

Мониторинг и анализ СМИ для PR — «Медиалогия» предоставляет онлайн доступ к базе СМИ с возможностью производить самостоятельный мониторинг СМИ и экспресс-анализ полученных сообщений.

«Медиалогия» для SMM — автоматическая система мониторинга, анализа и реагирования в соцмедиа.

«СМ Инцидент» — отработка негатива в соцмедиа, реагирование на значимые упоминания, контроль скорости и качества коммуникаций.

Анализ цитируемости для медиа — «Медиалогия» автоматически анализирует цитируемость каждого сообщения и оценивает источник по Индексу Цитируемости (ИЦ).

14. Kribrum

NLP подразделение: Компания, основанная в 2010 году, анализирует новостной поток Интернета и посты в социальных сетях. «Крибрум» выкачивает и анализирует 14 миллионов твитов в день в русскоязычном сегменте Twitter, 300 тысяч сообщений в ЖЖ, весь «ВКонтакте» (17 миллионов записей в день), частично Facebook (6 миллионов записей в день), 120 тысяч независимых блогов и форумов, 19 тысяч СМИ (300 тысяч статей и заметок в день) и полтора миллиона ежедневных записей в сервисе Instagram. Время отработки информационного потока — несколько часов.

Исследователи в NLP: Алексей Вознюк, Александр Ермаков

Продукты и проекты:

Система мониторинга и анализа социальных медиа «Крибрум» — собирает упоминания объекта (компания, персона, продукт компании) из русскоязычных ресурсов Интернета: социальных сетей, онлайн-СМИ, блогов, тематических и региональных форумов и других ресурсов. После этого система автоматически определяет эмоциональную окраску высказываний и распределяет публикации по тегам и категориям.

Один из проектов компании — регулярное исследование «рейтинг травли медиаперсон», составленный на основе мониторинга онлайн-ресурсов. В рейтинге анализируются негативные упоминания различных публичных персон в социальных сетях.

15. МТС

NLP подразделение: В 2017 году МТС создала отдельное подразделение для внедрения решений на базе ИИ — Центр AI. Фокус исследований в сфере речевых технологий направлен на создание виртуальных помощников и чат-ботов, осуществляющих клиентскую поддержку и оптимизирующих деятельность подразделений внутри компании.

Исследователи по NLP:ведущий разработчик группы AI Никита Семенов

Продукты и проекты:

В 2018 году МТС запустила умного бота клиентской поддержки в личных кабинетах пользователей на сайте компании, сейчас бот консультирует клиентов также в приложении «Мой МТС». На сегодняшний день восемь из десяти клиентских запросов обрабатываются без привлечения специалистов поддержки. В июне 2019 года МТС представила решение для внешнего рынка — разработку чат-бота, адаптирующуюся под необходимый конкретной компании пул задач.

16. Naumen

NLP подразделение: Группа компаний Naumen — российский вендор ПО и облачных сервисов, технологический партнер в цифровой трансформации для компаний и органов власти. Виртуальные сотрудники и ассистенты, разработанные компанией, ежедневно выполняют миллионы задач.

Исследователи в NLP: Антон Ложков

Продукты и проекты:

Naumen KnowledgeCat — интеллектуальная система, объединяющая в себе функции умного поиска в больших массивах информации, управления знаниями и формирования карт компетенций. Предлагает точные и развернутые ответы на сложные вопросы, связанные с производственными процессами, оказанием услуг и прикладными исследованиями.

Naumen Erudite — позволяет создавать роботов, которые общаются с человеком на естественном языке. С помощью специальных интерфейсов заказчик может самостоятельно обучать и тестировать робота, а также оценивать качество его работы.

Naumen Service Management Intelligent Automation (SMIA) — позволяет комплексно интеллектуализировать сервисную деятельность предприятий, автоматизировано решать проблемы и давать рекомендации специалистам сервисных служб и конечным пользователям, снижая стоимость поддержки систем и устраняя неэффективность процессов при ручной обработке данных.

17. МФТИ

Подразделение NLP: Лаборатория нейронных систем и глубокого обучения МФТИ.

Исследователи NLP: заведующий лабораторией нейронных систем и глубокого обучения МФТИ Михаил Бурцев, руководитель по развитию бизнеса iPavlov и заместитель заведующего лабораторией Ольга Каирова

Продукты и проекты:

Проект iPavlov — преодоление технологического барьера в области содержательного человеко-машинного общения на естественном языке через создание и введение в бизнес-практику инструментов, снижающих порог входа на рынок текстовых диалоговых систем. Цель реализуется через следующие задачи: исследование и разработка нейросетевых архитектур для работы с текстом на естественном языке.

Создание open-source библиотеки нейросетевых архитектур DeepPavlov для быстрого прототипирования диалоговых систем (программ, позволяющих автоматизировать человеко-машинное общение на естественном языке – чат-ботов, персональных ассистентов, экспертных систем). Разработка технологической платформы на базе обученных в доменных областях моделей для автоматизации ведения целенаправленного диалога с пользователем (для Сбербанка). Коллаборация с глобальным научным и бизнес-сообществом для создания и распространения библиотеки DeepPavlov.

Продолжение следует.

Читать: «ИИ и Natural Language Processing: большой обзор рынка. Часть 2»

Источник: vc.ru

Оставить комментарий

avatar
  Подписаться  
Уведомление о