Публикации
2023 г. – новый этап практического применения CXL, статья
VMware сдвигает акцент в проекте Capitola на CXL, статья
Dell Validated Design for Analytics — Data Lakehouse: интегрированное хранилище данных, статья
OCP Global Summit: решения для Computational Storage и компонуемых масштабируемых архитектур, статья
Samsung CXL MemoryySemantic SSD: 20M IOPs, статья
UCIe – открытый протокол для взаимосвязи чиплетов и построения дезагрегированных инфраструктур, статья
Omni-Path Express – открытый интерконнект для экзафлопных HPC/AI-систем, статья
GigaIO: CDI_решение на базе AMD для высшего образования, статья
Энергоэффективные ЦОД на примерах решений Supermicro, Lenovo, Iceotope, Meta, статья
От хранилищ данных и “озер данных” к open data lakehouse и фабрике данных, статья
EuroHPC JU развивает НРС-экосистему на базе RISC-V, статья
LightOS™ 2.2 – программно-определяемое составное блочное NVMe/TCP хранилище, статья
End-to-end 64G FC NAFA, статья
Computational Storage, статья
Технология KIOXIA Software-Enabled Flash™, статья
Pavilion: 200 млн IOPS на стойку, статья
CXL 2.0: инновации в операциях Load/Store вводаавывода, статья
Тестирование референсной архитектуры Weka AI на базе NVIDIA DGX A100, статья
Fujitsu ETERNUS CS8000 – единая масштабируемая платформа для резервного копирования и архивирования, статья
SmartNIC – новый уровень инфраструктурной обработки, статья
Ethernet SSD, JBOF, EBOF и дезагрегированные хранилища, статья
Compute, Memory и Storage, статья
Lenovo: CXL – будущее серверов с многоуровневой памятью , статья
Liqid: компонуемые дезагрегированные инфраструктуры для HPC и AI, статья
Intel® Agilex™ FPGA, статья
Weka для AI-трансформации, статья
Cloudera Data Platform – “лучшее из двух миров”, статья
Fujitsu ETERNUS DSP - разработано для будущего, статья
Технологии охлаждения для следующего поколения HPC-решений, статья
Что такое современный HBA?, статья
Fugaku– самый быстрый суперкомпьютер в мире, статья
НРС – эпоха революционных изменений, статья
Новое поколение СХД Fujitsu ETERNUS, статья
Зональное хранение данных, статья
За пределами суперкомпьютеров, статья
Применение Intel® Optane™ DC и Intel® FPGA PAC, статья
Адаптивные HPC/AI-архитектуры для экзаскейл-эры, статья
DAOS: СХД для HPC/BigData/AI приложений в эру экзаскейл_вычислений, статья
IPsec в пост-квантовую эру, статья
LiCO: оркестрация гибридныхНРС/AI/BigData_инфраструктур, статья
 
Обзоры
Все обзоры в Storage News
 
Тематические публикации
Flash-память
Облачные вычисления/сервисы
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
Современные СХД
Информационная безопасность (ИБ), борьба с мошенничеством
Рынки
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

20, июнь 2017  —  Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС»,показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий.

При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.

В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.

По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «DialogueEvaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».

«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM ®   – современного отечественного продукта в области BigData, по ряду функционала не имеющего аналогов на российском и мировом рынках» – подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.

Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация – корректное восстановление начальной формы этих слов.

Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.

Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.

Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:

•  Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;

•  Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (SupportVectorMachine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.

Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.

Научно-практический   форум «Диалог»   ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «DialogueEvaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.

АО «Айкумен ИБС» (входит в группу компаний «Ростелеком») - разработчик поисково-аналитической BigData-платформы IQPLATFORM® - российский эксперт в области информационно-аналитических технологий, объединяющий команду высокопрофессиональных специалистов с более чем 20-летним опытом и уникальными профильными компетенциями в следующих областях:

Разработка программного обеспечения и проектирование комплексных отраслевых решений на основе собственной технологической платформы IQPLATFORM®  для сбора и анализа структурированных и неструктурированных данных из любых типов источников;

Научно-техническая экспертиза и исследования в сфере системной бизнес-аналитики, моделирования ситуаций и предиктивного анализа с применением методологий и инструментов BigData.

ПАО «Ростелеком» ( www . rostelecom . ru ) – одна из крупнейших в России и Европе телекоммуникационных компаний национального масштаба, присутствующая во всех сегментах рынка услуг связи и охватывающая миллионы домохозяйств в России.

Компания занимает лидирующее положение на российском рынке услуг ШПД и платного телевидения: количество абонентов услуг ШПД превышает 12,5 млн, а платного ТВ «Ростелекома» - более 9,4 млн пользователей, из которых свыше 4,4 миллионов смотрит уникальный федеральный продукт «Интерактивное ТВ».

Выручка Группы компаний за 1 квартала 2017 г. составила 70,4 млрд руб., OIBDA достигла 21,6 млрд руб. (30,6% от выручки), чистая прибыль – 3,2 млрд руб.

«Ростелеком» является безусловным лидером рынка телекоммуникационных услуг для российских органов государственной власти и корпоративных пользователей всех уровней.

Компания - признанный технологический лидер в инновационных решениях в области электронного правительства, облачных вычислений, здравоохранения, образования, безопасности, жилищно-коммунальных услуг.

Публикации по теме
Рынки
Специализ. СХД для BI-хранилищ, аналитика "больших данных", интеграция данных
 
Новости Ростелеком

© "Storage News" journal, Russia&CIS
(495) 233-4935;
www.storagenews.ru; info@storagenews.ru.