Текст на картинке

Яндекс.Диск

Одна из наиболее сложных и ресурсоёмких операций для современного компьютера – это процесс распознавания графических изображений. Чтобы решить данную проблему специалисты Яндекса разработали технологию компьютерного зрения, которая подтвердила свою эффективность в сервисе Яндекс.Картинки. Начиная с этого года компьютерное зрение применяется для распознавания графики в файловом хранилище Яндекс.Диска.

 

Когда на Яндекс.Диске сохранено несколько тысяч любительских фотографий, поиск нужной из них занимает немало времени. Ведь они находятся во множестве папок, имеют различные размеры и расширения. Но для универсальной системы оптического распознавания символов от Яндекс.Диска нет ничего невозможного. Она способна с высокой точностью распознать текст на картинках различного качества и содержания. Например, скриншоты распознаются на все 100%, сканы документов на 80%, фотографии с русскими текстами на 63%. Если брать в среднем, то система уверенно определяет тексты на более чем 70% от общего количества картинок. Теперь поиск любой картинки на основе пользовательского запроса займет несколько секунд. Система быстро найдёт графические изображения формата JPEG, PNG или GIF, максимально схожие с текстом пользовательского запроса.

 

В состав системы для оптического распознавания изображений входит классификатор картинок и модуль для работы с изображениями. На первоначальном этапе производится выбор картинок с текстом. Для решения этой задачи используется классификатор, представляющий собой глобальную нейронную сеть. Он способен выбрать картинки по заданным параметрам из огромного количества изображений на Яндекс.Диске.

  • После того, как завершен отбор графики с текстом, вступает в дело модуль для распознавания. Он выбирает линии, которые с большой вероятностью могут принадлежать тексту.
  • Далее оставляются только те линии, которые точно принадлежат изображению с текстом.
  • На следующем этапе линии текста раскладываются на отдельные символы.
  • Затем каждый из этих символов сравнивается с другими вариантами, подходящими в максимальной степени.
  • На завершающем этапе используется языковая модель, способная определить лучший вариант среди символов-кандидатов.

 

 

Как Яндекс распознает изображения. Текст на красивой картинке

 

 

Языковая модель использует богатый словарный запас и учитывает соседние символы (контекстное распознавание изображений с текстом). Если из комбинации наиболее вероятных символов образуется реальное слово, которое уже известно системе, тогда принимается решение в пользу этого слова. Благодаря технологиям машинного обучения компьютерное зрение способно обеспечить должное качество распознавания изображений с текстами.


WM+

 

Новости поисковых систем

 

 

 

© WaterMillSky 2012-2016