Умные алгоритмы обработки строк в ClickHouseБазы данных и системы хранения
Разработчик базового поиска в Яндексе — инфраструктрура, подготовка индекса и работоспособность более 5000 поисков среди нескольких дата-центров.
Попутно делает проекты в ClickHouse.
Мы расскажем о самом эффективном алгоритме поиска подстроки или одновременно нескольких подстрок, о котором вы услышите впервые и который был внедрён в ClickHouse. Мы покажем, какие трюки использованы для поиска регулярных выражений, как поискать сразу по многим регулярным выражениям, как эффективно обрабатывать UTF-8 строки. Также углубимся в тему о том, как найти похожие строки и какие трудности возникают в определении "похожести".