UTF-8: как быстрее измерить длину строки в PHP
Я потихоньку буду писать как получается оптимизировать самые важные функции работы с UTF-8 в PHP. Оформлять буду как продолжение своей эпопеи перевода наше внутренней «Вики» на UTF-8 (в ближайшее время добавлю оглавление).
Сейчас, после перевода «Вики» мы столкнулись с тем, что некоторые операции занимают непозволительно много времени. Кое-какие проблемы решаются моими итераторами для строки (прямым и обратным), но и другие оптимизации приходится делать.
Простые оптимизации я уже применил: выкинул из класса UTF-8 проверки на self::ON (по этой константе я определял включена ли в проекте поддержка UTF-8, сейчас в ней необходимости уже нет) и сделал другие микрооптимизации, теперь пора посмотреть на методы моего класса UTF.
Одна из самых частоиспользуемых функций — strlen, которая определяет длину строки. Я всегда считал, что самый быстрый способ подсчитать длину UTF-строки в PHP, это вызывать strlen(utf8_decode(…)).
Мои тесты показывают что это не так. Самый быстрый способ (по крайней мере в PHP 5.3.2) — это mb_strlen, strlen/utf8_decode — на втором месте, потом идёт sizeof+preg_split, а самый медленный — iconv_strlen.
Для интереса я вкомпилил в PHP функцию для быстрого подсчёта длины строки в UTF-8, найденную в интернете, выигрыш по сравнению с mb_strlen незначителен:
bolk-dev ~/uni/ $ php ../test/test_strlen.php | sort -k2 -t:
Fast UTF-8: 0.68232107162476
mb_strlen: 0.88710689544678
strlen/utf8_decode: 1.5211808681488
Это тысяча итераций на файле в 400КБ.
Я оставил функцию mb_strlen.
Добавлено позднее: другая быстрая функция дала ещё худший результат: 0,79, против прежнего варианта в 0,68.
Добавлено ещё позже: а вот третья функция показала действительно впечатляющие результаты:
bolk-dev ~/uni/ $ php ../test/test_strlen.php | sort -k2 -t:
More Fast UTF-8: 0.12948799133301
mb_strlen: 0.88710689544678
strlen/utf8_decode: 1.5211808681488
Это уже дело — она почти в 7 раз быстрее лучшего результата PHP.
Вкратце, алгоритм такой: строка циклом выравнивается по границе четырёх (на 64-битных системах — 8) байт, далее читается сразу по четыре (или восемь) байт и внутри каждого кусочка одним выражением считается сколько там байт, с которых начинается символ. Поэтому на моей 64-битной системе семикратный выигрыш (на 32 битах будет примерно в три раза).
Добавлено через несколько дней: есть и ещё более быстрая функция.
хм. а на длинных строках (100кб например) какое распределение скоростей?
интерес академический.
Комментарий для upas.ya.ru:
А 400КБ это недостаточно длинная строка?
Мне думается, что для высокой нагрузки и конкретных задач имеет смысл писать свои решения на C.
PHP — это универсальное решение, mbstring использует libmbfl, которая так же универсальное решение.
Если вам нужно работать только с UTF8, то написать экстеншен на С для работы только с UTF8 — это довольно небольшая задача. А если у вас действительно много работы со строками, то вынос этой задачи в спец. экстеншен — это логичный (и единственно верный!=)) выход.
по ссылке на третью функцию прекрасное:
Комментарий для tony2001:
Я так и собираюсь сделать :) Назвал модуль FastUTF (futf), буду потихоньку писать.
Комментарий для kipelovets:
oh, wow!
ой. 8)
а на 3х мегабайтах?
Комментарий для upas.ya.ru:
Вот так выглядит:
mb_strlen: 6.9003229141235
strlen/utf8_decode: 12.082993984222
More Fast UTF-8: 0.97903895378113
А почему в тестах не учавствовола: *iconv_strlen*?
Комментарий для Чистяков Денис:
iconv очень медленная библиотека.
Выложил свою библиотеку: http://code.google.com/p/php5-utf8/
Для PHP 5.2.x strlen/utf8_decode было быстрее, чем mb_strlen.
Сделаю у себя тесты, при необходимости внесу правки.
Комментарий для openid.yandex.ru/rin-nas/:
Ок, круто!
Сделал тесты, внёс правки, несколько методов ускорилось
http://code.google.com/p/php5-utf8/source/list
utf8len
function utf8len($x){preg_match_all(’/./iu’, $x, $a);return count($a[0]);}
А как вам этот вариант?
Комментарий для Euphoria:
Так вы скорость-то померьте. Подозреваю, это будет самое медленно из всех предложенных.
в 30 раз медленнее, чем strlen(utf8_decode