Чем быстрее всего отрезать строку в кодировке UTF-8

Решил протестировать — чем быстрее всего можно отрезать строку в кодировке UTF-8. В PHP для этой цели (помимо использования извращений, типа SQL-запроса) можно использовать: mb_substr из модуля «Multibyte string function», iconv_substr из модуля iconv, preg_replace в режиме UTF-8 из Perl-Compatible regular expression function и собственную реализацию прохода по UTF-8 строке.

Я взял строку в 700 UTF-8-символов и отрезал от неё 500 разными функциями. Вот что получилось (PHP 5.2.4 без акселераторов):

хуже всех справилась реализация на чистом PHP — 0.34 сек
получше — iconv_substr. 0.063 сек
ещё лучше — mb_substr. 0.0175 сек
лучше всех — preg_replace. 0.005 сек
Если кому интересно, вот моя функция по проходу по строке в кодировке UTF-8:

$len = strlen($text);
    for ($pos = $cutted = 0; $cutted < $cut && $pos < $len; ++$cutted)
    {
            $ch = ord($text[$pos]);

            // multibyte char
            if (0x80 & $ch)
            {
                    for (; $ch & 0x80; ++$pos, $ch <<= 1);
            }
            else
            {
                    $pos++;
            }
    }

Итак, лучший способ отрезать первые $N символов UTF-8 таков:

preg_replace('/^(.{'.$N.'}).*$/uSs', '$1', $text)

Ctrl ←Когда клиент говорит «вы же профессионалы»…

Ctrl →Опыт перевозки пневматического оружия на самолёте

17 комментариев

Alisey (alisey.myopenid.com) 2008

Евгений, а вот такие эксперименты, кроме того что это забавно и разница действительно огромна, имеют ли они ещё какой-то смысл для вас?
Мне кажется такие вещи вредно включать в долговременную память. Позиции могут измениться с любой новой версией языка или библиотек.

Хотел показать, только что на hackety.org натолкнулся, аналог NodeBox на Lua. I thought you might like.
http://www.4p8.com/lew/gallery.html

Евгений Степанищев (bolknote.ru) 2008

Комментарий для alisey.myopenid.com:

Для меня это текущая задача — в моём движке есть функция отрезания текста, используется она часто, я, было, сделал ветвление, в зависимости от библиотеки, которая есть, а, оказывается, это не требуется — всех делает regexp.

zencd.livejournal.com 2008

Может имеет смысл подпатчить iconv_substr? (не локально, в рамках развития проекта). Всё-таки разница в 10 раз ...

И написать тестик (в рамках пхп-девелопмента же), чтобы сравнивать две реализации и если вдруг регекспы затормозят — выдать предупреждение.

zencd.livejournal.com 2008

Комментарий для Евгения Степанищева:

A bug report: комментарии не отдаются по рсс. Глянь например мой поток — там ошибки в пхп: http://bolknote.ru/rss/zencd.livejournal.com

А вообще комментарии по рсс это сила. Жаль всех на эту технологию на пересадишь :). Да и преобразователь уведомлений-по-емейлу в уведомления-по-рсс (для единства) непонятно как реализовать.

Евгений Степанищев (bolknote.ru) 2008