RegExp для английских слов

Не рискну предположить сколько займёт регулярное выражение для русских слов, а вот с английскими кто-то заморочился — существует регулярное выражения для английских слов, занимает 1,3Мб. Оно, конечно, полностью затмевает известное регулярное выражение для проверки емейла.

Насколько я понял, так автор демонстрирует работу своей программы frak, которая переводит любые наборы строк в регулярные выражения.
12 августа 2013 12:49

vasa_c (инкогнито)
12 августа 2013, 13:27

Юнит-тест для этой регулярки есть? :)

Евгений Степанищев (bolknote.ru)
12 августа 2013, 13:47, ответ предназначен vasa_c

Словарь английского языка :)

hshhhhh (hshhhhh.name)
12 августа 2013, 15:53, ответ предназначен Евгений Степанищев (bolknote.ru):

Нужны ещё словари для других языков :)

Евгений Степанищев (bolknote.ru)
12 августа 2013, 16:31, ответ предназначен hshhhhh (hshhhhh.name):

Для негативного тестирования? :) Но автор не утверждает, что всё что совпадёт — английское слово, насколько я понимаю.

hshhhhh (hshhhhh.name)
12 августа 2013, 17:03, ответ предназначен Евгений Степанищев (bolknote.ru):

Но автор не утверждает, что всё что совпадёт — английское слово, насколько я понимаю.
Ну я думал что регэкспы нужны для валидации данных, типа "прошёл регу -- значит имаил корректный" (ну, как правило :)). Зачем нужен регеэксп для английского языка который может пропустить и не английский язык? Это пустословие!

Евгений Степанищев (bolknote.ru)
12 августа 2013, 17:36, ответ предназначен hshhhhh (hshhhhh.name):

Например потому, что слова в этом языке пишутся латиницей, а латиница используется не только в английском :)

Леша (инкогнито)
12 августа 2013, 23:24

Капитан очевидность замечает, что синтетические языки не являются регулярными ("людоедоед" и все такое).

hshhhhh (hshhhhh.name)
13 августа 2013, 00:12, ответ предназначен Евгений Степанищев (bolknote.ru):

Например потому, что слова в этом языке пишутся латиницей, а латиница используется не только в английском :)
Ну, я понимаю :)
Но там вроде рега работает по принципу пунтосвитчера, мол "такого в русском языке быть не может поэтому сменим ка раскладку".

Другое дело что если она не может сказать что это английский с большой вероятностью -- это совершенно бесполезные 1.3 мегабайта символов )

Что вижу - о том пою (aragont.livejournal.com)
15 августа 2013, 07:39

Я знаю более короткое регулярное выражение для английского языка - .*, а так же выражение, не дающее ложных срабатываний, - a|aback|abandon... и так до конца словаря современного английского.
На самом деле нужен какой-то критерий, который бы объяснял, чем именно это регулярное выражение лучше миллионов других, фильтрующих английский словарь.

Евгений Степанищев (bolknote.ru)
15 августа 2013, 08:57, ответ предназначен aragont.livejournal.com:

Я знаю более короткое регулярное выражение для английского языка — «.*»
Весь текст на этой странице попадёт под это регулярное выражение, причём здесь английский?
а так же выражение, не дающее ложных срабатываний, — a|aback|abandon... и так до конца словаря современного английского
Это именно то, что содержит в себе данное регулярное выражение, просто в более компактном виде. Например, вместо smack|black там «(?:sm|bl)ack», принцип такой.

Ваше имя или адрес блога (можно OpenID):

Текст вашего комментария, не HTML:

Кому бы вы хотели ответить (или кликните на его аватару)