<?php
//Топ N самых часто встречающихся слов и словосочетаний в тексте(из 2-3-х слов)
$stopWords = array ( 'и' , 'у' , 'к' , 'с' , 'о' , 'от' , 'в' , 'же' , 'из' , 'на' ) ; $input = 'Недавно написал свой велосипед и выложил его на хабре. Вот он:
«Простейший Connection pool без DataSource в Java». Статья не из самых удачных,
только прошу больше не минусовать. Итак, чтобы не повторять такие ошибки самому и,
возможно, предостеречь кого-то от таких ошибок, решил перевести статью «Seven Things
You Should Never Code Yourself» достаточно известного в среде open-source деятеля
IT-области — Andy Lester\'а. Итак, кому интересно, прошу под кат.
Мы, программисты, любим решать задачи. Мы любим, когда идеи возникают в наших
головах, перенаправляются на наши пальцы и тем самым создаются великолепные решения.
Но порой мы слишком быстро вскакиваем и начинаем проворачивать свой код без
учета всех последствий, к которым это может привести. Мы не учитываем, что
кто-то, возможно, уже решил эту проблему, и что уже есть код, доступный для
использования, который был написан, протестирован и продебажен кем-то другим.
Иногда нам просто необходимо остановиться и подумать, прежде чем начать что-то
печатать.
Например, если вы столкнетесь с одной из этих семи задач программирования,
то почти всегда вам лучше поискать существующее решение, чем пытаться реализовывать
что-то самостоятельно:
1. Парсинг HTML или XML
Задачей, сложностью которой зачастую пренебрегают, по крайней мере на основе того,
сколько раз про него спросили на StackOverflow — является парсинг HTML или XML.
Извлечение данных из произвольного HTML выглядит обманчиво просто, но на самом деле
эта задача должна решаться применением библиотек. Скажем, вы хотите извлечь URL из
тега такого, как
К тому времени, как вы сделаете еще один цикл в поисках случаев, с которыми
ваш код не может иметь дело, при этом исправляя и тестируя свой код, вы бы могли уже
использовать нужную библиотеку и решили бы все свои проблемы.
Я вам привел наглядную историю с примерами: вы потратите намного меньше времени на
поиски существующей библиотеки и на ее изучение, нежели на попытки написать свой
велосипед, который затем придется расширять, чтобы он работал в тех случаях, о
которых вы и не думали, когда начинали его писать.
2. Парсинг CSV и JSON
CSV файлы обманчиво просты, но таят в себе некую опасность. Файлы с величинами,
разделенными запятыми тривиальны для парсинга, не так ли?
# ID, name, city
1, Queen Elizabeth II, London
Безусловно, пока вам не придется иметь дело с запятыми, заключенными в двойные
кавычки:
Вы можете справиться и с этим, пока не придется иметь дело с переводами строк в
середине записи.
JSON имеет те же самые опасности, связанные с типами данных, что и CSV, с дополнительной
проблемой, возникающей из-за возможности хранить многоуровневые структуры данных.
Уберегите себя от хлопот и неточностей. Любые данные, которые не могут быть обработаны
разделением строки по запятым должны быть обработаны библиотекой.
Если читать структурированные данные неструктурированным методом это плохая идея,
то идея изменять данные на месте еще хуже. Люди часто говорят что-то вроде
«Я хочу изменить все теги с такими-то и такими URL так, чтобы у них появивлся
новый атрибут.» Но даже такое, казалось бы, простое дело, как «Я хочу изменить
в каждом пятом поле в этом CSV имя Боб на Стив» таит в себе опасность, потому что,
как было отмечено выше, вы не сможете считывать запятые должным образом. Чтобы все
было правильно, вам необходимо прочитать данные с помощью грамотной библиотеки во
внутреннюю структуру, изменить данные, а затем записать измененные данные обратно
с помощью той же библиотеки. Ничто не представляет такой риск искажения данных,
как если их структура не соответствует вашим ожиданиям.
' ;
//Функция удаляющая слова и словосочетания являющиеся частью больших словосочений
function removeRepetition( $moreWords , $words )
{
foreach ( $moreWords as $moreWord => $moreCount ) {
foreach ( $words as $word => $count ) {
//если во втором массиве словосочетания, иначе слова
if ( ( mb_strpos ( $moreWord , $word ) !== false ) && ( $count == $moreCount ) ) { }
} else {
$severalWords = explode ( ' ' , $moreWord ) ; if ( ( count ( $matches ) != 0 ) && ( $moreCount == $count ) ) { }
}
}
}
return $words ;
}
//Удаляем лишнее - переносы, запятые, стоп слова.
foreach ( $stopWords as $word ) {
}
$sentences = preg_split ( '/\./' , $input , 0 , PREG_SPLIT_NO_EMPTY
) ;
//Формируем словосочетания
foreach ( $sentences as $sentence ) {
$words = preg_split ( '/ /' , $sentence , 0 , PREG_SPLIT_NO_EMPTY
) ; foreach ( $words as $key => $word ) {
$oneWords [ ] = $word ;
//Прерываем цикл на последнем слове.
if ( $key == ( count ( $words ) - 1 ) ) { break ;
}
$twoWords [ ] = $word . ' ' . $words [ $key + 1 ] ;
if ( $key !== 0 ) {
$threeWords [ ] = $words [ $key - 1 ] . ' ' . $word . ' ' . $words [ $key + 1 ] ;
}
}
}
//Считаем, удаляем все что было найдено 1 раз и сортируем
arsort ( $countWords , SORT_NUMERIC
) ; arsort ( $countTwoWords , SORT_NUMERIC
) ; arsort ( $countThreeWords , SORT_NUMERIC
) ;
//Удаляем слова и словосочеания являющиеся часть других
$countWords = removeRepetition( $countThreeWords , $countWords ) ;
$countWords = removeRepetition( $countTwoWords , $countWords ) ;
$countTwoWords = removeRepetition( $countThreeWords , $countTwoWords ) ;
$top = array_merge ( $countWords , $countTwoWords , $countThreeWords ) ;
//Выводим результат нашей магии
if ( $top == '' ) {
echo 'Увы, но в данном тексте нет частых слов или словосочетаний встречающихся больше одного раза :(' ;
} elseif ( count ( $top ) == 1 ) { foreach ( $top as $words => $count ) {
echo 'Самое частое слово/словосочетание: "' . $words . '", оно встречается - ' . $count .
' раз.' ;
}
} else {
echo "Самые частые слова/словосочетания:\n " ;
foreach ( $top as $words => $count ) {
echo $words . " - встречается " . $count . " раз.\n " ;
}
}
<?php
//Топ N самых часто встречающихся слов и словосочетаний в тексте(из 2-3-х слов)
mb_internal_encoding('Utf-8');

$stopWords = array('и', 'у', 'к', 'с', 'о', 'от', 'в', 'же', 'из', 'на');
$input = 'Недавно написал свой велосипед и выложил его на хабре. Вот он: 
	«Простейший Connection pool без DataSource в Java». Статья не из самых удачных, 
	только прошу больше не минусовать. Итак, чтобы не повторять такие ошибки самому и,
	возможно, предостеречь кого-то от таких ошибок, решил перевести статью «Seven Things 
	You Should Never Code Yourself» достаточно известного в среде open-source деятеля 
	IT-области — Andy Lester\'а. Итак, кому интересно, прошу под кат.

Мы, программисты, любим решать задачи. Мы любим, когда идеи возникают в наших 
головах, перенаправляются на наши пальцы и тем самым создаются великолепные решения.

Но порой мы слишком быстро вскакиваем и начинаем проворачивать свой код без
учета всех последствий, к которым это может привести. Мы не учитываем, что
кто-то, возможно, уже решил эту проблему, и что уже есть код, доступный для
использования, который был написан, протестирован и продебажен кем-то другим.
Иногда нам просто необходимо остановиться и подумать, прежде чем начать что-то
печатать.

Например, если вы столкнетесь с одной из этих семи задач программирования, 
то почти всегда вам лучше поискать существующее решение, чем пытаться реализовывать 
что-то самостоятельно:

1. Парсинг HTML или XML

Задачей, сложностью которой зачастую пренебрегают, по крайней мере на основе того,
сколько раз про него спросили на StackOverflow — является парсинг HTML или XML. 
Извлечение данных из произвольного HTML выглядит обманчиво просто, но на самом деле 
эта задача должна решаться применением библиотек. Скажем, вы хотите извлечь URL из 
тега такого, как


К тому времени, как вы сделаете еще один цикл в поисках случаев, с которыми 
ваш код не может иметь дело, при этом исправляя и тестируя свой код, вы бы могли уже 
использовать нужную библиотеку и решили бы все свои проблемы.

Я вам привел наглядную историю с примерами: вы потратите намного меньше времени на 
поиски существующей библиотеки и на ее изучение, нежели на попытки написать свой 
велосипед, который затем придется расширять, чтобы он работал в тех случаях, о 
которых вы и не думали, когда начинали его писать.

2. Парсинг CSV и JSON

CSV файлы обманчиво просты, но таят в себе некую опасность. Файлы с величинами,
разделенными запятыми тривиальны для парсинга, не так ли?

# ID, name, city
1, Queen Elizabeth II, London

Безусловно, пока вам не придется иметь дело с запятыми, заключенными в двойные 
кавычки:
	
Вы можете справиться и с этим, пока не придется иметь дело с переводами строк в 
середине записи.

JSON имеет те же самые опасности, связанные с типами данных, что и CSV, с дополнительной
проблемой, возникающей из-за возможности хранить многоуровневые структуры данных.

Уберегите себя от хлопот и неточностей. Любые данные, которые не могут быть обработаны
разделением строки по запятым должны быть обработаны библиотекой.

Если читать структурированные данные неструктурированным методом это плохая идея, 
то идея изменять данные на месте еще хуже. Люди часто говорят что-то вроде 
«Я хочу изменить все теги с такими-то и такими URL так, чтобы у них появивлся
новый атрибут.» Но даже такое, казалось бы, простое дело, как «Я хочу изменить 
в каждом пятом поле в этом CSV имя Боб на Стив» таит в себе опасность, потому что,
как было отмечено выше, вы не сможете считывать запятые должным образом. Чтобы все 
было правильно, вам необходимо прочитать данные с помощью грамотной библиотеки во 
внутреннюю структуру, изменить данные, а затем записать измененные данные обратно 
с помощью той же библиотеки. Ничто не представляет такой риск искажения данных, 
как если их структура не соответствует вашим ожиданиям.	
	
';

//Функция удаляющая слова и словосочетания являющиеся частью больших словосочений
function removeRepetition($moreWords, $words)
{
    foreach ($moreWords as $moreWord => $moreCount) {
        foreach ($words as $word => $count) {
            //если во втором массиве словосочетания, иначе слова
            if (preg_match('/\w+ \w+/u', $word)) {
                if ((mb_strpos($moreWord, $word) !== false) && ($count == $moreCount)) {
                    unset($words[$word]);
                }
            } else {
                $severalWords = explode(' ', $moreWord);
                $oneWord = array($word);
                $matches = array_intersect($oneWord, $severalWords);
                if ((count($matches) != 0) && ($moreCount == $count)) {
                    unset($words[$word]);
                }
            }
        }
    }
    return $words;
}

//Удаляем лишнее - переносы, запятые, стоп слова.
$input = mb_strtolower($input);
$input = preg_replace('/[\\r\\n]/', ' ', $input);
$input = preg_replace('/,/', '', $input);
foreach ($stopWords as $word) {
    $input = preg_replace("/\\b$word\\b/u", '', $input);
}

$sentences = preg_split('/\./', $input, 0, PREG_SPLIT_NO_EMPTY);

//Формируем словосочетания
foreach ($sentences as $sentence) {
    $words = preg_split('/ /', $sentence, 0, PREG_SPLIT_NO_EMPTY);
    foreach ($words as $key => $word) {
        $oneWords[] = $word;
        //Прерываем цикл на последнем слове.
        if ($key == (count($words) - 1)) {
            break;
        }
        $twoWords[] = $word . ' ' . $words[$key + 1];
        if ($key !== 0) {
            $threeWords[] = $words[$key - 1] . ' ' . $word . ' ' . $words[$key + 1];
        }
    }
}

//Считаем, удаляем все что было найдено 1 раз и сортируем
$countWords = array_diff(array_count_values($oneWords), array(1));
$countTwoWords = array_diff(array_count_values($twoWords), array(1));
$countThreeWords = array_diff(array_count_values($threeWords), array(1));
arsort($countWords, SORT_NUMERIC);
arsort($countTwoWords, SORT_NUMERIC);
arsort($countThreeWords, SORT_NUMERIC);

//Удаляем слова и словосочеания являющиеся часть других
$countWords = removeRepetition($countThreeWords, $countWords);
$countWords = removeRepetition($countTwoWords, $countWords);
$countTwoWords = removeRepetition($countThreeWords, $countTwoWords);

$top = array_merge($countWords, $countTwoWords, $countThreeWords);

//Выводим результат нашей магии
if ($top == '') {
    echo 'Увы, но в данном тексте нет частых слов или словосочетаний встречающихся больше одного раза :(';
} elseif (count($top) == 1) {
    foreach ($top as $words => $count) {
        echo 'Самое частое слово/словосочетание: "' . $words . '", оно встречается - ' . $count .
            ' раз.';
    }
} else {
    arsort($top);
    echo "Самые частые слова/словосочетания:\n";
    foreach ($top as $words => $count) {
        echo $words . " - встречается " . $count . " раз.\n";
    }
}