Ideone.com

fork download

Не, ты делаешь неправильно. Суть метода рекурсивного спуска в том, что мы для каждой конструкции пишем свою функцию для разбора, при этом спускаясь от больших конструкций (текст с тегами) к меньшим (отдельный тег). Для начала надо определиться с грамматикой, то есть правилами, что может встретиться в тексте.
 
Символ | у меня значит «или». x значит «может встретиться столько-то раз»
 
СложныйТекст = (ПарныйТег | ПростоТекст) x 0 .. N
ПарныйТег = ОткрывающийТег СложныйТекст ЗакрывающийТег
ОткрывающийТег = ... 
ЗакрывающийТег = последовательность [ /name ]
ПростойТекст = (любые токены кроме [)
 
Смотри, более сложные конструкции состоят из более простых. Это спуск. При этом более простая конструкция (парныйТег) может содержать более сложную (СложныйТекст). Это рекурсия.
 
Нам надо сделать на каждую конструкцию выше свою функцию для разбора. То есть будут функции
 
парситьСложныйТекст()
парситьПарныйТег()
.....
 
При этом каждая функция создает и возвращает узел дерева или массив узлов. Ну функция парситьЗакрывающийТег() может возвращать не узел, а просто название того тега, что она там распарсила.
 
Вот пример парсинга ПростогоТекста. ПростойТекст — это любые токены, кроме токена [ который открывает тег. Напишем метод:
 
парситьПростойТекст()
{
токены = [];
пока (текущий токен не равен [) {
т = прочитатьТекущийТокен();
добавить т в массив токены;
}
 
вернуть новый ТекстовыйУзел(токены);
}
 
Напишем еще метод: 
 
парситьПарныйТег()
{
узел = парситьОткрывающийТег();
 
содержимое  = парситьСложныйТекст();
узел.добавитьДетей(содержимое);
 
название = парситьЗакрывающийТег();
если (название не совпадает с названием узла)  то { ошибка;}
 
вернуть узел;
}
 
Вот как-то так.

0J3QtSwg0YLRiyDQtNC10LvQsNC10YjRjCDQvdC10L/RgNCw0LLQuNC70YzQvdC+LiDQodGD0YLRjCDQvNC10YLQvtC00LAg0YDQtdC60YPRgNGB0LjQstC90L7Qs9C+INGB0L/Rg9GB0LrQsCDQsiDRgtC+0LwsINGH0YLQviDQvNGLINC00LvRjyDQutCw0LbQtNC+0Lkg0LrQvtC90YHRgtGA0YPQutGG0LjQuCDQv9C40YjQtdC8INGB0LLQvtGOINGE0YPQvdC60YbQuNGOINC00LvRjyDRgNCw0LfQsdC+0YDQsCwg0L/RgNC4INGN0YLQvtC8INGB0L/Rg9GB0LrQsNGP0YHRjCDQvtGCINCx0L7Qu9GM0YjQuNGFINC60L7QvdGB0YLRgNGD0LrRhtC40LkgKNGC0LXQutGB0YIg0YEg0YLQtdCz0LDQvNC4KSDQuiDQvNC10L3RjNGI0LjQvCAo0L7RgtC00LXQu9GM0L3Ri9C5INGC0LXQsykuINCU0LvRjyDQvdCw0YfQsNC70LAg0L3QsNC00L4g0L7Qv9GA0LXQtNC10LvQuNGC0YzRgdGPINGBINCz0YDQsNC80LzQsNGC0LjQutC+0LksINGC0L4g0LXRgdGC0Ywg0L/RgNCw0LLQuNC70LDQvNC4LCDRh9GC0L4g0LzQvtC20LXRgiDQstGB0YLRgNC10YLQuNGC0YzRgdGPINCyINGC0LXQutGB0YLQtS4KCtCh0LjQvNCy0L7QuyB8INGDINC80LXQvdGPINC30L3QsNGH0LjRgiDCq9C40LvQuMK7LiB4INC30L3QsNGH0LjRgiDCq9C80L7QttC10YIg0LLRgdGC0YDQtdGC0LjRgtGM0YHRjyDRgdGC0L7Qu9GM0LrQvi3RgtC+INGA0LDQt8K7CgrQodC70L7QttC90YvQudCi0LXQutGB0YIgPSAo0J/QsNGA0L3Ri9C50KLQtdCzIHwg0J/RgNC+0YHRgtC+0KLQtdC60YHRgikgeCAwIC4uIE4K0J/QsNGA0L3Ri9C50KLQtdCzID0g0J7RgtC60YDRi9Cy0LDRjtGJ0LjQudCi0LXQsyDQodC70L7QttC90YvQudCi0LXQutGB0YIg0JfQsNC60YDRi9Cy0LDRjtGJ0LjQudCi0LXQswrQntGC0LrRgNGL0LLQsNGO0YnQuNC50KLQtdCzID0gLi4uIArQl9Cw0LrRgNGL0LLQsNGO0YnQuNC50KLQtdCzID0g0L/QvtGB0LvQtdC00L7QstCw0YLQtdC70YzQvdC+0YHRgtGMIFsgL25hbWUgXQrQn9GA0L7RgdGC0L7QudCi0LXQutGB0YIgPSAo0LvRjtCx0YvQtSDRgtC+0LrQtdC90Ysg0LrRgNC+0LzQtSBbKQoK0KHQvNC+0YLRgNC4LCDQsdC+0LvQtdC1INGB0LvQvtC20L3Ri9C1INC60L7QvdGB0YLRgNGD0LrRhtC40Lgg0YHQvtGB0YLQvtGP0YIg0LjQtyDQsdC+0LvQtdC1INC/0YDQvtGB0YLRi9GFLiDQrdGC0L4g0YHQv9GD0YHQui4g0J/RgNC4INGN0YLQvtC8INCx0L7Qu9C10LUg0L/RgNC+0YHRgtCw0Y8g0LrQvtC90YHRgtGA0YPQutGG0LjRjyAo0L/QsNGA0L3Ri9C50KLQtdCzKSDQvNC+0LbQtdGCINGB0L7QtNC10YDQttCw0YLRjCDQsdC+0LvQtdC1INGB0LvQvtC20L3Rg9GOICjQodC70L7QttC90YvQudCi0LXQutGB0YIpLiDQrdGC0L4g0YDQtdC60YPRgNGB0LjRjy4KCtCd0LDQvCDQvdCw0LTQviDRgdC00LXQu9Cw0YLRjCDQvdCwINC60LDQttC00YPRjiDQutC+0L3RgdGC0YDRg9C60YbQuNGOINCy0YvRiNC1INGB0LLQvtGOINGE0YPQvdC60YbQuNGOINC00LvRjyDRgNCw0LfQsdC+0YDQsC4g0KLQviDQtdGB0YLRjCDQsdGD0LTRg9GCINGE0YPQvdC60YbQuNC4CgrQv9Cw0YDRgdC40YLRjNCh0LvQvtC20L3Ri9C50KLQtdC60YHRgigpCtC/0LDRgNGB0LjRgtGM0J/QsNGA0L3Ri9C50KLQtdCzKCkKLi4uLi4KCtCf0YDQuCDRjdGC0L7QvCDQutCw0LbQtNCw0Y8g0YTRg9C90LrRhtC40Y8g0YHQvtC30LTQsNC10YIg0Lgg0LLQvtC30LLRgNCw0YnQsNC10YIg0YPQt9C10Lsg0LTQtdGA0LXQstCwINC40LvQuCDQvNCw0YHRgdC40LIg0YPQt9C70L7Qsi4g0J3RgyDRhNGD0L3QutGG0LjRjyDQv9Cw0YDRgdC40YLRjNCX0LDQutGA0YvQstCw0Y7RidC40LnQotC10LMoKSDQvNC+0LbQtdGCINCy0L7Qt9Cy0YDQsNGJ0LDRgtGMINC90LUg0YPQt9C10LssINCwINC/0YDQvtGB0YLQviDQvdCw0LfQstCw0L3QuNC1INGC0L7Qs9C+INGC0LXQs9CwLCDRh9GC0L4g0L7QvdCwINGC0LDQvCDRgNCw0YHQv9Cw0YDRgdC40LvQsC4KCtCS0L7RgiDQv9GA0LjQvNC10YAg0L/QsNGA0YHQuNC90LPQsCDQn9GA0L7RgdGC0L7Qs9C+0KLQtdC60YHRgtCwLiDQn9GA0L7RgdGC0L7QudCi0LXQutGB0YIg4oCUINGN0YLQviDQu9GO0LHRi9C1INGC0L7QutC10L3Riywg0LrRgNC+0LzQtSDRgtC+0LrQtdC90LAgWyDQutC+0YLQvtGA0YvQuSDQvtGC0LrRgNGL0LLQsNC10YIg0YLQtdCzLiDQndCw0L/QuNGI0LXQvCDQvNC10YLQvtC0OgoK0L/QsNGA0YHQuNGC0YzQn9GA0L7RgdGC0L7QudCi0LXQutGB0YIoKQp7CtGC0L7QutC10L3RiyA9IFtdOwrQv9C+0LrQsCAo0YLQtdC60YPRidC40Lkg0YLQvtC60LXQvSDQvdC1INGA0LDQstC10L0gWykgewrRgiA9INC/0YDQvtGH0LjRgtCw0YLRjNCi0LXQutGD0YnQuNC50KLQvtC60LXQvSgpOwrQtNC+0LHQsNCy0LjRgtGMINGCINCyINC80LDRgdGB0LjQsiDRgtC+0LrQtdC90Ys7Cn0KCtCy0LXRgNC90YPRgtGMINC90L7QstGL0Lkg0KLQtdC60YHRgtC+0LLRi9C50KPQt9C10Lso0YLQvtC60LXQvdGLKTsKfQoK0J3QsNC/0LjRiNC10Lwg0LXRidC1INC80LXRgtC+0LQ6IAoK0L/QsNGA0YHQuNGC0YzQn9Cw0YDQvdGL0LnQotC10LMoKQp7CtGD0LfQtdC7ID0g0L/QsNGA0YHQuNGC0YzQntGC0LrRgNGL0LLQsNGO0YnQuNC50KLQtdCzKCk7CgrRgdC+0LTQtdGA0LbQuNC80L7QtSAgPSDQv9Cw0YDRgdC40YLRjNCh0LvQvtC20L3Ri9C50KLQtdC60YHRgigpOwrRg9C30LXQuy7QtNC+0LHQsNCy0LjRgtGM0JTQtdGC0LXQuSjRgdC+0LTQtdGA0LbQuNC80L7QtSk7CgrQvdCw0LfQstCw0L3QuNC1ID0g0L/QsNGA0YHQuNGC0YzQl9Cw0LrRgNGL0LLQsNGO0YnQuNC50KLQtdCzKCk7CtC10YHQu9C4ICjQvdCw0LfQstCw0L3QuNC1INC90LUg0YHQvtCy0L/QsNC00LDQtdGCINGBINC90LDQt9Cy0LDQvdC40LXQvCDRg9C30LvQsCkgINGC0L4geyDQvtGI0LjQsdC60LA7fQoK0LLQtdGA0L3Rg9GC0Ywg0YPQt9C10Ls7Cn0KCtCS0L7RgiDQutCw0Lot0YLQviDRgtCw0Lou

Success #stdin #stdout 0.01s 20520KB

stdin

Standard input is empty

stdout

Не, ты делаешь неправильно. Суть метода рекурсивного спуска в том, что мы для каждой конструкции пишем свою функцию для разбора, при этом спускаясь от больших конструкций (текст с тегами) к меньшим (отдельный тег). Для начала надо определиться с грамматикой, то есть правилами, что может встретиться в тексте.

Символ | у меня значит «или». x значит «может встретиться столько-то раз»

СложныйТекст = (ПарныйТег | ПростоТекст) x 0 .. N
ПарныйТег = ОткрывающийТег СложныйТекст ЗакрывающийТег
ОткрывающийТег = ... 
ЗакрывающийТег = последовательность [ /name ]
ПростойТекст = (любые токены кроме [)

Смотри, более сложные конструкции состоят из более простых. Это спуск. При этом более простая конструкция (парныйТег) может содержать более сложную (СложныйТекст). Это рекурсия.

Нам надо сделать на каждую конструкцию выше свою функцию для разбора. То есть будут функции

парситьСложныйТекст()
парситьПарныйТег()
.....

При этом каждая функция создает и возвращает узел дерева или массив узлов. Ну функция парситьЗакрывающийТег() может возвращать не узел, а просто название того тега, что она там распарсила.

Вот пример парсинга ПростогоТекста. ПростойТекст — это любые токены, кроме токена [ который открывает тег. Напишем метод:

парситьПростойТекст()
{
токены = [];
пока (текущий токен не равен [) {
т = прочитатьТекущийТокен();
добавить т в массив токены;
}

вернуть новый ТекстовыйУзел(токены);
}

Напишем еще метод: 

парситьПарныйТег()
{
узел = парситьОткрывающийТег();

содержимое  = парситьСложныйТекст();
узел.добавитьДетей(содержимое);

название = парситьЗакрывающийТег();
если (название не совпадает с названием узла)  то { ошибка;}

вернуть узел;
}

Вот как-то так.

https://ideone.com/L8JqiH

language:

PHP (php 7.3.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language