Ideone.com

download

copy

/* 
   English Sentence Splitter
 
   Input (stdin): English text.
 
   Output (stdout): Numbered list of individual sentences, each in a separate line.
 
   Algorithm:
     (a) Read the input word-by-word.
     (b) For each pair of adjacent words, estimate the probability that it's a sentence boundary:
        (b-1) Estimate the probability that the previous word ends a sentence.
        (b-2) Estimate the probability that the current word starts a sentence.
        (b-3) These are two different estimates of the SAME probability, so to calculate
              the boundary probability, we take their arithmetic mean.
     (c) If that probability is over 0.5, put the current sentence in list and start a new one.
     Note: estimates are based on author's intuition and not on real life data.
 
   Featurs and bugs:
     (1) All multiple whitespace in sentences will be converted to a single space. So, for example, if the original text was split by line length (e.g. 80 chars per line), the split will NOT be copied to the output.
     (2) I at end of sentence might be mistaken as an initial:
         "Of course", said I. Milne is a great author.
     (3) Quotations may be split into two sentences:
         "Of course. Milne is a great author".
     (4) Three-dots might split a sentence, even if they are within a quotation:
         "This is a quote by the great author... A. A. Milne".
 
   Author: Erel Segal
   Date: 2010-09-13
*/
 
#undef DEBUG
 
#include <iostream>
#include <vector>
#include <string>
using namespace std;
 
 
float probability_that_word_ends_a_sentence(string word) {
// Calculate the conditional probability:
//   Pr(sentence_end|word)
// NOTE: numbers are based on author's intuition and not on real-life data.  if (!word.length())  
 
  if (!word.length())
    return 1.0;   // empty word - possible only at beginning and end of text
 
  char last = word[word.length()-1];
  if (last=='?' || last=='!') {
    return 0.99; 
  } else if (last=='.') {
    // A dot may end a sentence, but may also mark an initial ("A. A. Milne"):
    if (word.length()>2) {   
      return 0.97;
    } else {
      return 0.2; 
        // Possible only if the sentence ends with I, such as: 
        //   "'Of course!' said I. Milne is a great author!"
    }
  } else if (last==':') {   // A colon may sometimes end a sentence
    return 0.8;
  } else if (last=='"') {  // there may be delimiters at the end of a quotation.
    if (word.length()>1) {
      char before_last = word[word.length()-2];
      if (before_last=='.' || before_last=='?' || before_last=='!') {
        return 0.9;
      } else {
        return 0.01; // may be a sentence end only if there is a typo.
      }
    } else {
      return 0.02; // may be a sentence end only if there is a typo.
    }
  } else {
    return 0.02; // may be a sentence end only if there is a typo.
  }
}
 
 
float probability_that_word_starts_a_sentence(string word) {
// Calculate the conditional probability:
//   Pr(sentence_start|word)
// NOTE: numbers are based on author's intuition and not on real-life data.
 
  if (!word.length()) 
    return 1.0;   // empty word - possible only at beginning and end of text
 
  char first = word[0];
  if ('A' <= first && first <= 'Z')
    return 0.4;   // may be a sentence start, but also a proper name.
  else if ('a' <= first && first <= 'z')
    return 0.02;     // may be a sentence start only if there is a typo.
  else 
    return 0.1;   // may be a number or another symbol that starts a sentence rarely.
}
 
 
float probability_of_sentence_boundary(string previous_word, string current_word) {
// Calculate the conditional probability:
//   Pr(sentence_boundary|previous_word current_word)
// We have two different estimates to the same probability:
//   Pr(sentence_end|previous_word)
//   Pr(sentence_start|current_word)
// so we use their arithmetic mean as a fused estimate.
 
  float p_end = probability_that_word_ends_a_sentence(previous_word);
  float p_start = probability_that_word_starts_a_sentence(current_word);
  #ifdef DEBUG
    cout << previous_word << " " << p_end << " " << current_word << " " << p_start << endl;
  #endif
  return 0.5*(p_end+p_start);
}
 
 
void read_sentences_from_cin (vector<string>& sentences) {
  string previous_word="", current_word="";     // process two words at a time
  string sentence="";                           // calculate one sentence at a time
 
  // Loop until end of input:
  for (;;) {
 
    // Read next word and check for end of file:
    current_word = "";
    cin >> current_word;
    if (!current_word.length()) {
      // At end of file, add the current sentence, although it may not end in a sentence-delimiter:
      if (sentence.length()) sentences.push_back(sentence);  
      break;
    }
 
    // If end of sentence, save the current sentence content and initialize it:
    if (probability_of_sentence_boundary(previous_word, current_word) > 0.5) {
      if (sentence.length()) sentences.push_back(sentence);  
      sentence = "";
    }
 
    // Add the current word to the current sentence:
    if (sentence.length()>0)
      sentence += " ";
    sentence += current_word;
 
    previous_word = current_word;
  }
}
 
 
void print_sentences_to_cout (vector<string> sentences) {
  for (size_t i=0; i<sentences.size(); ++i) {
    cout << "(" << (i+1) << ")  " << sentences[i] << endl;
  }
}
 
 
int main() {
  vector<string> sentences;
  read_sentences_from_cin (sentences);
  print_sentences_to_cout (sentences);
}
 
 
 
/* 
  Test case:
 
 
   the first sentence may be missing a capital, while leading    and    inside whitespace is ignored.
 
Here is my test case:
 
Newline should
not break a sentence. Newline is not required to start a sentence. Floating
point numbers such as Pi = 3.14 should not break a sentence. Nor should they
when they are at the end such as e=2.71. 
A. A. Milne was a great author, his name should be totally contained in a single sentence.
"Of course", said I. Milne is a great author!
"Of course", I said. Milne is a great author, but the word order is also important.
"Of course. I. Milne is a great author".
 
What happens when there is a delimiter and no capital afterwards? let's check. it depends.
 
"This is a quote with three dots... it ends here".
"This is another quote by... Milne".
 
I said: "This is a quote that ends with a dot." I hope it will be considered a full sentence.
 
The last sentence may be missing a delimiter
*/

LyogCiAgIEVuZ2xpc2ggU2VudGVuY2UgU3BsaXR0ZXIKCiAgIElucHV0IChzdGRpbik6IEVuZ2xpc2ggdGV4dC4KCiAgIE91dHB1dCAoc3Rkb3V0KTogTnVtYmVyZWQgbGlzdCBvZiBpbmRpdmlkdWFsIHNlbnRlbmNlcywgZWFjaCBpbiBhIHNlcGFyYXRlIGxpbmUuCgogICBBbGdvcml0aG06CiAgICAgKGEpIFJlYWQgdGhlIGlucHV0IHdvcmQtYnktd29yZC4KICAgICAoYikgRm9yIGVhY2ggcGFpciBvZiBhZGphY2VudCB3b3JkcywgZXN0aW1hdGUgdGhlIHByb2JhYmlsaXR5IHRoYXQgaXQncyBhIHNlbnRlbmNlIGJvdW5kYXJ5OgogICAgICAgIChiLTEpIEVzdGltYXRlIHRoZSBwcm9iYWJpbGl0eSB0aGF0IHRoZSBwcmV2aW91cyB3b3JkIGVuZHMgYSBzZW50ZW5jZS4KICAgICAgICAoYi0yKSBFc3RpbWF0ZSB0aGUgcHJvYmFiaWxpdHkgdGhhdCB0aGUgY3VycmVudCB3b3JkIHN0YXJ0cyBhIHNlbnRlbmNlLgogICAgICAgIChiLTMpIFRoZXNlIGFyZSB0d28gZGlmZmVyZW50IGVzdGltYXRlcyBvZiB0aGUgU0FNRSBwcm9iYWJpbGl0eSwgc28gdG8gY2FsY3VsYXRlCiAgICAgICAgICAgICAgdGhlIGJvdW5kYXJ5IHByb2JhYmlsaXR5LCB3ZSB0YWtlIHRoZWlyIGFyaXRobWV0aWMgbWVhbi4KICAgICAoYykgSWYgdGhhdCBwcm9iYWJpbGl0eSBpcyBvdmVyIDAuNSwgcHV0IHRoZSBjdXJyZW50IHNlbnRlbmNlIGluIGxpc3QgYW5kIHN0YXJ0IGEgbmV3IG9uZS4KICAgICBOb3RlOiBlc3RpbWF0ZXMgYXJlIGJhc2VkIG9uIGF1dGhvcidzIGludHVpdGlvbiBhbmQgbm90IG9uIHJlYWwgbGlmZSBkYXRhLgoKICAgRmVhdHVycyBhbmQgYnVnczoKICAgICAoMSkgQWxsIG11bHRpcGxlIHdoaXRlc3BhY2UgaW4gc2VudGVuY2VzIHdpbGwgYmUgY29udmVydGVkIHRvIGEgc2luZ2xlIHNwYWNlLiBTbywgZm9yIGV4YW1wbGUsIGlmIHRoZSBvcmlnaW5hbCB0ZXh0IHdhcyBzcGxpdCBieSBsaW5lIGxlbmd0aCAoZS5nLiA4MCBjaGFycyBwZXIgbGluZSksIHRoZSBzcGxpdCB3aWxsIE5PVCBiZSBjb3BpZWQgdG8gdGhlIG91dHB1dC4KICAgICAoMikgSSBhdCBlbmQgb2Ygc2VudGVuY2UgbWlnaHQgYmUgbWlzdGFrZW4gYXMgYW4gaW5pdGlhbDoKICAgICAgICAgIk9mIGNvdXJzZSIsIHNhaWQgSS4gTWlsbmUgaXMgYSBncmVhdCBhdXRob3IuCiAgICAgKDMpIFF1b3RhdGlvbnMgbWF5IGJlIHNwbGl0IGludG8gdHdvIHNlbnRlbmNlczoKICAgICAgICAgIk9mIGNvdXJzZS4gTWlsbmUgaXMgYSBncmVhdCBhdXRob3IiLgogICAgICg0KSBUaHJlZS1kb3RzIG1pZ2h0IHNwbGl0IGEgc2VudGVuY2UsIGV2ZW4gaWYgdGhleSBhcmUgd2l0aGluIGEgcXVvdGF0aW9uOgogICAgICAgICAiVGhpcyBpcyBhIHF1b3RlIGJ5IHRoZSBncmVhdCBhdXRob3IuLi4gQS4gQS4gTWlsbmUiLgoKICAgQXV0aG9yOiBFcmVsIFNlZ2FsCiAgIERhdGU6IDIwMTAtMDktMTMKKi8KCiN1bmRlZiBERUJVRwoKI2luY2x1ZGUgPGlvc3RyZWFtPgojaW5jbHVkZSA8dmVjdG9yPgojaW5jbHVkZSA8c3RyaW5nPgp1c2luZyBuYW1lc3BhY2Ugc3RkOwoKCmZsb2F0IHByb2JhYmlsaXR5X3RoYXRfd29yZF9lbmRzX2Ffc2VudGVuY2Uoc3RyaW5nIHdvcmQpIHsKLy8gQ2FsY3VsYXRlIHRoZSBjb25kaXRpb25hbCBwcm9iYWJpbGl0eToKLy8gICBQcihzZW50ZW5jZV9lbmR8d29yZCkKLy8gTk9URTogbnVtYmVycyBhcmUgYmFzZWQgb24gYXV0aG9yJ3MgaW50dWl0aW9uIGFuZCBub3Qgb24gcmVhbC1saWZlIGRhdGEuICBpZiAoIXdvcmQubGVuZ3RoKCkpICAKCiAgaWYgKCF3b3JkLmxlbmd0aCgpKQogICAgcmV0dXJuIDEuMDsgICAvLyBlbXB0eSB3b3JkIC0gcG9zc2libGUgb25seSBhdCBiZWdpbm5pbmcgYW5kIGVuZCBvZiB0ZXh0CgogIGNoYXIgbGFzdCA9IHdvcmRbd29yZC5sZW5ndGgoKS0xXTsKICBpZiAobGFzdD09Jz8nIHx8IGxhc3Q9PSchJykgewogICAgcmV0dXJuIDAuOTk7IAogIH0gZWxzZSBpZiAobGFzdD09Jy4nKSB7CiAgICAvLyBBIGRvdCBtYXkgZW5kIGEgc2VudGVuY2UsIGJ1dCBtYXkgYWxzbyBtYXJrIGFuIGluaXRpYWwgKCJBLiBBLiBNaWxuZSIpOgogICAgaWYgKHdvcmQubGVuZ3RoKCk+MikgeyAgIAogICAgICByZXR1cm4gMC45NzsKICAgIH0gZWxzZSB7CiAgICAgIHJldHVybiAwLjI7IAogICAgICAgIC8vIFBvc3NpYmxlIG9ubHkgaWYgdGhlIHNlbnRlbmNlIGVuZHMgd2l0aCBJLCBzdWNoIGFzOiAKICAgICAgICAvLyAgICInT2YgY291cnNlIScgc2FpZCBJLiBNaWxuZSBpcyBhIGdyZWF0IGF1dGhvciEiCiAgICB9CiAgfSBlbHNlIGlmIChsYXN0PT0nOicpIHsgICAvLyBBIGNvbG9uIG1heSBzb21ldGltZXMgZW5kIGEgc2VudGVuY2UKICAgIHJldHVybiAwLjg7CiAgfSBlbHNlIGlmIChsYXN0PT0nIicpIHsgIC8vIHRoZXJlIG1heSBiZSBkZWxpbWl0ZXJzIGF0IHRoZSBlbmQgb2YgYSBxdW90YXRpb24uCiAgICBpZiAod29yZC5sZW5ndGgoKT4xKSB7CiAgICAgIGNoYXIgYmVmb3JlX2xhc3QgPSB3b3JkW3dvcmQubGVuZ3RoKCktMl07CiAgICAgIGlmIChiZWZvcmVfbGFzdD09Jy4nIHx8IGJlZm9yZV9sYXN0PT0nPycgfHwgYmVmb3JlX2xhc3Q9PSchJykgewogICAgICAgIHJldHVybiAwLjk7CiAgICAgIH0gZWxzZSB7CiAgICAgICAgcmV0dXJuIDAuMDE7IC8vIG1heSBiZSBhIHNlbnRlbmNlIGVuZCBvbmx5IGlmIHRoZXJlIGlzIGEgdHlwby4KICAgICAgfQogICAgfSBlbHNlIHsKICAgICAgcmV0dXJuIDAuMDI7IC8vIG1heSBiZSBhIHNlbnRlbmNlIGVuZCBvbmx5IGlmIHRoZXJlIGlzIGEgdHlwby4KICAgIH0KICB9IGVsc2UgewogICAgcmV0dXJuIDAuMDI7IC8vIG1heSBiZSBhIHNlbnRlbmNlIGVuZCBvbmx5IGlmIHRoZXJlIGlzIGEgdHlwby4KICB9Cn0KCgpmbG9hdCBwcm9iYWJpbGl0eV90aGF0X3dvcmRfc3RhcnRzX2Ffc2VudGVuY2Uoc3RyaW5nIHdvcmQpIHsKLy8gQ2FsY3VsYXRlIHRoZSBjb25kaXRpb25hbCBwcm9iYWJpbGl0eToKLy8gICBQcihzZW50ZW5jZV9zdGFydHx3b3JkKQovLyBOT1RFOiBudW1iZXJzIGFyZSBiYXNlZCBvbiBhdXRob3IncyBpbnR1aXRpb24gYW5kIG5vdCBvbiByZWFsLWxpZmUgZGF0YS4KCiAgaWYgKCF3b3JkLmxlbmd0aCgpKSAKICAgIHJldHVybiAxLjA7ICAgLy8gZW1wdHkgd29yZCAtIHBvc3NpYmxlIG9ubHkgYXQgYmVnaW5uaW5nIGFuZCBlbmQgb2YgdGV4dAoKICBjaGFyIGZpcnN0ID0gd29yZFswXTsKICBpZiAoJ0EnIDw9IGZpcnN0ICYmIGZpcnN0IDw9ICdaJykKICAgIHJldHVybiAwLjQ7ICAgLy8gbWF5IGJlIGEgc2VudGVuY2Ugc3RhcnQsIGJ1dCBhbHNvIGEgcHJvcGVyIG5hbWUuCiAgZWxzZSBpZiAoJ2EnIDw9IGZpcnN0ICYmIGZpcnN0IDw9ICd6JykKICAgIHJldHVybiAwLjAyOyAgICAgLy8gbWF5IGJlIGEgc2VudGVuY2Ugc3RhcnQgb25seSBpZiB0aGVyZSBpcyBhIHR5cG8uCiAgZWxzZSAKICAgIHJldHVybiAwLjE7ICAgLy8gbWF5IGJlIGEgbnVtYmVyIG9yIGFub3RoZXIgc3ltYm9sIHRoYXQgc3RhcnRzIGEgc2VudGVuY2UgcmFyZWx5Lgp9CgoKZmxvYXQgcHJvYmFiaWxpdHlfb2Zfc2VudGVuY2VfYm91bmRhcnkoc3RyaW5nIHByZXZpb3VzX3dvcmQsIHN0cmluZyBjdXJyZW50X3dvcmQpIHsKLy8gQ2FsY3VsYXRlIHRoZSBjb25kaXRpb25hbCBwcm9iYWJpbGl0eToKLy8gICBQcihzZW50ZW5jZV9ib3VuZGFyeXxwcmV2aW91c193b3JkIGN1cnJlbnRfd29yZCkKLy8gV2UgaGF2ZSB0d28gZGlmZmVyZW50IGVzdGltYXRlcyB0byB0aGUgc2FtZSBwcm9iYWJpbGl0eToKLy8gICBQcihzZW50ZW5jZV9lbmR8cHJldmlvdXNfd29yZCkKLy8gICBQcihzZW50ZW5jZV9zdGFydHxjdXJyZW50X3dvcmQpCi8vIHNvIHdlIHVzZSB0aGVpciBhcml0aG1ldGljIG1lYW4gYXMgYSBmdXNlZCBlc3RpbWF0ZS4KCiAgZmxvYXQgcF9lbmQgPSBwcm9iYWJpbGl0eV90aGF0X3dvcmRfZW5kc19hX3NlbnRlbmNlKHByZXZpb3VzX3dvcmQpOwogIGZsb2F0IHBfc3RhcnQgPSBwcm9iYWJpbGl0eV90aGF0X3dvcmRfc3RhcnRzX2Ffc2VudGVuY2UoY3VycmVudF93b3JkKTsKICAjaWZkZWYgREVCVUcKICAgIGNvdXQgPDwgcHJldmlvdXNfd29yZCA8PCAiICIgPDwgcF9lbmQgPDwgIiAiIDw8IGN1cnJlbnRfd29yZCA8PCAiICIgPDwgcF9zdGFydCA8PCBlbmRsOwogICNlbmRpZgogIHJldHVybiAwLjUqKHBfZW5kK3Bfc3RhcnQpOwp9CgoKdm9pZCByZWFkX3NlbnRlbmNlc19mcm9tX2NpbiAodmVjdG9yPHN0cmluZz4mIHNlbnRlbmNlcykgewogIHN0cmluZyBwcmV2aW91c193b3JkPSIiLCBjdXJyZW50X3dvcmQ9IiI7ICAgICAvLyBwcm9jZXNzIHR3byB3b3JkcyBhdCBhIHRpbWUKICBzdHJpbmcgc2VudGVuY2U9IiI7ICAgICAgICAgICAgICAgICAgICAgICAgICAgLy8gY2FsY3VsYXRlIG9uZSBzZW50ZW5jZSBhdCBhIHRpbWUKCiAgLy8gTG9vcCB1bnRpbCBlbmQgb2YgaW5wdXQ6CiAgZm9yICg7OykgewoKICAgIC8vIFJlYWQgbmV4dCB3b3JkIGFuZCBjaGVjayBmb3IgZW5kIG9mIGZpbGU6CiAgICBjdXJyZW50X3dvcmQgPSAiIjsKICAgIGNpbiA+PiBjdXJyZW50X3dvcmQ7CiAgICBpZiAoIWN1cnJlbnRfd29yZC5sZW5ndGgoKSkgewogICAgICAvLyBBdCBlbmQgb2YgZmlsZSwgYWRkIHRoZSBjdXJyZW50IHNlbnRlbmNlLCBhbHRob3VnaCBpdCBtYXkgbm90IGVuZCBpbiBhIHNlbnRlbmNlLWRlbGltaXRlcjoKICAgICAgaWYgKHNlbnRlbmNlLmxlbmd0aCgpKSBzZW50ZW5jZXMucHVzaF9iYWNrKHNlbnRlbmNlKTsgIAogICAgICBicmVhazsKICAgIH0KCiAgICAvLyBJZiBlbmQgb2Ygc2VudGVuY2UsIHNhdmUgdGhlIGN1cnJlbnQgc2VudGVuY2UgY29udGVudCBhbmQgaW5pdGlhbGl6ZSBpdDoKICAgIGlmIChwcm9iYWJpbGl0eV9vZl9zZW50ZW5jZV9ib3VuZGFyeShwcmV2aW91c193b3JkLCBjdXJyZW50X3dvcmQpID4gMC41KSB7CiAgICAgIGlmIChzZW50ZW5jZS5sZW5ndGgoKSkgc2VudGVuY2VzLnB1c2hfYmFjayhzZW50ZW5jZSk7ICAKICAgICAgc2VudGVuY2UgPSAiIjsKICAgIH0KCiAgICAvLyBBZGQgdGhlIGN1cnJlbnQgd29yZCB0byB0aGUgY3VycmVudCBzZW50ZW5jZToKICAgIGlmIChzZW50ZW5jZS5sZW5ndGgoKT4wKQogICAgICBzZW50ZW5jZSArPSAiICI7CiAgICBzZW50ZW5jZSArPSBjdXJyZW50X3dvcmQ7CgogICAgcHJldmlvdXNfd29yZCA9IGN1cnJlbnRfd29yZDsKICB9Cn0KCgp2b2lkIHByaW50X3NlbnRlbmNlc190b19jb3V0ICh2ZWN0b3I8c3RyaW5nPiBzZW50ZW5jZXMpIHsKICBmb3IgKHNpemVfdCBpPTA7IGk8c2VudGVuY2VzLnNpemUoKTsgKytpKSB7CiAgICBjb3V0IDw8ICIoIiA8PCAoaSsxKSA8PCAiKSAgIiA8PCBzZW50ZW5jZXNbaV0gPDwgZW5kbDsKICB9Cn0KCgppbnQgbWFpbigpIHsKICB2ZWN0b3I8c3RyaW5nPiBzZW50ZW5jZXM7CiAgcmVhZF9zZW50ZW5jZXNfZnJvbV9jaW4gKHNlbnRlbmNlcyk7CiAgcHJpbnRfc2VudGVuY2VzX3RvX2NvdXQgKHNlbnRlbmNlcyk7Cn0KCgoKLyogCiAgVGVzdCBjYXNlOgoKCiAgIHRoZSBmaXJzdCBzZW50ZW5jZSBtYXkgYmUgbWlzc2luZyBhIGNhcGl0YWwsIHdoaWxlIGxlYWRpbmcgICAgYW5kICAgIGluc2lkZSB3aGl0ZXNwYWNlIGlzIGlnbm9yZWQuCgpIZXJlIGlzIG15IHRlc3QgY2FzZToKCk5ld2xpbmUgc2hvdWxkCm5vdCBicmVhayBhIHNlbnRlbmNlLiBOZXdsaW5lIGlzIG5vdCByZXF1aXJlZCB0byBzdGFydCBhIHNlbnRlbmNlLiBGbG9hdGluZwpwb2ludCBudW1iZXJzIHN1Y2ggYXMgUGkgPSAzLjE0IHNob3VsZCBub3QgYnJlYWsgYSBzZW50ZW5jZS4gTm9yIHNob3VsZCB0aGV5CndoZW4gdGhleSBhcmUgYXQgdGhlIGVuZCBzdWNoIGFzIGU9Mi43MS4gCkEuIEEuIE1pbG5lIHdhcyBhIGdyZWF0IGF1dGhvciwgaGlzIG5hbWUgc2hvdWxkIGJlIHRvdGFsbHkgY29udGFpbmVkIGluIGEgc2luZ2xlIHNlbnRlbmNlLgoiT2YgY291cnNlIiwgc2FpZCBJLiBNaWxuZSBpcyBhIGdyZWF0IGF1dGhvciEKIk9mIGNvdXJzZSIsIEkgc2FpZC4gTWlsbmUgaXMgYSBncmVhdCBhdXRob3IsIGJ1dCB0aGUgd29yZCBvcmRlciBpcyBhbHNvIGltcG9ydGFudC4KIk9mIGNvdXJzZS4gSS4gTWlsbmUgaXMgYSBncmVhdCBhdXRob3IiLgoKV2hhdCBoYXBwZW5zIHdoZW4gdGhlcmUgaXMgYSBkZWxpbWl0ZXIgYW5kIG5vIGNhcGl0YWwgYWZ0ZXJ3YXJkcz8gbGV0J3MgY2hlY2suIGl0IGRlcGVuZHMuCgoiVGhpcyBpcyBhIHF1b3RlIHdpdGggdGhyZWUgZG90cy4uLiBpdCBlbmRzIGhlcmUiLgoiVGhpcyBpcyBhbm90aGVyIHF1b3RlIGJ5Li4uIE1pbG5lIi4KCkkgc2FpZDogIlRoaXMgaXMgYSBxdW90ZSB0aGF0IGVuZHMgd2l0aCBhIGRvdC4iIEkgaG9wZSBpdCB3aWxsIGJlIGNvbnNpZGVyZWQgYSBmdWxsIHNlbnRlbmNlLgoKVGhlIGxhc3Qgc2VudGVuY2UgbWF5IGJlIG1pc3NpbmcgYSBkZWxpbWl0ZXIKKi8=

Success #stdin #stdout 0s 2864KB

stdin

copy


   the first sentence may be missing a capital, while leading    and    inside whitespace is ignored.

Here is my test case:

Newline should
not break a sentence. Newline is not required to start a sentence. Floating
point numbers such as Pi = 3.14 should not break a sentence. Nor should they
when they are at the end such as e=2.71. 
A. A. Milne was a great author, his name should be totally contained in a single sentence.
"Of course", said I. Milne is a great author!
"Of course", I said. Milne is a great author, but the word order is also important.
"Of course. I. Milne is a great author".

What happens when there is a delimiter and no capital afterwards? let's check. it depends.

"This is a quote with three dots... it ends here".
"This is another quote by... Milne".

I said: "This is a quote that ends with a dot." I hope it will be considered a full sentence.

The last sentence may be missing a delimiter

stdout

copy

(1)  the first sentence may be missing a capital, while leading and inside whitespace is ignored.
(2)  Here is my test case:
(3)  Newline should not break a sentence.
(4)  Newline is not required to start a sentence.
(5)  Floating point numbers such as Pi = 3.14 should not break a sentence.
(6)  Nor should they when they are at the end such as e=2.71.
(7)  A. A. Milne was a great author, his name should be totally contained in a single sentence.
(8)  "Of course", said I. Milne is a great author!
(9)  "Of course", I said.
(10)  Milne is a great author, but the word order is also important.
(11)  "Of course.
(12)  I. Milne is a great author".
(13)  What happens when there is a delimiter and no capital afterwards?
(14)  let's check. it depends.
(15)  "This is a quote with three dots... it ends here".
(16)  "This is another quote by...
(17)  Milne".
(18)  I said: "This is a quote that ends with a dot."
(19)  I hope it will be considered a full sentence.
(20)  The last sentence may be missing a delimiter

https://ideone.com/2ZuWc

language:

C++ (gcc 8.3)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language