`nlp.add_pipe` теперь принимает название строки заводской фабрики зарегистрированных компонентов
import spacy
import re
from spacy.language import Language
nlp = spacy.load('en_core_web_sm')
boundary = re.compile('^[0-9]$')
@Language.component("component")
def custom_seg(doc):
prev = doc[0].text
length = len(doc)
for index, token in enumerate(doc):
if (token.text == '.' and boundary.match(prev) and index!=(length - 1)):
doc[index+1].sent_start = False
prev = token.text
return doc
nlp.add_pipe("component", before='parser')
Martian