protector сказал:
Так как искать нужно по части слова, то могут быть значительные ошибки.
И не надо по части слова, будет много ложных срабатываний. Нужны два списка - нормализованные (леммы, хуемы) для географических названий (ФИАС тут
https://fias.nalog.ru/Updates) и текст страницы после аналогичной обработки. Если пересечения (или что-то посложнее) есть, то на странице возможно (фамилии могут быть просто фамилиями, а не названиями улиц, например) есть географические признаки.
Аналогично с номерами телефонов, станциями метро и улиц (есть в ФИАС, вроде бы).
Если какое-то кол-во/доля признаков набирается, то можно говорить о географической принадлежности.
Но можно пойти ещё дальше: набрать документов с хорошей географичностью и её отсутствием и посчитать на них векторные представления слов. Немножко матана и тогда уже, возможно, получится классифицировать тексты без геоназваний, но по всяким местным оборотам и локальным словечкам, типа булки, поребрика, садить и жменя.