Saltar al contenido principal

🗣️ Procesamiento de lenguaje natural

📄️ 🌱 Stemming y lematización

En el ámbito del procesamiento del lenguaje natural (PLN), dos métodos comunes para la normalización de textos que transforman datos de texto sin procesar en un formato legible para su procesamiento automático son el stemming y la lematización. Ambos métodos eliminan los afijos de las palabras flexionadas, dejando solo la raíz. Estos procesos eliminan caracteres al inicio y al final de las palabras. Las raíces resultantes, o palabras base, se utilizan para el procesamiento posterior. Aunque comparten esta similitud, la lematización y el stemming difieren en cómo simplifican las palabras a una forma base común.

📄️ ⛓️ N-Grams

Los N-Gramas son conjuntos de datos que refieren a secuencias contiguas de 'n' palabras provenientes de un texto. La importancia de ocupar dicha relación recae en que según la cantidad de 'n' elementos es posible contar con un mayor entendimiento del contexto del texto, como lo pudiera ser en análisis de sentimientos, al igual que hacer modelos estadísticos del lenguaje para predecir la probabilidad de que se presente cierta palabra o secuencia de palabras, entre otras funciones.