Preguntas Frecuentes

BioForging está diseñado para un amplio espectro de usuarios en el campo de las biociencias: desde investigadores y científicos en laboratorios que necesitan herramientas potentes de análisis genómico, hasta estudiantes de grado y posgrado que están aprendiendo bioinformática u otras biociencias.

La versión Gratuita de BioForging te ofrece un sólido núcleo de herramientas, ideal para tus análisis y proyectos de investigación. Para los investigadores que buscan ir más allá, BioForging Premium desbloquea nuestro arsenal completo, dándote acceso a módulos de análisis avanzado, algoritmos especializados y capacidades de visualización extendidas.

BioForging es multiplataforma. Funciona de forma nativa en Windows, macOS y Linux para que puedas investigar sin importar el sistema operativo que uses.

Nuestra plataforma te permite realizar análisis genómicos, proteómicos, visualización molecular 3D, diseño de primers y más, todo desde una interfaz intuitiva.

Utilizamos encriptación de última generación y cumplimos con los estándares internacionales de seguridad para asegurar que tu información y la de tu laboratorio esté siempre protegida.

Sí, el Cuaderno de Laboratorio Electrónico (ELN) está diseñado para el trabajo en equipo, permitiendo asignar tareas, compartir protocolos y visualizar el progreso de cada experimento de forma centralizada.

Para que la Inteligencia Artificial de BioForging sea precisa, no importa si estás estudiando Kinasas, Proteasas, Receptores Acoplados a Proteínas G (GPCRs) o Canales Iónicos. Un modelo matemático es tan bueno como la calidad de los datos que consume.

Esta guía te explicará cómo construir, curar y armar un archivo CSV perfecto para entrenar sesiones de alta precisión para cualquier blanco terapéutico.

Paso 1: Obtener los Activos

El núcleo de tu dataset deben ser compuestos que se sabe científicamente que modulan a tu proteína objetivo (inhibidores, agonistas, antagonistas, etc.).

La Fuente Ideal: Utiliza bases de datos públicas de alta calidad como ChEMBL, PubChem o BindingDB. Descarga los datos buscando el nombre oficial de tu proteína.
Filtrar por Afinidad: Filtra solo los compuestos que tengan mediciones de alta potencia (ej. IC50 < 100 nM, Kd < 100 nM o Ki < 100 nM). No ensucies tu dataset con compuestos "mediocres" que apenas interactúan con la proteína.
Limpieza Estructural: Elimina del archivo cualquier fila que no tenga un formato SMILES válido, o moléculas de laboratorio extremadamente raras que contengan metales pesados.

Paso 2: Forzar la Diversidad Estructural

Si de tus 3000 compuestos activos, 2500 son derivados exactos de una sola droga famosa (solo cambiando un átomo de carbono), la IA se volverá "perezosa". Memorizará ese esqueleto único y rechazará todo lo demás.

¿Qué hacer? Asegúrate de que tu base de datos tenga representantes de diferentes clases químicas.
Ejemplo: Si estudias una kinasa, asegúrate de tener compuestos que se unan al sitio activo del ATP (Tipo I), pero también incluye inhibidores alostéricos (Tipo II o III) que tengan estructuras radicalmente distintas. Esto obliga a la IA a aprender los patrones químicos abstractos compartidos (Scaffold-Hopping) en lugar de memorizar la forma de una sola pastilla.

Paso 3: Inyectar Negativos Reales y "Trampas" (Hard Decoys)

Si solo le das a la IA compuestos que sirven, la red neuronal asumirá ingenuamente que cualquier molécula del universo que comparta algunas de esas piezas (como un simple anillo de benceno) también sirve para tu proteína.

El motor BSI está diseñado matemáticamente para explotar las diferencias estructurales. Por ello, debes agregar manualmente al final de tu CSV controles negativos con etiqueta 0 (Inactivo), divididos en dos categorías esenciales:

Negativos Experimentales Conocidos: Busca en las mismas bases de datos compuestos que fueron evaluados contra tu proteína pero que no mostraron actividad (ej. compuestos con IC50 > 10,000 nM o mediciones reportadas como "Inactive").
¿Por qué son invaluables? Muchos de estos negativos son análogos estructurales directos de tus activos (solo cambia un grupo metilo, la posición de un nitrógeno, etc.). Al incluir un análogo activo (label 1) y su análogo inactivo (label 0), la IA aprende la topología milimétrica exacta del bolsillo de unión y descubre cuáles son los cambios atómicos críticos que destruyen la afinidad.
Trampas de Farmacología General (Hard Decoys): Son compuestos inactivos completamente no relacionados que sirven para que la red neuronal no sobreestime fragmentos famosos. Usa la siguiente lógica para armar tus trampas universales:
- Trampas de Halógenos (Flúor/Cloro): Muchos fármacos modernos usan flúor. Agrega inactivos comunes fluorados (ej. Fluoxetina/Prozac).
- Trampas de Densidad de Nitrógeno: Agrega compuestos de anillos de nitrógeno (ej. Metotrexato, Cafeína, Viagra). Evita que la IA asocie ciegamente el nitrógeno con afinidad.
- Trampas de Simplicidad: Agrega andamios simples (ej. Aspirina, Ibuprofeno).
- Trampas Estéricas (Tamaño Extremo): Agrega moléculas súper grasas y grandes (Colesterol) y moléculas gigantes cíclicas (Eritromicina). Esto le enseña a la IA a respetar los límites de tamaño del bolsillo de la proteína.

Paso 4: Dar Formato al Archivo CSV

Tu archivo CSV final debe estar perfectamente estructurado para que BioForging lo pueda procesar sin errores.

Las columnas mínimas e indispensables que debe tener el CSV son:

chembl_id (o cualquier ID textual para identificar la fila, como Mol_001).
smiles (La estructura química exacta de la molécula).
label (Esta es la clave de todo el entrenamiento: 1 para tus activos descargados, y 0 para las trampas de farmacología general que agregaste).

(Las columnas adicionales de IC50, unidades, o nombres son útiles para el investigador, pero la red neuronal BSI de BioForging solo necesita mirar el SMILES y el Label).

Esta guía te servirá cuando hayas entrenado al modelo BSI con un dataset enfocado en una única proteína (como la Integrasa del VIH) o en una familia de proteínas muy afines.

A diferencia de los enfoques tradicionales que solo comparan el parecido físico entre moléculas, el Índice de Similitud de Bioactividad (BSI) busca el "perfil biológico" del compuesto. Por eso, la forma de leer los resultados es bastante distinta.

1. Cómo interpretar los resultados "Verdes" (Certeza de Bioactividad)

En el sistema BSI, cuando ves un porcentaje alto de "verdes", significa que la red está muy segura de que tu molécula es un inhibidor real. Básicamente, el modelo logró identificar el perfil activo de tu molécula en todos esos compuestos de referencia.

Aquí tienes una regla práctica para interpretar esos porcentajes:

Menos de 3% (Ruido estadístico / Inactivo): Es el límite crítico. Si tu candidato apenas enciende entre 30 y 80 verdes en una base de 3000, deberías considerarlo inactivo. Las moléculas "trampa" (como la aspirina) siempre van a rascar un 1% o 2% simplemente por coincidencias matemáticas menores. Si no pasas el 3%, el compuesto probablemente no sirva.
Entre 5% y 15% (El rango novedoso): El modelo confía en que el compuesto es activo, pero su perfil biológico solo coincide con un grupo muy pequeño y específico de inhibidores conocidos. Suele ser un excelente candidato si buscas estructuras químicas realmente nuevas.
Entre 15% y 50% (El rango ideal): Este es el mejor escenario. Tu molécula encendió en verde a una gran parte de los fármacos conocidos para esa proteína. El modelo tiene muchísima confianza en su potencial.
Más de 90% (Rango promiscuo): Cuidado acá. Si el compuesto marca en verde a casi toda la tabla, seguramente estás frente a un compuesto de interferencia (PAINS). Es una molécula demasiado inespecífica que reaccionará con cualquier cosa y probablemente resulte tóxica.

Tip de Control de Calidad: Como los compuestos inactivos que usaste para el entrenamiento (label=0) se ocultan en los resultados finales, te conviene hacer una prueba inversa para evitar falsos positivos. Ingresa el SMILES de una molécula trampa cualquiera (como la aspirina). Si tu modelo quedó bien entrenado, ese compuesto debería caer en el rango de ruido (menos del 3%).

2. Encontrando el candidato ideal: BSI vs. Tanimoto

Imagina que tienes dos compuestos, A y B, y ambos obtienen un excelente 35% de verdes en BSI. ¿Por cuál deberías apostar para llevar al laboratorio? El desempate se resuelve cruzando el puntaje BSI con el índice de similitud estructural de Tanimoto.

La combinación ganadora (BSI Alto + Tanimoto Bajo): Aquí es donde está el verdadero descubrimiento (Scaffold-Hopping). Si tu compuesto supera el 15% de BSI pero su similitud física (Tanimoto) es ínfima comparada con lo que ya existe (ej. 0.08 a 0.15), acabas de encontrar una estructura química totalmente nueva e inédita, pero que biológicamente promete hacer lo mismo que los fármacos más potentes del mercado. Es un candidato altamente patentable.
El candidato seguro pero predecible (BSI Alto + Tanimoto Alto): Si tu compuesto B tiene buen BSI pero un Tanimoto muy alto (ej. 0.85), estás frente a un clon o una copia de un fármaco que ya existe en tu base de datos. Sigue siendo un buen inhibidor, pero estructuralmente no aporta nada nuevo y probablemente ya esté patentado.

Esta guía está pensada para cuando entrenas al modelo BSI utilizando un dataset masivo que abarca varias proteínas o familias enteras (por ejemplo, una base de datos con 10,000 compuestos activos contra las Kinasas A, B, C y D).

Al trabajar con múltiples blancos, la red BSI actúa como un evaluador sumamente estricto de afinidad y toxicidad. Aquí tu objetivo principal cambia: ya no solo buscas acertar a la proteína deseada, sino asegurarte de que el compuesto fracase contundentemente contra todas las demás.

1. Cómo interpretar la Selectividad Bioactiva (La regla de los "Verdes")

A diferencia de los modelos de un solo blanco donde buscamos la mayor cantidad de verdes posible, en un entorno masivo (Pan-Target), el porcentaje de verdes te dirá qué tan selectivo o qué tan inespecífico es tu compuesto.

Imaginando un dataset con miles de fármacos distribuidos en muchísimas proteínas, así se interpretan los porcentajes:

Selectividad Extrema (1% a 5% del dataset total): Es el escenario perfecto. Tu candidato iluminó en verde únicamente a los inhibidores de la proteína que te interesa, dejando en un estricto 0% a todas las demás. El modelo te asegura que el perfil biológico del compuesto es específico y letal solo para esa diana.
Perfil de Doble o Triple Acción (5% a 10% del dataset total): Tu compuesto enciende en verde a los fármacos de la Proteína A, pero también a los de la Proteína B con alta certeza (BSI > 0.8). Para ciertas enfermedades complejas, como algunos tipos de cáncer, inhibir dos rutas a la vez es excelente. Sin embargo, para otras patologías, esto significa efectos secundarios garantizados.
Compuesto Inespecífico o Promiscuo (Más del 15% del dataset total): Si la molécula se ilumina frente a inhibidores de Kinasas, receptores de serotonina y canales iónicos al mismo tiempo, cuidado. La red te está advirtiendo que es un compuesto de interferencia (PAINS) altamente inespecífico. Básicamente, se pegará a cualquier cosa en el organismo y resultará tóxico. Lo mejor es descartarlo.

Sobre los controles inactivos: Al igual que en los ensayos de blanco único, las moléculas inactivas (las trampas) no aparecerán en los resultados finales. Para validar tu modelo, busca manualmente el SMILES de compuestos como la aspirina o el sildenafil; estos deberían mostrar cero resultados verdes frente a todas las proteínas de tu base de datos.

2. Mapeo Predictivo de Efectos Secundarios (Off-Target)

Una de las mayores ventajas de un modelo BSI entrenado con múltiples familias es que funciona como un panel predictivo de toxicidad.

Si evalúas tu mejor candidato y obtienes 200 coincidencias en verde (BSI > 0.8), tu siguiente paso es ordenar los resultados por la columna de "Proteína Objetivo" (Target) y revisar qué fue exactamente lo que encendió:

Confirmación de diana (On-Target): Si las 200 moléculas coinciden estrictamente con inhibidores de la proteína que querías atacar, vas por excelente camino hacia un fármaco muy seguro.
Detección de toxicidad cruzada (Off-Target): Si tu objetivo era desarrollar un antiinflamatorio, pero notas que 15 de los compuestos en verde son conocidos por bloquear el canal hERG del corazón o son receptores psiquiátricos, el modelo te acaba de ahorrar años de pruebas. Te está pronosticando que el compuesto podría causar arritmias o efectos adversos neurológicos graves.

3. Criterios de Selección Final en Entornos Multi-Blanco

Cuando tienes dos excelentes candidatos (A y B) para tu proteína objetivo, debes tomar una decisión estratégica basada en la seguridad y la novedad.

El Factor de Limpieza (Selectividad): Supongamos que el Candidato A tiene 100 verdes contra tu proteína, pero 10 verdes contra blancos tóxicos (como el hERG). Por otro lado, el Candidato B tiene solo 50 verdes para tu objetivo, pero un impecable 0.0 en todo lo demás. En el desarrollo farmacéutico real, el Candidato B es el claro ganador. La ausencia total de toxicidad casi siempre es más valiosa que un ligero aumento en la potencia.
Novedad Estructural (Scaffold-Hopping): Algunos esqueletos químicos (como las quinolinas) son famosos por interactuar con múltiples proteínas a la vez. Si tu Candidato A usa uno de estos esqueletos comunes y el Candidato B tiene una estructura química totalmente nueva (Tanimoto < 0.15) que el modelo BSI nunca antes ha visto, pero que igual logra apuntar exclusivamente a tu proteína, el Candidato B es el que debes patentar. Acabas de descubrir una nueva llave química altamente selectiva.

Preguntas Frecuentes (FAQ)