¿Cómo evitar las paradas?
La gran cosa de que BOINC sea multiproyecto es que aun cayendo Ibercivis los clientes pueden seguir calculando en otros puntos hasta que volvemos a estar arriba. Ahora, ¿Como evitar estas caidas? No nos sirve da nada tener hardware de alta disponibilidad, porque lo que se desconecta son habitaciones o lineas de comunicacion completas. Por ello desde un principio optamos por nodos distribuidos, pero eso no resuelve el asunto.
¿Por qué? Porque si el scheduler (que podriamos tener duplicado en otro nodo) sigue activo, puede seguir recibiendo confirmaciones de entrega y mandando nuevos resultados. Y aqui tenemos dos problemas;
- si al validador se le informa que hay datos preparados para validar pero estos han sido recibidos en uno de los nodos caidos, entonces el validador da un falso error de validacion.
- si al cliente se le informa de una nueva workunit para calcular pero sus ficheros de input estan solo en una de las unidades caidas, el cliente no puede leerlas y se atasca.
Por ello, un sistema de ficheros distribuido es solo ser parte de la solucion y quizas ni siquiera la unica. Se puede retrasar el arranque de validadores a traves de un programa de control intermedio, el "transitioner". Y los datos de input se pueden duplicar desde el principio. Pero despues de más un año de funcionamiento no tenemos aun claro cual es la mejor idea para automatizar el proceso.
11 comentarios
Alejandro Rivero -
Victor -
llevo un par de días con muchos "errores de calculo", ¿sucede algo o es mi equipo?
Un saludo, gracias
Jose -
Saludos
Emmanuel -
Aun siendo un sistema aislado una biblioteca podria haber la posiblidad de ejecutar codigo malicioso,ejemplo formatear discos de manera remota,ampliando las capacidades del kernel (autoinstalacion de programas)en caso de Linux y autoejecutando un archivo de pocos bits en un nuevo lenguaje de programacion que podria ser bastante destructivo,mi consejo es que la biblioteca solo tenga un compresor de archivos no descompresor y se saquen datos,cuando se apague el sistema siempre desconectar el soporte fisico de los discos duros del sistema,asi te olvidas de problemas,el sistema operativo no tiene control en las unidades de disco duro y no puede ejecutar ningun archivo o modificacion posterior sin vuestra presencia.
Emmanuel -
203.567
213.400 con ello te aseguras que no mandais las mismas tareas a un zona determinada o localidad y aseguras muchisimo mejor la calidad del resultado.
Respecto a la input debeis tener un input central que maneje todas las entradas ajeno a los nodos,si se cae el input central se fastidian todos...
Y recordad que no hay nada validado hasta que se reciben esos datos en la base o biblioteca donde salvais lo importante.
Alejandro Rivero -
Emmanuel -
Emmanuel -
Emmanuel -
Nadie dijo que fuera facil
Emmanuel -
Emmanuel -
Para los procesos ejemplo un galvanizado del metal y su metodo,teneis que tener exactamente lo mismo,para leyes matematicas desde el pi a ley universal igual,de esa manera podreis poner a trabajar los ordenadores centrales aislados y seguros en un trabajo determinado.La computacion distribuida lo que haria es ayudaros a conseguir que vuestras bibliotecas sean las mas serias y cientificas molecularmente,viricamente,bacteriologicamente,nanotecnologicamente,medicamente,tambien conociendo las lineas de internet activas casi permanentemente se podrian hacer calculos en red masivos online,mandando diversas ordenes por repetido a diversos ordenadores distribuidos y anulando las tareas repetidas enviadas online simultaneamente desde el mismo dentro anulando las ips temporalmente.