Tiempos de CPU
Hemos sacado algunos histogramas para ver como iba la duracion de los trabajos respecto a nuestro ideal de 40 minutos. Practicamente todo acaba antes de los 2400 segundos, con dos excepciones en las que se esta trabajando: Materiales 64 y Fusion-iter. Esto es una cierta molestia relativa, dado que cuando se apaga el ordenador es lo mismo que abortar el proceso: el calculo de la workunit (y los creditos) se pierde. Os explico: antiguamente, con windows 95, se diseñaban estos programas para que guardaran continuamente su estado, porque cada vez que el usuario volvia al ordenador el proceso de calculo era terminado fulminantemente. Hoy en dia lo que ocurre es que el proceso se suspende y pasa al swap, a dormir en el disco duro, hasta que vuelve a haber RAM y CPU desocupada. Asi que los desarrolladores no se tienen que preocupar tanto como antiguamente de la recuperacion... a no ser que el proceso dure mucho.
En el caso de "materiales" (vease su blog) la aplicacion ya esta segmentada de forma que cada cuarenta minutos guarda su estado y se da por terminada (de forma que el usuario reciba el credito acumulado). En el caso de "fusion" estan trabajando en ello. Lo que ocurre es que las trajectorias simuladas mas estables duran mucho mas que las que directamente colisionan con las paredes del reactor y aunque muchos de los calculos terminan rapidamente hay un "long tail" de workunits que necesitan horas para terminar.
En cualquier caso, intentamos que los investigadores nos manden trabajos cuyo tiempo medio sea inferior a esos cuarenta minutos prototipicos. Ojo, las aplicaciones que pecan por el lado contrario (demasiado cortas) causan tambien problemas, pero de consumo de ancho de banda y de CPU en los servidores. Esto se equilibra porque ibercivis ajusta los envios de manera que todos los grupos obtengan a la larga el mismo numero de unidades de trabajo, y por tanto los investigadores ya procuran aprovechar el tiempo de cada uno de sus "tickets".
4 comentarios
shakaran -
Saludos
algol -
Dejo este mensaje aquí porque en los de abajo no se ven. La nueva avalancha de unidades de fusión tiene unidades muy cortas que envían paquetes de datos de hasta 600 Kb. Resultado: se merienda entero el ancho de banda de subida.
Salu2.
Fer.
Alejandro Rivero -
Si que habria que avisar lo que es cada eje por si no es obvio: en las x tiempo, en las y la cantidad de workunits que han terminado en cada intervalo.
alfonso tarancon -