Blogia
Blog de Ibercivis

como termina un job

como termina un job

Aqui seria interesante postular el modelo matematico y ver como encaja la curva. El caso es que esta semana hemos pillado a la vez dos terminaciones de jobs, que estaban calculados mas o menos para el verano. Ya lo he contado antes: un job no acaba de golpe sino que decae en lo que parece una exponencial, que depende de tiempos de caducidad y de duracion de las workunits. Cuando detectamos el modo de terminacion comenzamos a mandar cada seis horas una segunda copia de los trabajos que no han terminado, eso ayuda un poco. Si os fijais con lupa, se puede apreciar un poco despues de la medianoche del lunes y del viernes. No obstante, sigue siendo cierto que un trabajo de unas 20000 workunits tarda dos dias en terminar, eso haria mas apropiada la Grid que BOINC para los trabajos "cortos", digamos de hasta 64Kcpus. o Kprocesos.

20 comentarios

Manu -

Lo que si pienso que se debe "poner las pilas" Ibercivis es en "aprovechar" las potencias de las GPU graficas de cada ordenador conectado en su red y modificar sus aplicaciones para que funcionen con o sin GPU,las GPU son muchisimo mas rapidas que las cpu para cualquier situacion de calculo y simulacion grafica,ademas de gastar mas energia electrica al usuario,jajaja.....pero pensad que con menos ordenadores tendrias mayor potencia de calculo disponible en todo momento,claro que los archivos de vuelta tambien serian de mayor tamaño.......10 o 20 megas por tarea para un tarea de 8 horas,es una pena desperdiciar tal capacidad de esos ordenadores y consolas de videojuegos como playstation 3,tengo entendido que en una web utilizan las playstation en sus calculos y tienen alrededor de 400 teflops solo con las playstation,las actuales tarjetas graficas ya rondan el tera por unidad y tenemos algunos ordenadores con hasta 4 tarjetas graficas,ningun conjunto de chips intel ni amd se aproxima a la potencia de nvidia/ati y los chips cell de playstation3 para tareas de calculo.


Haber si nos dais la sorpresa "para reyes" algunos pensamos que es el camino de mejorar el sistema de calculo en grid,mencionar que hoy probe en cierta web el calculo con gpu y despues de 3 trabajos intensivos de 8 horas cada uno y 20 megas de archivo de salida salieron 17000 creditos,mas los correspondientes de ibercivis,pues el calculo con gpu se suma como una tarea mas por grafica.

Saludos

Alejandro Rivero -

Si los de comunicacion no se animan, lo retomaremos los de desarrollo :)

enric -

Yo pienso exactamente lo mismo.

Rafael Rodriguez -

Ya podríais actualizar mas a menudo el blog de Ibercivis, da sensación de dejadez

luis -

Yo lo que no consigo son tareas de docking se terminan en un suspiro :-D

manu -

Que extraño llevo 2 dias que no consigo descargar nada para ejecutar en ibercivis,cambie una memoria e instale un windows y nada de nada,para mi cpu no hay tareas..........expediente x.

Carlos J. Gil Bellosta -

Hola...

Supongo que el problema del "decaimiento exponencial" tiene que ver con el hecho de que hay ordenadores que no terminan sus tareas. Y que esto es así porque a lo mejor, las últimas se han mandado a ordenadores que están desconectados y que, por lo tanto, son incapaces de rematar su labor a tiempo.

No sé si podría implementarse un sistema de manera que cuando hubiese muchas tareas pendientes (carga de trabajo para un periodo largo) fuese más probable enviarles tareas a ordenadores que operen de manera más o menos esporádica y reservar los "remates" (cuando queden pocas tareas pendientes) a esos ordenadores que históricamente están conectados de manera más continua. Así disminuiría la probabilidad de que quedasen trabajos atrapados en ordenadores no operativos.

Y BOINC funcionaría, como dices arriba, de manera más similar a un GRID.

Un saludo,

Carlos J. Gil Bellosta

Alejandro Rivero -

A medianoche de hoy estara reactivado docking. De veras que lo siento, nuestro partner nos dijo que era solo un problema temporal de DNS.

luis -

Yo llevo 3 dias sin poder enviar resultados y tengo muchos acumulados, lo peor esque ya no hay workunits de docking. Todo parado lo tengo, encima si pasa tiempo no me daran credito por las horas de computacion de esas unidades que esperan puedan ser subidas :-(

Victor -

Perdon por ser tan canso, pero tengo tres ordenadores con unas 50 tareas de dockin terminadas al 100% que no las envia, y lo malo no es eso, es que tampoco reciben nuevas tareas, ¿hay alguna solucion? o simplemente las cancelo?

adjunto un ejemplo del mensaje que me dan al reintentarlo

30/10/2009 8:35:59 Internet access OK - project servers may be temporarily down.
30/10/2009 8:54:36 ibercivis Started upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 8:54:39 ibercivis Temporarily failed upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0: HTTP error
30/10/2009 8:54:39 ibercivis Backing off 3 hr 10 min 56 sec on upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 9:34:47 ibercivis Started upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
30/10/2009 9:34:48 ibercivis Temporarily failed upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0: HTTP error
30/10/2009 9:34:48 ibercivis Backing off 2 hr 11 min 17 sec on upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0

cosubaru -

asi es, a mi tambien me ocurre, http error

Victor -

Buenos dias
llevo un par de dias con problemas a la hora de enviar trabajos y tambien pero menos a la hora de recibirlos me pasa sobre todo con trabajos de docking. Ahora mismo tengo mas de una docena de trabajos terminados y no los envia

Un saludo

Morly -

es muy extraño lo que dice cazamarcianos pero suena familiar.apuesto algo a que pronto aparecen mas ordenadores que hacen lo mismo.huele a los de siempre.

Cazamarcianos -

Hola,

LLevo un tiempo que he notado una bajada importante en mis estadisticas de Ibercivis.

Investigando por si era un problema de mis ordenadores, he descubierto que llevais unos dias que, me imagino que por error, puntuais las unidades de docking a 0.5 creditos, creo que 6 veces por debajo de lo normal.

Un saludo
Jose.

Cazamarcianos -

No se si sabreis que, desde ayer, todos los resultados de docking no salen, por lo menos a mi.

Un saludo
Jose.

METEORSWARM -

01/10/2009 12:08:24 ibercivis Scheduler request completed: got 4 new tasks
01/10/2009 12:08:27 ibercivis Started download of 1bm7_gridmaps.7z
01/10/2009 12:08:27 ibercivis Started download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Finished download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Started download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Finished download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Started download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Finished download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Started download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Finished download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Started download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Finished download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Started download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Finished download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Started download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Finished download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Started download of job_ZINC09505539.xml
01/10/2009 12:08:37 ibercivis Finished download of job_ZINC09505539.xml
01/10/2009 12:08:58 ibercivis Finished download of 1bm7_gridmaps.7z
01/10/2009 12:08:58 ibercivis [error] File 1bm7_gridmaps.7z has wrong size: expected 10362741, got 10301098
01/10/2009 12:08:58 ibercivis [error] Checksum or signature error for 1bm7_gridmaps.7z

Cazamarcianos -

Hola, a la gente de Ibercivis:

Esto ya lo comenté hace tiempo y no se si en su día verificasteis si había un problema con esto.
Hay un ordenador, el 91733, que aparentemente es antiguo y poco potente, pero esta entregando cientos de tareas, solo de neurosim, en un día. Pero lo raro es que cada tarea la procesa en 3 minutos cuando lo normal es de mas de 30.

El ordenador:
http://registro.ibercivis.es/show_host_detail.php?hostid=91733

Ejemplo de las tareas:
http://registro.ibercivis.es/results.php?hostid=91733&offset=200

Deberíais de comprobar si los resultados de esas tareas son correctos, porque puede ser que el programa no procese la tarea pero si genere el algoritmo de validación, con lo que, si es asi, tendréis un montón de valores erróneos.
Un saludo
Jose.

METEORSWARM -

http://www.nvidia.es/object/molecular_dynamics_es.html

Esperemos que con algo mas de tiempo se desarrollen estas nuevas capacidades y las vayamos implementando.

Llevo dias recibiendo solo tareas de prueba y muchas de ellas no se descargan completas o presentan fallos en las descargas de expected number 2214 and have 0,cant rename file,etc

Saludos

METEORWARM -

Una idea que se me ocurre es que podeis acelerar mas los resultados con los ordenadores con Cuda y Tesla y Ati modificando las aplicaciones como gromacs y demas para trabajar con las gpu directamente y puedan ser acelerados esos resultados mucho mas rapido,las actuales memorias de las tarjetas graficas son rapidisimas,el solo cargar las proteinas en memoria de gpu para que recurra a ella la cpu acelera muchisimo los resultados,de hasta el 50% dependiendo de la aplicacion.Seleccionando estos ordenadores previamente podriais encargarle los trabajos mas pesados.

luis -

Pues andais flojos de bless docking, yo llevo 2 dias sin unidades y hoy con que no cuadra el hash osea que se ha "estropeado" por el camino, a ver si echais mas carbón al docking y sube a curva.
Un saludo